• Tidak ada hasil yang ditemukan

REGRESI ROBUST UNTUK MENGATASI OUTLIER PADA REGRESI LINIER BERGANDA. Isma Hasanah

N/A
N/A
Protected

Academic year: 2022

Membagikan "REGRESI ROBUST UNTUK MENGATASI OUTLIER PADA REGRESI LINIER BERGANDA. Isma Hasanah"

Copied!
12
0
0

Teks penuh

(1)REGRESI ROBUST UNTUK MENGATASI OUTLIER PADA REGRESI LINIER BERGANDA Isma Hasanah isma_semangat@yahoo.co.id Agustini Tripena, Br. Sb Universitas Jenderal Soedirman ABSTRACT. Regression analysis is statistic analysis for building a relation model between dependent variable and independent variable. To get a fit regression model, a good data is needed. A good data is a data which is laid surrounding the regression line. Actually, sometimes there is data which is laid far from the regression line or all of data pattern. The data is known as outlier. This research use least square method to estimate parameter of multivariate regression model, while to solve outlier use M estimation. Procedure of M estimation is minimizing the objective function, so the estimation of parameter model is obtained. Keywords : Outlier, M estimation and robust regression model. ABSTRAK. Analisis regresi merupakan analisis statistik yang bertujuan untuk memodelkan hubungan antara variabel tak bebas dengan variabel bebas. Model regresi yang baik, memerlukan data yang baik pula, yaitu data yang berada disekitar garis regresi. Kenyataannya, terkadang terdapat data yang terletak jauh dari garis regresi atau pola data keseluruhan. Data tersebut dikenal dengan istilah pencilan atau outlier. Pada penelitian ini, digunakan metode kuadrat terkecil untuk mengestimasi parameter model regresi linier berganda, sedangkan untuk mengatasi outlier digunakan estimasi M. Prosedur estimasi M adalah meminimalisasi fungsi obyektif, sehingga diperoleh persamaan estimasi parameter model regresi robust.. Kata Kunci: Outlier, estimasi M dan model regresi robust. 1. PENDAHULUAN Analisis regresi merupakan analisis statistik yang bertujuan untuk memodelkan hubungan antara variabel tak bebas dengan variabel bebas. Model regresi yang baik memerlukan data yang baik pula. Suatu data dikatakan baik apabila data tersebut berada di sekitar garis regresi. Kenyataannya, terkadang terdapat data yang terletak jauh dari garis regresi atau pola data keseluruhan. Data tersebut dikenal dengan istilah pencilan atau outlier. Outlier merupakan suatu keganjilan dan menandakan suatu titik data yang sama sekali tidak tipikal dibanding data lainnya (Draper dan Smith,1992)..

(2) Outlier tidak dapat dibuang atau dihapus begitu saja dari pengamatan. Menurut Draper dan Smith (1992), adakalanya outlier memberikan informasi yang tidak bisa diberikan oleh titik data lainnya, misalnya karena outlier timbul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu diselidiki lebih jauh. Outlier dapat diabaikan apabila setelah ditelusuri ternyata merupakan akibat dari kesalahan mencatat amatan yang bersangkutan atau kesalahan ketika menyiapkan peralatan. Salah satu metode untuk mengatasi outlier adalah regresi robust. Regresi robust merupakan metode regresi yang digunakan ketika distribusi dari residual tidak normal dan atau mengandung beberapa outlier yang berpengaruh pada model (Ryan, 1997). Regresi robust digunakan dengan tujuan untuk memperoleh model terbaik yang robust atau kekar terhadap outlier. Teori mengenai regresi robust pernah dikaji oleh Fox pada tahun 2002. Chen (2002) mengaplikasikan metode-metode estimasi yang ada pada regresi robust dengan jenis data yang berbeda-beda. Momeni, dkk (2010) juga mengaplikasikan regresi robust pada analisis data finansial. Hal tersebut menggambarkan bahwa regresi robust dapat diterapkan diberbagai bidang, seperti bidang ekonomi, pertanian dan lain-lain. Artikel ini mengkaji regresi robust dalam mengatasi outlier pada model regresi berganda. Adapun studikasus yang digunakan adalah pengaruh banyaknya benih padi, pupuk organik dan pupuk kimia terhadap produksi padi. 2. METODE PENELITIAN Metode penelitian yang digunakan penulis dalam penelitian ini meliputi studi pustaka dan studi kasus. Data yang digunakan pada penelitian ini merupakan data produksi padi di kecamatan Purwodadi kabupaten Purworejo pada tahun 2011, yang diperoleh dari Widhyotami (2012). Adapun langkah-langkah yang dilakukan dalam analisis data adalah: a. Mencari data sekunder. b. Mengestimasi parameter model regresi menggunakan metode kuadrat terkecil..

(3) c. Untuk masing-masing iterasi t, hitung , , , dan pembobot    Nilai ψ(  dihitung sesuai fungsi Huber, dan , .

(4) ,  . .

(5) ,   .

(6) ,. .. .. d. Mencari estimasi pada masing-masing iterasi dengan weighted least square, yaitu (XTWt-1X)-1XTWt-1Y. e. Tahap (c) dan (d) diulang sampai diperoleh estimasi parameter model yang konvergen, artinya selisih hasil iterasi t dengan iterasi   1 bernilai nol.. f. Perhitungan dilakukan menggunakan program komputer, yaitu Minitab 14 dan perhitungan secara manual. 3. HASIL DAN PEMBAHASAN Bagian ini membahas estimasi M dan penerapannya dalam mengatasi outlier pada suatu studi kasus. Studi kasus yang digunakan adalah pengaruh banyaknya benih, pupuk organik dan pupuk kimia terhadap produksi padi. 3.1 Estimasi M Estimasi parameter menggunakan jumlah kuadrat terkecil menjadi kurang baik apabila distribusi residual-nya tidak normal dan mengandung outlier. Salah satu solusinya adalah menggunakan regresi robust. Metode regresi robust yang paling sering digunakan adalah estimasi M, yang diperkenalkan oleh Huber pada tahun 1973 (Chen, 2002). Secara umum, persamaan model regresi linier yaitu.  .                    . untuk data ke-i dan n pengamatan. Taksiran modelnya adalah . .  . .  . .  .  !  "  ! .. 3.1. Menurut Fox (2002), pada umumnya, estimasi M meminimalisasi fungsi obyektif dengan persamaan (. (. & ' !   & '   " . ). ). 3.2.

(7) Kemudian, dicari turunan parsial pertama fungsi obyektif terhadap + , j =. 0, 1, 2, ..., k dan disamakan dengan nol. Hal ini menghasilkan p = k + 1 persamaan estimasi sebagai berikut (. & ,   " -  . ,. 3.3. ). dengan ,  ' dan , merupakan fungsi influence yang digunakan untuk ′. memperoleh bobot. Lalu, residual-nya distandardisasi, sehingga persamaan (3.3) menjadi ∑() ,0   "/2 -  . .. 3.4. Menurut Fox (2002), nilai   ,789:, dengan MAR merupakan Median 456. Absolute Residual, yang dapat dicari dengan rumus ;<=  ( ∑(>   >. . Didefinisikan fungsi pembobot   , ! ⁄! , dengan ! merupakan residual yang distandardisasi, sehingga !  ! ⁄. Persamaan (3.4) dapat ditulis menjadi. ∑() .   "/ -  . atau ∑()  -    ∑()  -  "  ... Persamaan (3.5) dapat ditulis sebagai berikut.  - A"   - AB.. 3.5. W merupakan matriks diagonal berukuran C D C, dengan  sebagai elemen. diagonalnya. Persamaan (3.5) dikalikan dengan  - AE pada kedua ruas, estimasi parameternya menjadi. 3.2 Studi Kasus. "   - AE  - AB.. 3.6. Peneliti ingin mengetahui pengaruh banyaknya benih (), pupuk. organik () dan pupuk kimia (G),terhadap produksi padi (Y). Adapun data. tersebut sebagai berikut..

(8) No 1 2 3 4 5 6 7 8 9 10 11 12 13 14.  (Kg) 2,5 10 15 2 7 5 15 30 5 40 12 20 8 7.  (Kg) 320 1000 1000 1200 1500 2000 2000 2000 570 5000 2500 2500 1500 2000. Tabel 1. Data Pengamatan Produksi Padi. G (Kg) 5 70 150 100 30 20 100 200 55 350 20 100 15 20. Y (Kg). 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30. 280 1100 3000 1200 1700 1000 2800 3600 2400 6000 2200 3000 1200 1200. 15 5 3,5 3 15 10 7 10 15 14 10 8 10 7 11 9. 2500 1000 500 500 2000 1500 2000 2500 3000 2500 1500 2000 1000 1000 2000 1500. 50 10 5 3 100 15 10 20 100 55 90 45 40 5 10 15. 1500 1000 600 500 3000 1700 1700 2000 3600 2500 2200 2000 2300 1200 1800 1800. 3.2.1 Estimasi Regresi Linier Berganda Selanjutnya, data pada Tabel 1 diestimasi menggunakan metode kuadrat terkecil untuk mendapatkan estimasi parameter model regresi linier berganda. H   I E  I B. . Rumus yang digunakan sebagai berikut. Hasil yang diperoleh sebagai berikut. 551 H  J  M  J 53 M ,  0,274 K 6,48 L . sehingga, taksiran modelnya menjadi   551  53  0,274  6,48G. 3.2.1.1Identifikasi Outlier a. Boxplot Identifikasi outlier dapat menggunakan metode grafis, yaitu boxplot. Adapun hasil yang diperoleh menggunakan Minitab 14 sebagai berikut:.

(9) Boxplot of Produksi. Boxplot of Pupuk organik. 6000. 5000. 5000. 4000. Pupuk organik. Produksi. 4000. 3000. 3000. 2000. 2000 1000. 1000. 0. 0. Gambar 2.BoxplotVariabel Produksi Padi (Y).. Gambar 4.Boxplot Variabel Pupuk Organik. Boxplot of Pupuk kimia. Boxplot of Benih 400. 40. 300. Pupuk kimia. Benih. 30. 20. 200. 100. 10. 0. 0. Gambar 3. Boxplot Variabel Benih.. Gambar 5.Boxplot Variabel Pupuk Kimia.. Suatu data dikatakan outlier apabila data tersebut bernilai kurang dari. 1,5 D IQR terhadap kuartil 1, atau bernilai lebih dari 1,5 D IQR terhadap kuartil 3. Oleh karena itu, diperlukan perhitungan nilai kuartil 1, kuartil 3 dan IQR agar dapat mengidentifikasi outlier menggunakan boxplot. Adapun perhitungan tersebut sebagai berikut. Tabel 2. Perhitungan IQR Variabel X1 X2 X3 Y. Nilai Q1 6,5 1000 17,5 1200. Nilai Q3 15 2125 100 2575. Nilai IQR 8,5 1125 82,5 1375.

(10) lebih dari 3 D IQR terhadap Q3, atau nilainya kurang dari 3 D IQR terhadap Q1,. Berdasarkan Tabel 2, diketahui bahwa tidak terdapat data yang nilainya. namun terdapat data yang nilainya lebih dari 1,5 D IQR terhadap Q3. Oleh karena. itu, dapat disimpulkan bahwa titik yang terdapat di luar kotak boxplot merupakan outlier. Selanjutnya data keberapa saja yang merupakan outlier dapat diketahui menggunakan metode DfFITS. b. Metode DfFITS Selain menggunakan metode grafis, untuk mengidentifikasi outlier dapat. menggunakan metode DfFITS. Data yang merupakan outlier merupakan data yang nilai mutlak DfFITS-nya lebih besar dari 2T(  2TG  0,632 . G. Tabel 3. Nilai DfFITS Data ke1 2 3 4 5 6 7 8 9. DfFITS. |DfFITS|. -0,43283 -0,47205 0,51878 -1,17832 0,07974 -0,42811 0,11994 -1,01068 1,05234. 0,43283 0,47205 0,51878 1,17832 0,07974 0,42811 0,11994 1,01068 1,05234. 10 11 12 13 14 15 16 17 18 19 20. -1,53870 0,16792 0,04277 -0,14258 -0,26309 -0,67382 -0,08323 -0,22045 -0,26448 0,21605 0,07036. 1,53870 0,16792 0,04277 0,14258 0,26309 0,67382 0,08323 0,22045 0,26448 0,21605 0,07036. 21 22 23 24 25 26 27 28 29 30. 0,10920 0,08515 0,72951 0,10491 0,07659 0,11291 0,47854 -0,01820 0,03946 0,14625. 0,10920 0,08515 0,72951 0,10491 0,07659 0,11291 0,47854 0,01820 0,03946 0,14625. Berdasarkan nilai DfFITS pada Tabel 3 di atas,terlihat bahwa ada beberapa data yang nilainya lebih besar dari 0,6325 (data yang dicetak tebal). Hal tersebut menunjukkan bahwa terdapat outlier pada data ke-4, ke-8, ke-9, ke-10, ke-15 dan data ke-23. 3.2.2Regresi Robust Estimasi M Dari hasil identifikasi outlier disimpulkan bahwa terdapat outlier pada data. Selanjutnya, untuk mengatasi hal tersebut digunakan regresi robust estimasi M. Adapun prosedur penyelesaiannya sebagai berikut: a. Mengestimasi parameter model regresi menggunakan metode kuadrat terkecil, sehingga didapatkan U, , dan menghitung εi,0 = U  U,, yang diperlakukan.

(11) sebagai nilai awal. Berdasarkan hasil estimasi regresi linier berganda, diperoleh nilai. =. 551,. =. 53,. . = 0,274,. G. = 6,48, sehingga diperoleh. estimasi model dan nilai residual sebagai berikut.. Tabel 6. Nilai Estimasi Model dan Nilai Residual X1 2,5 10 15 2 7 5 15 30 5 40 12 20 8 7 15 5 3,5 3 15 10 7 10 15 14 10 8 10 7 11 9. X2 320 1000 1000 1200 1500 2000 2000 2000 570 5000 2500 2500 1500 2000 2500 1000 500 500 2000 1500 2000 2500 3000 2500 1500 2000 1000 1000 2000 1500. X3 5 70 150 100 30 20 100 200 55 350 20 100 15 20 50 10 5 3 100 15 10 20 100 55 90 45 40 5 10 15. Y 280 1100 3000 1200 1700 1000 2800 3600 2400 6000 2200 3000 1200 1200 1500 1000 600 500 3000 1700 1700 2000 3600 2500 2200 2000 2300 1200 1800 1800. b. Menentukan  dan pembobot awal , .  803,58 1808,6 2592 1633,8 1527,4 1493,6 2542 3985 1328,58 6309 2001,6 2944 1483,2 1599,6 2355 1154,8 905,9 866,44 2542 1589,2 1534,8 1895,6 2816 2334,4 2075,2 1814,6 1614,2 1228,4 1746,8 1536,2.  , dengan , .  2 0

(12) ,  2 0

(13) ,. , -523,58 -708,6 408 -433,8 172,6 -493,6 258 -385 1071,42 -309 198,4 56 -283,2 -399,6 -855 -154,8 -305,9 -366,44 458 110,8 165,2 104,4 784 165,6 124,8 185,4 685,8 -28,4 53,2 263,8. V. diperoleh dengan menggunakan rumus   ,789:  W 456.  ∑W

(14) |Y

(15) EY

(16) | ,789:.

(17) ,  . . Nilai . . Metode yang. digunakan untuk memperoleh fungsi pembobot adalah metode Huber, dengan koefisien r yang digunakan bernilai 1,345. Menggunakan nilai, pada Tabel.

(18) 6 diperoleh nilai  = 435,95. Hasil perhitungan pembobot , sebagai berikut..  ,  , ⁄ -1,0078 -1,3640 0,7854 -0,8350 0,3322 -0,9501 0,4966 -0,7411 2,0624 -0,5948 0,3819 0,1078 -0,5451 -0,7692.  |, |. 1,0078 1,3640 0,7854 0,8350 0,3322 0,9501 0,4966 0,7411 2,0624 0,5948 0,3819 0,1078 0,5451 0,7692. ψ( . -1,0078 -1,345 0,7854 -0,8350 0,3322 -0,9501 0,4966 -0,7411 1,345 -0,5948 0,3819 0,1078 -0,5451 -0,7692. Tabel 7. Perhitungan , ,. 1 0,9861 1 1 1 1 1 1 0,6522 1 1 1 1 1. -1,6458 -0,2980 -0,5888 -0,7054 0,8816 0,2133 0,3180 0,2010 1,5091 0,3188 0,2402 0,3569 1,3201 -0,0547 0,1024 0,5078. 1,6458 0,2980 0,5888 0,7054 0,8816 0,2133 0,3180 0,2010 1,5091 0,3188 0,2402 0,3569 1,3201 0,0547 0,1024 0,5078. -1,345 -0,2980 -0,5888 -0,7054 0,8816 0,2133 0,3180 0,2010 1,345 0,3188 0,2402 0,3569 1,3201 -0,0547 0,1024 0,5078. 0,8172 1 1 1 1 1 1 1 0,8913 1 1 1 1 1 1 1. c. Menyusun matriks pembobot berupa matriks diagonal dengan elemen. diagonalnya , , , , … , (,. Kemudian menghitung penaksir koefisien regresi "[\]^_` abE   - A E  - A B, dengan menggunakan rumus. tersebut diperoleh nilai estimasi parameter "[\]^_` abE yaitu. "[\]^_` abE. 454,8963 42,6409 J M. 0,3855 6,6022. Hasil iterasi selengkapnya tersaji pada tabel berikut. Tabel 8. Hasil Iterasi Iterasi 1 2 3 4 5 6 7. b0, robust 454,8963 437,3306 434,8732 434,4871 434,4454 434,4284 434,4284. b1, robust 42,6409 43,5426 43,7432 43,7777 43,7832 43,7839 43,7839. b2, robust 0,3855 0,3929 0,3938 0,3939 0,3939 0,3939 0,3939. b3, robust 6,6022 6,4829 6,4589 6,4547 6,4541 6,4540 6,4540.

(19) Berdasarkan Tabel 8, terlihat bahwa selisih estimasi parameter pada iterasi ke-6 dan ke-7 sama dengan nol. Hal ini menunjukkan bahwa estimasi parameter telah   434,4284  43,7839  0,3939  6,4540G .. konvergen, sehingga diperoleh model regresi robust sebagai berikut. 3.2.1.2Koefisien Determinasi (R2). 3.10. Berdasarkan nilai R2dapat diketahui tingkat signifikansi atau kesesuaian hubungan antara variabel bebas dengan variabel tak bebas dalam model regresi ∑W Y

(20) EYde d e

(21) fV Y

(22) EY. yang dihasilkan. Menggunakan rumus R2  ∑

(23) fV W. , diperoleh nilai R2 untuk. model regresi linier berganda sebesar 0,837 = 83,7%, dan untuk model regresi robust sebesar 0,8879 = 88,79%. 3.2.1.4Uji Signifikansi dan Kecocokan Model Regresi a. Uji Individu Hipotesis yang digunakan pada uji individu yaitu: H0 : Koefisien regresi tidak signifikan dan H1 : Koefisien regresi signifikan. Taraf signifikansi yang digunakan α = 0,05. Digunakan statistik uji yaitu nilai gh`^ij untuk mengambil suatu kesimpulan, yang dapat dicari menggunakan H k. rumus gh`^ij 

(24) . Hasil yang diperoleh sebagai berikut. l H m

(25). Tabel 5. Nilai gh`^ij Model Regresi Linier Berganda. Variabel X1 X2 X3. Nilai nop(q 1,90 1,88 2,63. Tabel 9. Nilai gh`^ij Regresi Robust Variabel X1 X2 X3. Model. Nilai gh`^ij 4,139 4,37 5,587. Berdasarkan tabel statistik, diperoleh nilai `r]bs = 2,056. Variabel. X1 dan X2 pada model regresi berganda mempunyai nilai gh`^ij kurang dari. `r]bs maka H0 diterima, artinya koefisien regresi X1 dan X2 tidak signifikan. Variabel X3 mempunyai nilai gh`^ij lebih besar dari `r]bs , maka H0 ditolak,. artinya koefisien regresi X3 signifikan. Variabel X1, X2, dan X3 pada model.

(26) regresi robust mempunyai nilai gh`^ij lebih besar dari `r]bs , maka H0. ditolak, artinya koefisien model regresi robust X1, X2, dan X3 signifikan. b. Uji Serentak (Uji F). Hipotesis yang digunakan pada uji serentak yaitu: H0 : Variabel bebas tidak berpengaruh pada variabel tak bebas, dan H1 : Variabel bebas berpengaruh pada variabel tak bebas. Taraf signifikansi yang digunakan α = 0,05. Digunakan statistik uji yaitu nilai tgh`^ij , untuk mengambil suatu. kesimpulan. Nilai tgh`^ij untuk model regresi linier berganda sebesar 50,63,. sedangkan tgh`^ij untuk model regresi robust sebesar 231,1575. Berdasarkan. tabel statistik, diperoleh nilai t`r]bs = 2,98. Karena nilai tgh`^ij model regresi. linier berganda dan regresi robust lebih besar dari t`r]bs , maka H0 ditolak, artinya variabel bebas berpengaruh terhadap variabel tak bebas.. 4. KESIMPULAN DAN SARAN 4.1 KESIMPULAN Berdasarkan hasil pembahasan dapat diambil kesimpulan bahwa koefisien determinasi model regresi menggunakan estimasi M lebih besar dibandingkan dengan koefisien determinasi model regresi menggunakan metode kuadrat terkecil, sehingga model regresi robust dikatakan lebih baik dibandingkan dengan model regresi menggunakan metode kuadrat terkecil. 4.2 SARAN Penelitian ini hanya menggunakan estimasi M untuk mengatasi outlier, sehingga untuk penelitian selanjutnya disarankan untuk menggunakan metode estimasi robust yang lain, seperti estimasi S, LTS, LMS dan MM. UCAPAN TERIMAKASIH Penulis mengucapkan terimakasih kepada Ibu Rina Reorita, M.Si selaku pembimbing II, beserta semua pihak yang telah membantu penulis dalam menyelesaikan artikel ini..

(27) DAFTAR PUSTAKA Chen, C .2002. The Robust Regression and Outlier Detection with the ROBUSTREG Procedure . SUGI Paper 265-267 .SAS Institute : Cary , NC Draper, N dan H. Smith. 1992. Analisis Regresi Terapan, Terjemahan Edisi Kedua. Jakarta: PT. GramediaPustakaUtama. Fox, J. 2002. Robust Regression. New York. Momeni, M, M. D. Neyeri, A. F. Ghayoumi dan H. Ghorbani. 2010. Robust Regression and its Application in Financial Data Analysis. World Academy of Science, Engineering and Technology. Ryan, T. P. 1997. Modern Regression Methods. New York : A Wiley-Interscience Publication. Widhyotami, T. P. 2012. Studi Komparatif Usaha Tani pada Pengguna Pupuk di Kecamatan Purwodadi Kabupaten Purworejo. Purwokerto: Unsoed..

(28)

Referensi

Dokumen terkait

semakin tinggi nilai ROA pada sebuah perusahaan menunjukkan bahwa perusahaan mempunyai kemampuan yang baik dalam mengelola asset yang dimilikinya untuk menghasilkan

(i) Penceramah bukan dari guru-guru yang mengajar mereka tetapi guru- guru agama yang mengajar darjah lain bagi menambah sambutan murid-murid (jika guru sekolah sendiri). (ii)

Puji syukur peneliti panjatkan kehadirat Tuhan Yang Maha Esa atas rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi dengan judul “Penerapan Model

Lombok Barat, memproduksi keripik paru. Namun kualitasnya masih perlu ditingkatkan terutama ketebalan irisan yang tidak merata/seragam dan cenderung tebal sehingga

kаrenа konflik tentаng keluаrgа, kаryаwаn perempuаn jugа memiliki kemungkinаn berkonflik dengаn temаn kаrenа tidаk bisа menyeimbаngkаn аtаu bаhkаn kаryаwаn

Dari hasil simulasi Plaxis pemodelan lereng dengan kemiringan sudut 60 ⁰ menggunakan perkuatan Geocell yang menujukkan angka keamanan (safety factor) dapat dilihat pada

Menurut Maharani (2016), media MS yang dikombinasikan dengan 2,4-D 2 mg L -1 mampu menginduksi kalus eksplan daun Jeruk Besar Cikoneng ST asal

Perhitungan biaya proses (process costing): sebuah sistem biaya yang menentukan biaya ke masing-masing proses atau pusat kerja dalam siklus produksi, dan kemudian menghitung