• Tidak ada hasil yang ditemukan

Pemeriksaan Efek Data Berpengaruh

Harga-harga dari statistik R-Student dan nilai leverage akan terlihat nyata apabila terdapat suatu pengamatan yang berpotensi sebagai data yang berpengaruh. Ada sejumlah statistik yang dapat digunakan untuk mengetahui besarnya efek data yang berpengaruh itu.

Sekarang ini sudah banyak perangkat lunak komputer yang menyediakan fasilitas yang dapat digunakan oleh para peneliti. Perangkat lunak tersebut biasanya akan menghitung perubahan yang akan terjadi pada model apabila data ke-i tidak dilibatkan ke dalam analisis. Pada bagian ini akan dibahas suatu alat diagnosa yang dapat membandingkan hasil yang diperoleh dengan xi dan tanpa xi. Dengan kata lain, akan diperlihatkan mengenai informasi yang dapat diperoleh sehubungan dengan perubahan yang akan terjadi apabila masing-masing pengamatan dihapuskan dari analisis. Alat-alat diagnosa yang akan dibahas di sini adalah DFFITS, DFBETAS, Cook's D, dan COVRATIO

… (3.4)

… (3.5)

… (3.6)

Salah satu akibat dengan adanya data berpengaruh itu adalah efek terhadap nilai dugaan 𝑦̂i. Alat diagnosa yang tepat yang dapat digunakan di sini dirumuskan dalam persamaan berikut:

DF merupakan singkatan dari difference atau menyatakan perbedaan antara hasil yang diperoleh dengan xi dan tanpa xi. Dalam hal ini, perbedaan tersebut ditujukan kepada nilai dugaan 𝑦̂i dan nilai dugaan 𝑦̂i,-i, yaitu nilai dugaan yang diperoleh tanpa menghitung pengamatan ke-i Sedangkan “-i” menunjukkan bahwa perhitungan dilakukan tanpa melibatkan pengamatan ke-i. Jadi (DFFITS) untuk data ke-i adalah suatu nilai yang menggambarkan besarnya galat baku taksiran yang membuat nilai dugaan 𝑦̂i berubah jika pengamatan ke-i dikeluarkan dari analisis.

Untuk masing-masing koefisien regresi, pemeriksaan data berpengaruh akan memberikan suatu statistik dimana akan memberåkan besarnya galat baku taksiran yang dapat merubah harga koefisien regresi jika pengamatan ke-i dihapus dari analisis. Alat yang digunakan untuk pemeriksaan ini didefinisikan sebagai berikut:

dimana cij adalah elemen dari diagonal ke-j dalam matriks (X’X)-1 Statistik bj,-i menyatakan koefisien regresi ke-j yang dihitung tanpa melibatkan pengamatan ke-i. Nilai (DFBETAS)j,i

yang besar menunjukkan bahwa pengamatan ke-i itu mempunyai pengaruh yang besar pada koefisien regresi ke-j. Tanda dari (DFBETAS)j,i akan sangat berarti. Artinya, apabila diperoleh koefisien regresi ke-j,bj adalah negatif yang mana tanda negatif itu biasanya tidak mempunyai arti bagi model dan sulit diinterpretasikan. Dari Persamaan (3.8) dapat dilihat bahwa jika (DFBETAS)j,i berharga negatif dan relatif besar, maka koefisien regresi yang negatif tersebut dapat ditimbulkan oleh adanya pengamatan yang berpengaruh tersebut.

Situasi seperti ini jelas perlu perhatian yang matang, serta kondisi adanya suatu tanda koefisien yang salah akan menyebabkan model menjadi keliru.

(DFBETAS)j,i digunakan untuk meyakinkan pengamatan mana yang mempunyai pengaruh terhadap koefisien regresi tertentu. Dalam hal ini, kita harus mengamati n x p statistik dalam memperkirakan pengaruh terhadap koefisien-koefisien regresi tersebut sehingga hal ini akan membuat perhitungan menjadi rumit. Untuk mengatasi hal tersebut ada statistik lain yang berhubungan dengan satu titik data tapi juga dapat mengukur pengaruh terhadap sekumpulan koefisien-koefisien regresi. Statistik itu disebut dengan Cook's Distance atau Cook's D yang dapat dirumuskan dalam bentuk skalar sebagai berikut:

Pengaruh terhadap Nilai Dugaan

… (3.7)

Pengaruh terhadap Nilai Dugaan

… (3.8)

Dalam perkembangannya, statistik Cook's D ini menjadi suatu alat yang standar dalam mengukur efek dari data berpengaruh dan sudah tersedia dalam paket-paket komputer statistik.

Harga-harga yang diperoleh dari diagnosa di atas mencerminkan adanya pengaruh tetapi tidak memberikan suatu indikasi apakah pengaruh itu ditujukan kepada pencapaian model regresi yang lebih sepenuhnya. Selain itu juga harga-harga tersebut tidak memfokuskan kepada apakah ada tidaknya pengamatan tersebut dapat menambah ketajaman dari penaksiran koefisien regresi. Suatu statistik yang dapat memberikan ukuran yang tepat dari varians-kovarians koefisien adalah varians umum (generalized variance = GV) dari koefisien-koefisien regresi (Graybill, 1976). Ukuran ini dinyatakan dalam persamaan berikut:

Dalam hal ini kita perlu menentukan suatu nilai yang kecil dari determinan di atas sehingga akan diperoleh kualitas penaksir koefisien regresi. Terlepas dari harga σ2, maka GV adalah suatu fungsi yang dapat mengkondisikan X. Untuk memahami pengertian dari pengamatan ke-i saat penentuan GV ini, terlebih dahulu suatu perbandingan (yang disebut dengan COVRATIO) antara pengamatan tanpa i dan dengan i. Penaksir-penaksir s2-i dan s digunakan untuk menggantikan σ2, sehingga diperoleh persamaan berikut:

dimana X-i menyatakan matriks (n − 1) × p dengan pengamatan ke-i dihapus dari analisis.

Jika harga COVRATIO >1.0, maka hal ini menunjukkan bahwa reduksi dalam penaksir varians umum (GV) dari koefisien disebabkan oleh adanya data berpengaruh tersebut.

Sedangkan harga COVRATIO < 1.0 menunjukkan bahwa penempatan data ke-i akan menyebabkan penambahan dalam varians umum.

Tujuan dari sejumlah alat-alat diagnosa di atas adalah untuk membantu peneliti dalam mengidentifikasikan data mana yang paling dominan dalam menentukan model regresi.

Pertanyaan yang mungkin timbul adalah seberapa besar ukuran yang harus diambil sehingga bisa dijadikan sebagai patokan. Sebagai contoh, misalnya berapa besar DFFITS sehingga kita dapat menentukan bahwa data tersebut pengaruhnya terhadap nilai dugaan kuat atau lemah? Belsley, Kuh, dan Welsch (1980) telah membicarakan suatu nilai kritis yang dapat memberikan suatu arti dari pengamatan yang dikategorikan sebagai data yang berpengaruh. dari Persamaan (3.7) dan (3.8) dapat dilihat bahwa DFFITS dan DFBETAS dibentuk melalui perhitungan perbedaan antara dua buah statistik seperti yang sudah

… (3.9)

Pengaruh terhadap Kelayakan Model

… (3.10)

… (3.11)

Nilai Kritis Bagi DfFit, DfBetas,

dan Cook’s

dinyatakan sebelumnya bahwa kedua ukuran tersebut merupakan pendekatan daru uji-t.

Akan tetapi 𝑦̂i dan 𝑦̂-i adalah peubah acak yang tidak bebas, sehingga distribusi t tidak bisa digunakan. Dalam hal nilai kritis bagi (DFFITS)! adalah ± 2⁄√n sedangkan nilai kritis bagi (DFBETAS)j,i adalah ±2√𝑝/𝑛. Artinya bahwa jika ada titik-titik pengamatan yang mempunyai harga (DFFITS)i dan (DFBETAS)j,i lebih dari nilai-nilai kritis tersebut, maka dapat dikatakan bahwa data tersebut merupakan data berpengaruh.

Nilai-nilai kritis yang telah disebutkan di atas akan berlaku untuk sampel yang berukuran besar (n > 100). Selanjutnya, Myers (1990) memberikan petunjuk untuk sampel-sampel yang berukuran kecil, yaitu nilai bagi (DFFITS)i dan (DFBETAS)j,i adalah ±2. Artinya jika ada titik-titik pengamatan yang mempunyai nilai (DFFITS)i dan (DFBETAS)j,i yang lebih besar dari ±2, maka penghapusan data tersebut dari analisis akan memberikan pengaruh yang berarti terhadap hasil yang telah diperoleh sebelumnya. Dalam data yang berukuran besar ini akan memperoleh (DFFITS)i dan (DFBETAS)j,i yang lebih besar dari ±2, sehingga nilai 2 ini dijadikan sebagai nilai kritisnya.

Sedangkan untuk statistik Cook's D yang diberikan oleh Persamaan (3.9) merupakan pendekatan dari statistik F dengan derajat bebas p dan n – p. Akan tetapi nilai kritis yang berdasarknn distribusi F itu akan sama dengan t untuk (DFFITS)i dan (DFBETAS)j,i. Untuk mengevaluasi data berpengaruh pada semua koefisien regresi tersebut, maka kita dapat menginterpretasikan harga Cook's D tersebut sebagai berikut: Jika Di yang diperoleh itu lebih besar daripada F(0.05;n,n-p) maka dapat dikatakan bahwa penghapusan pengamatan ke-i dari analisis yang dianggap sebagai data yang berpengaruh akan memberikan pengaruh yang cukup berarti terhadap perubahan-perubahan pada koefisien regresi dalam model (Myers, 1990).

Contoh 1

Dalam bagian ini akan dibahas suatu kasus untuk lebih memahami penerapan pemeriksaan data pencilan dan data berpengaruh ini dalam praktek. Dalam hal data yang dipakai adalah data yang dibuat oleh Departemen Pertambangan dan Energi Amerika Serikat dan dianalisis oleh Pusat Konsultasi Statistik, Viginia Politechnic Institut dan State University, Blacksburg, Virginia, pada tahun 1979 (Myers, 1990). Penelitian yang dilakukan adalah untuk mengetahui pengaruh dari tiga buah faktor kuantitatif terhadap proses pengoperasian pembersihan arang. Sejenis polimer akan digunakan untuk membersihkan arang itu dan sebagai variabel responnya, yi, adalah banyaknya zat pada yang terhapus serta diukur dalam satuan mg/l. Jadi, dalam percobaan ini akan diukur efisiensi dari proses pengoperasian arang itu yang dipengaruhi oleh faktor-faktor sebagai berikut: xi = prosentase zat padat, x2 = pH dalam tangki, x3 = satuan kuatnya aliran dari polimer

pembersih, dalam ml/detik. Ketiga faktor tersebut akan dikontrol selama proses percobaan dan urutan dari percobaan itu sendiri bersifat diacak. Data percobaan itu diberikan dalam tabel berikut:

Nomor X1 X2 X3 Y

1 2 3 4 5 6 7 8 9 10 11 12

1.5 1.5 1.5 1.5 2.0 2.0 2.0 2.0 2.5 2.5 2.5 2.5

6.0 6.0 9.0 9.0 7.5 7.5 7.5 7.5 9.0 9.0 6.0 6.0

1315 1315 1890 1890 1575 1575 1575 1575 1315 1315 1890 1890

243 261 244 285 202 180 183 207 216 160 104 Sumber: Myers, R.H. (1990). Classical and Modern Regression with Applications. 110 Second Edition. Boston: PWS-KENT Publishing.

Untuk menyelesaikan kasus di atas, maka pemeriksaan data pencilan dan data berpengaruh akan dilakukan melalui ukuran-ukuran yang telah dibahas pada bagian awal modul ini.

Pada dasarya SPSS memberikan beberapa pilihan untuk memeriksa adanya data pencilan dan data berpengaruh. Pemeriksaan data pencilan akan dilakukan melalui studenfized residual (ri), statistik R-Student (ti), dan nilai leverage (ℎii). Sedangkan pemeriksaan data berpengaruh akan dilakukan melalui DFFITS, DFBETAS, Cook's D, dan COVRATIO.

1. Dari baris menu pilih Analyze, kemudian pilih submenu Regression. D ari serangkaian pilihan Regression yang ada, sesuai dengan kasus pilih Linear.

Dependent: Y

Independent(s): X1, X2, dan X3

Methods: Enter.

2. Pilih tombol Statistics. Pilihan ini berkenaan dengan perhitungan statistik regresi yang akan digunakan. Perhatikan default yang ada di SPSS adalah Estimates dan Model fit. Untuk memberikan ringkasan statistik bagi variabcl-variabel yang diamati pilih Descriptive. Kemudian klik Continue untuk meneruskan proses analisis.

3. Pilih tombol Save. Pada pilihan ini dapat menyimpan nilai dugaan, residu, dan ukuran- ukuran statistik lainnya sebagai alat diagnosa ke dalam satu atau lebih kolom data OLAH DATA

sesuai dengan pilihan-pihhan yang ditentukan. Selain itu, statistik- statistik itu dapat disimpan ke dalam suatu file yang baru.

Distances, klik pada Cook's dan Leverage values.

Residual, klik pada Unstandardized, Studentized dan Studentized deleted.

Influence Statistics, klik pada DfBetas(s), DfFit, dan Covariance Ratio.

▪ Klik Continue untuk melanjutkan proses.

Berikut ini adalah analisis dan output yang diberikan oleh SPSS untuk pemeriksaan data pencilan dan data berpengaruh. Untuk kesederhanaan output untuk Descriptive tidak ditampilkan dalam modul ini.

Output ini menjelaskan ringkasan statistik dari masing-masing model untuk setiap tahap.

Ukuran-ukuran statistik yang diberikan dalam model summary ini adalah koefisien korelasi multipel antara Y dengan masing-masing X (R), koefisien determinasi (R-square), koefisien determinasi terkoreksi, (Adjusted R square), dan galat baku taksiran. Dari output terlihat bahwa diperoleh R2 sebesar 0.899, yang berarti bahwa besarnya keragaman di dalam Y yang dapat dijelaskan oleh model adalah sebesar 89.9%.

Dari uji ANOVA atau uji-F, diperoleh F hitung sebesar 23.827 dengan tingkat signifikansi 0.000. Oleh karena probabilitas (0.000) jauh lebih kecil dari 0.05, maka dapat dikatakan bahwa model regresi tersebut dapat digunakan untuk memprediksi variabel respons Y.

Atau juga dapat dikatakan bahwa X1, X2, dan X3 secara bersama-sama berpengaruh terhadap Y.

Model regresi yang diperoleh untuk permasalahan ini adalah

Dari hasil pengujian untuk masing-masing parameter yang berada dalam model dengan menggunakan statistik-t, terlihat bahwa, kecuali parameter β3, semuanya signifikan dalam taraf nyata sebesar 0.05

Dimisalkan, melalui prosedur klasik telah memenuhi persyaratan bahwa model tersebut dianggap baik. Selanjutnya ingin diketahui apakah dalam data terdapat pengamatan yang berpengaruh. Kita perlu mengamati terlebih dahulu ada tidaknya data pencilan yang berpotensi sebagai data yang berpengaruh. Untuk itu kita akan menghitung residu, R- student, dan nilai leverage yang akan dijadikan patokan sebagai ukuran untuk menentukan ada tidaknya suatu data pencilan. Hasil perhitungan itu diberikan dalam Tabel 6.1.

Tabel 6.1 Perhitungan Statistik R-Student dan Nilai Leverage

No Yi 𝑌̂i ei hii ti

1 243 247.8 -4.8 0.36680 -0.2923

2 261 247.8 13.2 0.36680 0.8359

3 244 261.0 -17.0 0.38269 -1.1372

4 285 261.0 24.0 0.38269 1.7665

5 202 200.7 1.3 0.00051 0.0631

6 180 200.7 -20.7 0.00051 -1.0385

7 183 200.7 -17.7 0.00051 -0.8698

8 207 200.7 6.3 0.00051 0.2990

9 216 183.8 32.2 0.36680 2.8695

10 160 183.8 -23.8 0.36680 -1.7141

11 104 103.5 0.5 0.38269 0.0282

12 110 103.5 6.5 0.38269 0.4006

Nilai residual (yang tidak dibakukan) terbesar ada pada pengamatan ke-9. Dan tabel tersebut juga terlihat bahwa terdapat R-Student yang lebih besar daripada 2, yaitu pada pengamatan ke-9, dimana t9= 2.8695. Selanjutnya dari nilai leverage yang telah diperoleh pada titik pengamatan ke-9 diperoleh ℎii = 0.36680 < nilai kritis 2p/n = 0.67. Walaupun demikian kita perlu mencurigai data tersebut sebagai data yang berpengaruh pada persamaan regresi di atas. Sebelum kita memutuskan bahwa pengamatan ke-9 dihapus dari analisis, sebaiknya kita perlu menyelidiki bagaimana pengaruh pengamatan tersebut terhadap hasil, terutama pada nilai dugaan dan koefisien – koefisien regeresinya.

Pengamatan ini meliputi perhitungan – perhitungan DFFITS, DFBETAS, dan Cook’s D yang diberikan di dalam Tabel 3.2

Tabel 3.2 Perhitungan untuk Pemeriksaan Data Berpengaruh

No DFFIT Cook’s DfBeta(0) DfBeta(1) DfBeta(2) DfBeta(3) 1

2 3 4 5 6 7 8 9 10 11 12

-3.93595 10.79925 -14.87167 20.91120 0.12336 -1.88992 -1.61538 0.58092 26.35307 -19.48977 0.40151 5.63802

0.02 0.149 0.272 0.535 0.000 0.024 0.018 0.002 0.885 0.484 0.000 0.039

-16.41209 45.03057 24.07204 -33.84793 .18741 -2.87127 -2.45418 .88257 -21.83964 16.15181 -.43451 -6.10148

2.18599 -5.99781 7.97791 -11.21781 0

0 0 0

14.63626 -10.82445 .21539 3.02452

0.72866 -1.99927 -2.65930 3.73927 0 0 0 0 4.87875 -3.60815 -.07180 -1.00817

.00367 -.01007 -.01427 .02007 -.00004 .00062 .00053 -.00019 -.02457 .01817 .00039 .00541

Seperti yang telah diketahui bahwa R-Student, ti = 2.8695, tidak disertai oleh nilai leverage yang besar, yaitu sebesar 0.36680 yang berarti lebih kecil daripada nilai kritis yang telah ditetapkan, tetapi harga tersebut masih lebih besar daripada nilai rata-rata leverage p/ n, yaitu 0.33. Walaupun demikian, coba perhatikan nilai-nilai dari DFFITS dan DFBETAS yang berhubungan dengan koefisien-koefisien b1, b2, dan b3 pada pengamatan ke-9 itu ternyata lebih besar daripada nilai-nilai diagnosa tersebut pada data yang lainnya.

Walaupun data ini berukuran kecil, namun kita coba nilai kritis yang diusulkan oleh Belsley, Kuh, and Welsch (1980), dimana nilai kritis untuk DFFITS adalah 2 /√n dan nilai kritis untuk DFBETAS adalah 2√𝑝/𝑛. Jadi, nilai kritis untuk masingmasing diagnosa itu adalah 1.73 dan 1.15. Dengan demikian maka dapat dikatakan bahwa pengamatan ke-9 itu memang mempengaruhi terhadap hasil persamaan regresi di atas, terutama pada nilai dugaan dan koefisien-koefisien regresi b1, b2, dan b3. Coba kita perhatikan pengaruh data ke-9 itu pada koefisien b3. Dan hasil perhitungan di atas diperoleh koefisien regresinya sebesar -0.058 dengan galat baku 0.026, sedangkan harga (DFBETAS)9 diperoleh sebesar -0.02457. Hal ini berarti bahwa apabila analisis dilakukan tanpa melibatkan pengamatan ke-9 itu akan galat baku dari koefisien b3 itu berkurang sebesar 0.02457. Akibatnya pada saat pengujian hipotesis mengenai keberartian koefisien tersebut tidak signifikan tetapi dengan diadakan penghapusan pengamatan tersebut berubah menjadi signifikan.

Berdasarkan kenyataan tersebut maka tidak ada alasan untuk menghapus pengamatan ke- 9 dari analisis karena pengamatan tersebut mampu merubah persamaan regresi secara nyata. Selanjutnya kita hitung lagi persamaan regresi yang baru tanpa melibatkan pengamatan ke-9, dan hasilnya adalah sebagai berikut:

Dokumen terkait