• Tidak ada hasil yang ditemukan

2. Pengertian data outlier Data outlier yaitu data dengan kombinasi unik dari karakteristik yang dapat diidentifikasi sebagai sesuatu yang berbeda

N/A
N/A
Protected

Academic year: 2021

Membagikan "2. Pengertian data outlier Data outlier yaitu data dengan kombinasi unik dari karakteristik yang dapat diidentifikasi sebagai sesuatu yang berbeda"

Copied!
9
0
0

Teks penuh

(1)

2. Pengertian data outlier

Data outlier yaitu data dengan kombinasi unik dari karakteristik yang dapat diidentifikasi sebagai sesuatu yang berbeda dari observasi yang lainnya. Yang dimaksud dengan karakteristik yang unik yaitu nilai yang terlalu rendah atau tinggi dari suatu variabel atau sekumpulan variabel yang membuat observasi berbeda dari yang lainnya. Untuk menaksir akibat dari adanya data outlier maka harus mempertimbangkan beberapa pertimbangan yang praktis dan substansif. 2.1 Pengaruh adanya data outlier

Data outlier memiliki beberapa dampak sebagai berikut :

 Dari sudut pandang peneliti, data outlier memiliki efek tetap tertentu untuk segala analisis empiris. Sebagai contoh, yaitu misalkan kita mengambil sampel sebanyak 20 individu untuk menentukan pendapatan rata-rata rumah tangga. Pada sampel yang dimiliki, kita memperoleh respon dengan kisaran pendapatan antara $20.000 dan $100.000, sehingga rata-rata pendapatan menjadi $45.000. Tetapi bayangkan bila orang ke-21 memiliki pendapatan $1 juta. Jika kita memasukkan nilai ini ke dalam analisis, rata-rata pendapatan meningkat menjadi lebih dari $90.000. Pada permasalahan ini terdapat data outlier, tetapi mana yang lebih baik untuk mengestimasi rata-rata pendapatan rumah tangga: $45.000 atau $90.000 ? Peneliti harus mengerti apakah nilai outlier harus dipertahankan atau harus dihilangkan berdasarkan hasilnya.

 Secara substantif, data outlier harus dilihat seberapa representatif data tersebut terhadap populasi. Dengan menggunakan contoh pengeluaran rumah tangga sebelumnya, seberapa representatif segmen untuk orang-orang kaya adalah milyuner. Jika peneliti merasa bahwa nilai representatif masih terlalu kecil, tetapi segmen di dalam populasi tersebut masih dapat diseimbangkan maka nilai ini patut untuk dipertahankan. Tetapi, jika milyuner ini hanya sebanyak satu orang di keseluruhan populasi dan nilainya merupakan nilai yang terlalu ekstrim maka boleh untuk dibuang.

(2)

Data outlier tidak dapat dikategorikan menjadi data yang bermasalah, tetapi harus dilihat secara kontekstual dalam analisis dan harus dievaluasi jenis informasi apa saja yang tersedia. Ketika diuntungkan, data outlier, walaupun berbeda dari mayoritas sampel, mungkin menjadi indikasi karakteristik populasi tersebut tidak dapat dianalisis secara normal. Kebalikannya, masalah outlier tidak representatif terhadap populasi, dan menjadi perhitungan yang tidak obyektif, dan dapat mengacaukan uji statistika dengan serius. Peneliti harus memeriksa adanya data outlier dan menyelidiki pengaruh mereka. Data outlier harus dapat ditempatkan untuk menaksir pengaruh dari observasi individu dan menentukan apakah pengaruh ini membantu atau tidak.

Mengapa data outlier dapat terjadi ? Data outlier dapat dikategorikan menjadi empat kelas berdasarkan sumber keunikannya yaitu :

 Kelas pertama terjadi dari procedural error, seperti entri data yang error atau kesalahan dalam pengkodingan. Data outlier ini harus diidentifikasi pada saat proses pembersihan data, tetapi jika terabaikan mereka harus dieliminasi atau diidentifikasi sebagai missing values.

 Kelas yang kedua terdiri dari observasi yang terjadi pada hasil

extraordinary event yang terdapat keunikan dalam observasi. Sebagai contoh, asumsikan kita mencatat rata-rata curah hujan harian pada saat badai datang beberapa hari dan merekam level rata-rata curah hujan yang tinggi. Level rata-rata curah hujan tersebut tidak dapat dibandingkan dengan rata-rata curah hujan pada saat cuaca normal. Jika dimasukkan, mereka akan mengubah pola dari hasil. Peneliti harus memutuskan apakah kejadian tidak biasa tersebut merupakan tujuan peneliti. Jika iya, maka layak untuk dipertahankan tetapi jika tidak seharusnya dibuang.

 Kelas ketiga dari data outlier dengan extraordinary observations

adalah peneliti tidak memiliki penjelasan. Kejadian unik dan tepat bergabung menjadi satu. Walaupun data outlier ini dapat dihilangkan, mereka dapat dipertahankan jika peneliti merasa kehadiran mereka valid terhadap populasi. Kemungkinan mereka merepresentasikan gabungan elemen, atau elemen yang belum digunakan sebelumnya

(3)

tidak teridentifikasi. Di sini, peneliti harus menentukan untuk mempertahankan atau menghapus data.

2.2 Langkah-langkah mendeteksi data outlier

Untuk mendeteksi adanya data outlier atau tidak dapat diidentifikasi dari perspektif univariat, bivariat atau multivariate berdasarkan pertimbangan banyak variable atau karakteristik. Peneliti sebaiknya menggunakan perspektif tersebut untuk mencari pola yang konsisten untuk mengidentifikasi data outlier.

 Univariate Detection

Identifikasi univariat untuk mengidentifikasi distribusi dari masing-masing variable pada analisis dan memilih data outlier yang memiliki range tinggi atau rendah dari distribusi tersebut. Masalah utama yaitu membuat ambang batas untuk data outlier tersebut. Pendekatan pertama mengkonversikan data ke nilai yang standar, dengan nilai rata-rata 0 dan deviasi standar 1. Karena nilai ini dibuat dalam format standar, perbandingan dari variable dapat dibuat dengan mudah. Pada beberapa kasus, peneliti harus mengenali banyak observasi secara pasti yang dapat terjadi secara normal di luar nilai ambang batas tersebut.

 Bivariate Detection

Pada bivariate detection, pasangan dari variable dapat dijadikan satu pada diagram pencar. Kasus yang terjadi di luar range dari observasi akan diletakkan pada poin yang terisolasi dari diagram pencar. Untuk menentukan range yang diharapkan dari penelitian ini adalah gambaran dua dimensi, sebuah elips yang mempresentasikan tingkat kepercayaan distribusi bivariat normal (biasanya level 90% atau 95%) terdapat di atas pada diagram pencar. Elips menyediakan gambaran yang grafikal pada batas kepercayaan dan memfasilitasi identifikasi data outlier. Varian dari diagram pencar menunjukkan pengaruh dari plot, dengan masing-masing poin bervariasi pada ukuran.

Masing-masing metode menyediakan keunikan tersendiri untuk masing-masing observasi dalam hubungan dengan observasi lainnya berdasarkan spesifikasi dari pasangan variabel. Kekurangan pada

(4)

metode bivariat yaitu banyak diagram pencar disebabkan oleh banyak variabel yang meningkat. Untuk tiga variabel, hanya tiga grafik untuk seluruh perbandingan pasangan. Tetapi untuk lima variabel, membutuhkan 10 grafik, dan untuk 10 variabel membutuhkan 45 diagram pencar. Akibatnya, peneliti harus membatasi penggunaan metode bivariat untuk menspesifikasikan hubungan antara variabel, seperti hubungan antara variabel dependen dan independen pada analisis regresi. Peneliti kemudian meneliti diagram pencar tersebut untuk mengidentifikasi pola untuk satu atau lebih observasi yang akan menghasilkan desain data yang outlier.

 Multivariate Detection

Karena analisis multivariate melibatkan lebih dari dua variabel, metode bivariat menjadi tidak cocok karena beberapa alas an. Pertama, mereka membutuhkan banyak grafik, seperti yang telah dijelaskan sebelumnya, ketika banyak variabel mencapai ukuran yang cukup. Kedua, mereka dibatasi pada dua dimensi (variabel). Walaupun demikian, ketika lebih dari dua variabel dipertimbangkan, peneliti membutuhkan rata-rata untuk mengukur posisi multidimensional untuk masing-masing observasi yang relative terhadap beberapa poin. Kejadian ini disebut dengan ukuran D2 Mahalanobis, taksiran multivariate untuk masing-masing observasi pada setiap data set variabel. Metode ini untuk mengukur jarak dari masing-masing observasi pada ruang multidimensional dari tengah rata-rata untuk semua observasi, menyediakan nilai sendiri untuk masing-masing observasi tidak peduli berapa banyak variabel yang dipertimbangkan. Semakin tinggi nilai D2 mempresentasikan observasi yang semakin jauh dibuang dari distribusi general dari observasi pada ruang multidimensional. Metode ini juga memiliki kekurangan yaitu hanya menyediakan taksiran secara keseluruhan.  Outlier Designation

Dengan menggunakan metode univariat, bilvariat, multivariate, peneliti memiliki perspektif yang komplit untuk meneliti status

(5)

observasi apakah outlier atau bukan. Masing-masing dari metode dapat menyediakan perspektif yang unik pada observasi dan digunakan untuk mengidentifikasi outlier.

Ketika observasi dapat diidentifikasi dengan metode univariat, bivariat, dan multivariate sebagai data outlier yang mungkin, peneliti harus memilih observasi yang mendemonstrasikan keunikan yang nyata pada perbandingan dengan menyisakan populasi berlawanan dengan perspektif. Peneliti harus mengulang dari mendesain terlalu banyak observasi sebagai outlierdan tidak bias untuk mengeliminasi kasus tersebut karena mereka berbeda.

 Outlier description and profiling

Ketika data outlier yang potensial teridentifikasi, peneliti sebaiknya membangkitkan profil dari masing masing observasi yang outlier dan mengidentifikasi tanggung jawab variabel mengapa menjadi outlier. Peneliti harus menggunakan tekhnik multivariate seperti analisis diskriminan atau regresi berganda untuk mengidentifikasikan perbedaan antara data outlier dan observasi lainnya. Jika memungkinkan peneliti sebaiknya menyertakan data outlier pada satu kelas hingga empat kelas yang tekah dijelaskan sebelumnya untuk membantu pada keputusan penyimpanan atau pembuangan data yang akan diambil. Peneliti sebaiknya melanjutkan analisis hingga terbentuk aspek yang membedakan outlier dari beberapa observasi.  Retention or deletion of the outlier

Setelah data outlier diidentifikasi, dikarakteristikkan, dan dikategorikan, peneliti harus menentukan apakah data tetap dipertahankan ataukan dibuang. Beberapa filosofer diantara peneliti menyediakan petunjun untuk memperlakukan data outlier. Data ini harus dipertahankan ada bukti yang menyatakan data tersebut benar-benar tidak representatif terhadap populasi. Ketika data outlier dibuang, peneliti harus memperhitungkan resiko dengan analisis multivariate tetapi membatasi secara umum.

(6)

Setelah data outlier diidentifikasi, dikarakteristikkan, dan dikategorikan, peneliti harus menentukan apakah data tetap dipertahankan ataukan dibuang. Beberapa filosofer diantara peneliti menyediakan petunjun untuk memperlakukan data outlier. Data ini harus dipertahankan ada bukti yang menyatakan data tersebut benar-benar tidak representatif terhadap populasi. Ketika data outlier dibuang, peneliti harus memperhitungkan resiko dengan analisis multivariate tetapi membatasi secara umum.

2.4 Contoh soal

Sebagai contoh pengamatan dari basis data HBAT akan diperiksa adanya kasus outlier atau tidak. Variabel yang dipertimbangkan dalam analisis adalah matriks X6 melalui X19 dengan konteks pemeriksaan ini, menggunakan analisis regresi di mana XI9 adalah variabel dependen dan X6 melalui XI8 adalah variabel independen. Analisis outlier termasuk analisis univariat, bivariat, dan diagnosa multivariat. Ketika data yang menunjukan outlier ditemukan, maka data tersebut diperiksa, dan keputusan tentang penyimpanan atau penghapusan dibuat.

 Outlier Detection

Langkah pertama adalah pemeriksaan semua variabel dari perspektif univariat. Metode bivariat kemudian akan digunakan untuk menguji hubungan antara variabel dependen (XI9) dan masing-masing variabel independen. Dari masing-masing diagram pencar, pengamatan di luar distribusi dapat diidentifikasi dan dampaknya terhadap hubungan itu dipastikan sebagai data outlier. Akhirnya, penilaian multivariat akan dilakukan pada semua variabel independen secara kolektif. Perbandingan dari pengamatan di tiga metode diharapkan akan memberikan dasar bagi keputusan penghapusan / penyimpanan.

 Univariate Detection

Langkah pertama adalah memeriksa pengamatan pada masing-masing variabel individual. Tabel 10 berisi pengamatan dengan nilai-nilai variabel standar melebihi ± 2,5 pada masing-masing variabel (X6 ke XI9). Dari perspektif univariat ini, hanya pengamatan 7, 22, dan 90 melebihi ambang batas pada lebih dari satu variabel. Selain itu, tak satu pun dari pengamatan ini memiliki nilai sangat ekstrim untuk mempengaruhi tindakan

(7)

keseluruhan variabel, seperti penyimpangan. Harus dicatat bahwa variabel dependen memiliki satu pengamatan terpencil (22), yang dapat mempengaruhi diagram pencar bivariat karena variabel dependen muncul di setiap sebaran. Tiga pengamatan akan dicatat untuk melihat apakah mereka muncul dalam berikutnya bivariat dan penilaian multivariat.

Tabel 2.1 Hasil Deteksi Outliers

 Bivariat Detection.

Untuk perspektif bivariat, 13 diagram pencar dibentuk untuk masing-masing variabel independen ( X6 melalui X18 ) dengan variabel dependen ( X19 ). Elips merepresentasikan tingkat kepercayaan 95 % dari distribusi normal bivariat kemudian ditampilkan pada diagram pencar. Gambar 2.1 berisi contoh-contoh dari dua diagram pencar tersebut yang melibatkan X6 dan X7. Seperti yang bisa dilihat pada sebaran untuk X6 dengan X19 , dua data outlier jatuh di luar elips dan tidak memiliki nilai-nilai ekstrim di kedua variabel . Hasil ini berbeda dengan sebaran dari X7 dengan X19 , di mana pengamatan 22 berbeda dari pengamatan lain dan menunjukkan nilai-nilai tertinggi baik di X7 dan X19. Yang kedua dari Tabel 2.1 yang berisi kompilasi data yang masih jatuh diluar elips ini untuk setiap variabel. Karena menggunakan tingkat kepercayaan 95 %, yang diharapkan beberapa pengamatan biasanya jatuh di luar elips. Hanya

(8)

empat pengamatan ( 2 , 22 , 24 , dan 90 ) berada di luar elips lebih dari dua kali. Pengamatan 22 berada di luar 12 dari 13 diagram pencar, karena data ini adalah data outlier pada variabel dependen. Hanya pengamatan 90 yang tercatat dalam deteksi univariat.

 Multivariate Detection.

Metode diagnostik terakhir adalah untuk menilai data outlier dari metode multivariat dengan menggunakan pengukuran D2 Mahalanobis (lihat Tabel 10). Analisis ini mengevaluasi posisi dari masing-masing observasi dibandingkan dengan pusat dari setiap pengamatan pada satu set variabel yang ada. Dalam hal ini, semua varibel independen digunakan. Perhitungan dari D2/df nilai (df = 13) memungkinkan identifikasi dari outlier melalui pendekatan uji statistik. Karena sampelnya hanya terdiri 100 pengamatan, nilai ambang 2,5 akan lebih baik digunakan daripada nilai 3,5 atau 4,0. dengan ini nilai ambang sebesar 2,5 maka dua pengamatan (98 dan 36) diidentifikasi sebagai pengamatan yang berbeda secara signifikan. Hasil ini menunjukkan bahwa dua pengamatan tersebut tidak unik pada setiap variabel tunggal tetapi unik secara kombinasi.

Gambar 2.1 Diagram Pencar Detection Outliers  Retention or Deletion of The Outliers

Sebagai hasil dari pengujian diagnostik, tidak ada pengamatan yang meunjukkan bahwa karateristik dari data outliers harus dihapuskan. Setiap variabel memiliki beberapa pengamatan yang bernilai ekstrim, dan dari pengamatan tersebut data outliers harus dipertimbangkan untuk tetap digunakan dalam sebuah analisis. Tidak ada pengamatan

(9)

yang bernilai ekstrim bila jumlah variabel yang dipertimbangkan cukup memadai dan dapat mewakili populasinya. Peneliti harus selalu memeriksa hasil dari setiap pengujian multivariat untuk mengidentifikasi observasi yang mungkin bisa menjadi data outlier dalam aplikasi tertentu.

Gambar

Tabel 2.1 Hasil Deteksi Outliers
Gambar 2.1 Diagram Pencar Detection Outliers

Referensi

Dokumen terkait

Profil kemampuan komunikasi matematis siswa dalam pembelajaran kooperatif tipe FSLC ditinjau dari penalaran matematis siswa adalah tulisan yang menjelaskan suatu

Dengan alasan inilah, Allah sebagai Tuhan Yang Maha Indah lagi Perkasa, Sang Pencipta yang memiliki kesempurnaan tak terbatas yang telah menciptakan istana alam

Prinsip : Teknik melipat kertas adalah teknik dalam membuat karya seni atau kerajinan tangan yang secara umum bahannya dari kertas yang diproses sedemikian rupa sehingga

86,49% Sangat Layak Berdasarkan dari data respon siswa terhadap penggunaan trainer sistem pengapian CDI pada saat uji penyebaran yang terdapat pada tabel 4.14, dapat

Penarikan kesimpulan merupakan pengambilan intisari dari sajian data yang telah terorganisasikan dalam bentuk pernyataan atau kalimat singkat, padat dan

Medan Petisah Sumatera Utara, dan pada saat dilakukan penggeledahan ditemukan Narkotika golongan I jenis Shabu sebanyak 4 (empat) bungkus plastik dengan berat

Menetapkan : KEPUTUSAN KOMISI PEMILIHAN UMUM KABUPATEN TUBAN TENTANG TAHAPAN, PROGRAM, DAN JADWAL PENYELENGGARAAN PEMILIHAN UMUM KEPALA DAERAH DAN WAKIL

Iklan Baris Iklan Baris Mobil Dijual MITSUBISHI MERCY MERCEDES NE E 260 2001 Hi- tam Semua Electrik Pungsi Interior Orisinil STNK telat hrg.. electrical fungsi semua