• Tidak ada hasil yang ditemukan

Imputasi Missing Value Pada Data Yang Mengandung Outlier.

N/A
N/A
Protected

Academic year: 2017

Membagikan "Imputasi Missing Value Pada Data Yang Mengandung Outlier."

Copied!
2
0
0

Teks penuh

(1)

ABSTRAK

Judul Tesis : ImputasiMissing Valuepada Data yang Mengandung Outlier.

Kata Kunci : Missing Data, Outlier,Predictive Mean Matching, Least Trimmed Squares, Robust Estimation

Nama : Hafti Mardiah

NPM : 140720090012

Program Studi : Statistika Terapan Bidang Kajian Utama : Statistika Sosial

Tim Pembimbing : 1. Gandhi Pawitan, Ph.D. 2. Budhi Handoko, M.Si. Tahun Kelulusan : 2010

Abstrak

Missing Data merupakan salah satu permasalahan yang sering terjadi pada sebuah survey. Imputasi adalah pilihan penangananmissing datayang paling bijak dari pada membuang sebagian observasi atau variabel yang mengandung missing value, mengingat bahwa data sangat mahal dan berharga. Penanganan missing

valuepada sekumpulan data yang terdapatoutliermenjadi perhatian khusus karena sebagian besar metode imputasi dengan mekanisme Missing at Random (MAR) dan Missing Completely at Random (MCAR) mengasumsikan data berdistribusi normal multivariat. Asumsi ini menjadi tidak valid ketika terdapat outlier pada data, sehingga sebaiknya menggunakan metode imputasi berdasarkan estimasi yang robust terhadap outlier. Metode Predictive Mean Matching (PMM) adalah salah satu alternatif metode imputasi komposit, penggabungan metode imputasi regresi

(2)

iv dengan metode imputasi nearest neighbour, yang mengasumsikan data berasal dari distribusi normal multivariat. Ketika asumsi normalitas dilanggar, PMM menghasilkan nilai hasil imputasi yang tidak masuk akal dan statistik Efficiency Relative yang lebih rendah dibandingkan dengan metode imputasi regresi Least Trimmed Squares (LTS). Metode imputasi regresi LTS merupakan penggabungan algoritma LTS dan algoritma imputasi regresi.

Abstract

Missing data is the most frequent problem that occurs in a survey. Thus,

imputation is a prudent alternative of handling the missing data instead of reducing

the number of observations or variables due to its cost achieved and value. The

treatment of the missing data in the presence of outlier becomes the major problem

which is the most imputation method based on the Missing at Random (MAR) and

Missing Completely at Random (MCAR) mechanism. Moreover, it assumes data

originated from a multivariate normal distribution, which is no longer valid in the

presence of outliers in the data. For instance, Predictive Mean Matching (PMM),

a combination of regression imputation method and the nearest neighbour method,

assumes the data originated from a multivariate normal distribution. When the

normality assumption is violated, the predictive mean matching method does not

yield plausible imputed values plus the performance of the Efficiency Relative (ER)

is below compared to the ER of Least Trimmed Squares (LTS) regression imputation

method. LTS regression imputation method is actually a regression imputation

method which its parameter is the result of LTS regression estimation then combined

Referensi

Dokumen terkait

Pemilihan data yang valid seperti kelengkapan data, kebenaran data, dan juga konsistensi data sangat penting untuk pengolahan data karena mempengaruhi keakuratan data yang

Dataset original setelah diskritisasi atribut dan setelah dilakukan handling missing values dengan teknik The Most Common Value of an Attribute menjadi input dari algoritma C4.5

Tesis dengan judul Backtesting untuk Value at Risk pada Data Return Saham Bank Syariah Menggunakan Quantile Regression.. Dalam penyelesaian Tesis ini,

Maka regresi robust disarankan dapat mengatasi masalah outlier dalam data untuk mengestimasi parameter, salah satunya adalah Metode Momen (MM) yang digunakan untuk data

Hasil penilaian harga wajar saham dengan menggunakan metode price to book value menunjukkan nilai overvalued untuk periode 2010 – 2014 pada 4 saham yaitu saham BSDE,

Menghitung nilai TOL, yang merupakan suatu ukuran tolerance untuk deteksi multikolinearitas dengan cara sebagai berikut: 2 1, jika tidak berkorelasi dengan variabel prediktor lainnya