Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

(1)

vi

ABSTRAK

Data cleaning merupakan salah satu tahap pada data mining. Data cleaning biasa disebut dengan data cleansing atau scrubbing. Proses data cleaning dilakukan untuk menghilangkan kesalahan informasi pada data. Data cleaning dapat dilakukan dengan satu sumber atau beberapa sumber data. Salah satu permasalahan kesalahan pada data dari satu sumber data adalah data duplikat. Data cleaning dapat dilakukan pada data duplikat untuk mendapatkan data yang berkualitas baik. Kualitas data yang baik dapat diketahui dengan adanya informasi yang benar pada data tanpa adanya data duplikat. Namun pembersihan data yang dilakukan secara manual membutuhkan ketelitian dan menghabiskan banyak waktu karena jumlah data yang besar. Penelitian ini mengidentifikasi data duplikat dalam proses cleaning data duplikat pada data identitas. Proses identifikasi data duplikat menggunakan metode leveinsthein distance untuk mengidentifikasi kemiripan jarak antara dua string pada data. Dalam penelitian ini menggunakan 3023 data dengan tingkat akurasi yang diperoleh mencapai 95%.

Kata Kunci : data duplikat, leveinsthein distance, data cleaning, data mining.

(2)

vii

DATA CLEANING ON DUPLICATE DATA WITH

LEVEINSTHEIN DISTANCE METHOD

ABSTRACT

Data cleaning is one of the phases in data mining. Data cleaning is often called as data cleansing or data scrubbing. The process of data cleaning is aimed at removing the false information in the data. Data cleaning can be performed by one or several data resources. One of the common problems in data is duplicate data. Data cleaning can be used to remove duplicate data in order to get good quality of data. Quality of data can be seen from the availability of the right information without the existence of duplicate data. Unfortunately, data cleaning which is often performed manually needs thoroughness and spends a lot of time due to the size of the data. This research is to identify duplicate data existed in data cleaning from identity data. The identification process of duplicate data using leveinsthein distance has the purpose to identify the

similarity of both string’s distance in data. This research was using 3023 data with

95% of accuracy rate.

Keywords: data mining, duplicate data, levenshtein distance, data cleaning.