• Tidak ada hasil yang ditemukan

Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

N/A
N/A
Protected

Academic year: 2017

Membagikan "Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance"

Copied!
2
0
0

Teks penuh

(1)

vi

ABSTRAK

Data cleaning merupakan salah satu tahap pada data mining. Data cleaning biasa disebut dengan data cleansing atau scrubbing. Proses data cleaning dilakukan untuk menghilangkan kesalahan informasi pada data. Data cleaning dapat dilakukan dengan satu sumber atau beberapa sumber data. Salah satu permasalahan kesalahan pada data dari satu sumber data adalah data duplikat. Data cleaning dapat dilakukan pada data duplikat untuk mendapatkan data yang berkualitas baik. Kualitas data yang baik dapat diketahui dengan adanya informasi yang benar pada data tanpa adanya data duplikat. Namun pembersihan data yang dilakukan secara manual membutuhkan ketelitian dan menghabiskan banyak waktu karena jumlah data yang besar. Penelitian ini mengidentifikasi data duplikat dalam proses cleaning data duplikat pada data identitas. Proses identifikasi data duplikat menggunakan metode leveinsthein distance untuk mengidentifikasi kemiripan jarak antara dua string pada data. Dalam penelitian ini menggunakan 3023 data dengan tingkat akurasi yang diperoleh mencapai 95%.

Kata Kunci : data duplikat, leveinsthein distance, data cleaning, data mining.

(2)

vii

DATA CLEANING ON DUPLICATE DATA WITH

LEVEINSTHEIN DISTANCE METHOD

ABSTRACT

Data cleaning is one of the phases in data mining. Data cleaning is often called as data cleansing or data scrubbing. The process of data cleaning is aimed at removing the false information in the data. Data cleaning can be performed by one or several data resources. One of the common problems in data is duplicate data. Data cleaning can be used to remove duplicate data in order to get good quality of data. Quality of data can be seen from the availability of the right information without the existence of duplicate data. Unfortunately, data cleaning which is often performed manually needs thoroughness and spends a lot of time due to the size of the data. This research is to identify duplicate data existed in data cleaning from identity data. The identification process of duplicate data using leveinsthein distance has the purpose to identify the

similarity of both string’s distance in data. This research was using 3023 data with

95% of accuracy rate.

Keywords: data mining, duplicate data, levenshtein distance, data cleaning.

Referensi

Dokumen terkait

Dengan datasheet yang tersedia, sensor PIR dilakukan beberapa percobaan untuk mendapatkan karakteristik sensor berdasarkan pengaruh tegangan yang dikonsumsi diberikan

bahwa berat labur adalah banyaknya perekat yang diberikan pada permukaan kayu, berat labur yang terlalu tinggi selain dapat menaikkan biaya produksi juga akan mengurangi

maka pada penelitian ini akan dibangun sebuah aplikasi yang dapat menerjemahkan kalimat tunggal Bahasa Indonesia ke dalam Bahasa Jawa dengan menggunakan aturan analisis

Bimbingan pasien dengan tiga hal itu , dia akan mudah mencerna dalam artiyan kita fahamkan kepada pasien bahwa amanah ini tidak serta merta kita yang membuat tapi Allah

[r]

pekerjaanmenggarap lahan menjadi tanggungjawab pihak pemilik lahan. Begitu juga, akad akad al-mukha>barah tidak sah jika ada ketentuan bahwa semua hasil panennya adalah

Reformasi perpajakan tersebut dapat berupa penyempurnaan terhadap kebijakan perpajakan dan sistem administrasi perpajakan sehingga bisa meningkatkan kepatuhan wajib pajak