Data Cleaning pada Data Duplikat Menggunakan Leveinsthein Distance

(1)

SKRIPSI

MARSHA AYUDIA 111402104

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

(2)

PERSETUJUAN

Judul : DATA CLEANING PADA DATA DUPLIKAT MENGGUNAKAN LEVEINSTHEIN DISTANCE Kategori : SKRIPSI

Nama : MARSHA AYUDIA

Nomor Induk Mahasiswa : 111402104

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Romi Fadillah Rahmat, B.Comp.Sc., M.Sc Dr. Erna Budhiarti Nababan, M.Sc, IT NIP. 19860303 201012 1004 NIP. –

Diketahui/disetujui oleh

Program Studi S1 Teknologi Informasi Ketua,

(3)

PERNYATAAN

DATA CLEANING PADA DATA DUPLIKAT MENGGUNAKAN LEVEINSTHEIN DISTANCE

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, Oktober 2016

(4)

UCAPAN TERIMA KASIH

Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

Ucapan terima kasih penulis sampaikan kepada:

1. Bapak Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas Sumatera Utara

2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku Dekan Fasilkom-TI USU 3. Bapak Muhammad Anggia Muchtar, ST., MM.IT selaku Ketua Program Studi

S1 Teknologi Informasi Universitas Sumatera Utara.

4. Ibu Dr. Erna Budhiarti Nababan, M.IT selaku Dosen Pembimbing I yang telah memberikan bimbingan dan saran kepada penulis.

5. Bapak Romi Fadhillah Rahmat, ST., M.Sc selaku Dosen Pembimbing II yang telah memberikan bimbingan dan saran kepada penulis.

6. Bapak Dani Gunawan ST., M.T selaku Dosen Pembanding I yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.

7. Ibu Amalia ST., M.T selaku Dosen Pembanding II yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.

8. Seluruh Dosen dan Pegawai Program Studi S1 Teknologi Informasi Universitas Sumatera Utara

9. Ayahanda Ir.Dasmen Nazar M.M dan Ibunda drg.Nelmi Jamali yang selalu memberikan doa, kasih sayang dan dukungan kepada penulis.

(5)

11. Kerabat dekat Bapak Fajar, Ibu Liliana Sari, Ibu dr. Zarni Jamali, Ibu Cici Siska Yani, Ibu Yunizam, drg.Vanazia Rizka Anggarini, Ayu Wahyuni dan Bapak Sony yang selalu memberikan doa, dan dukungan kepada penulis

12. Teman – teman wacana skripsi, Ade Oktariani, Fahrunissa Khairani, Mewati Panjaitan, Karina Ginting, Chairunnisaq, Rauva Chairani, Nabila Pindya dan Abbas Munandar yang telah memberikan dukungan dan bantuan kepada penulis. 13. Teman seangkatan Wulandari Taringan, Anwar Pasaribu, Nurul Fatihah, Ruri Dwi Pari, Tiffany Zatalini, Vanesa Felicia, Para senior Teknologi Informasi Indra Aulia, Rini Jannati, Silvi Ou, Handra Akira Saito, dan Andean Arippa yang telah memberikan nasehat dan pengetahuan kepada penulis.

14. Devina Monica, Jessica Putri, Nur Endah Safitri, Farah Nurul Huda yang selalu memberikan semangat dan motivasi kepada penulis.

15. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu per satu yang telah membantu penyelesaian skripsi ini.

Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan, perhatian, serta dukungan kepada penulis dalam menyelesaikan skripsi ini.

Medan, Oktober 2016

(6)

ABSTRAK

Data cleaning merupakan salah satu tahap pada data mining. Data cleaning biasa disebut dengan data cleansing atau scrubbing. Proses data cleaning dilakukan untuk menghilangkan kesalahan informasi pada data. Data cleaning dapat dilakukan dengan satu sumber atau beberapa sumber data. Salah satu permasalahan kesalahan pada data dari satu sumber data adalah data duplikat. Data cleaning dapat dilakukan pada data duplikat untuk mendapatkan data yang berkualitas baik. Kualitas data yang baik dapat diketahui dengan adanya informasi yang benar pada data tanpa adanya data duplikat. Namun pembersihan data yang dilakukan secara manual membutuhkan ketelitian dan menghabiskan banyak waktu karena jumlah data yang besar. Penelitian ini mengidentifikasi data duplikat dalam proses cleaning data duplikat pada data identitas. Proses identifikasi data duplikat menggunakan metode leveinsthein distance untuk mengidentifikasi kemiripan jarak antara dua string pada data. Dalam penelitian ini menggunakan 3023 data dengan tingkat akurasi yang diperoleh mencapai 95%.

(7)

DATA CLEANING ON DUPLICATE DATA WITH LEVEINSTHEIN DISTANCE METHOD

ABSTRACT

Data cleaning is one of the phases in data mining. Data cleaning is often called as data cleansing or data scrubbing. The process of data cleaning is aimed at removing the false information in the data. Data cleaning can be performed by one or several data resources. One of the common problems in data is duplicate data. Data cleaning can be used to remove duplicate data in order to get good quality of data. Quality of data can be seen from the availability of the right information without the existence of duplicate data. Unfortunately, data cleaning which is often performed manually needs thoroughness and spends a lot of time due to the size of the data. This research is to identify duplicate data existed in data cleaning from identity data. The identification process of duplicate data using leveinsthein distance has the purpose to identify the similarity of both string’s distance in data. This research was using 3023 data with 95% of accuracy rate.

(8)

DAFTAR ISI

Hal.

PERSETUJUAN ii

PERNYATAAN iii

UCAPAN TERIMA KASIH iv

ABSTRAK vi

1.7 Sistematika Penulisan 5

BAB 2 LANDASAN TEORI

2.1 Data Mining 6

2.2 Data Cleaning 8

2.3 Data Duplikat 9

2.4 Pre-Processing 9

2.5 Multi-pass Neighborhood 10

(9)

2.7 Jaccard 11

2.8 Approximate String Matching 11

2.8. 1 Leveisthein Distance 12

2.9 Transitive Closure 13

2.10 Penelitian Terdahulu 13

BAB 3 ANALISI DAN PERANCANGAN

3.1 Data Yang Digunakan 17

3.2 Analisis Sistem 18

3.2.1 Input Data 19

3.2.2 Pre-Processing 20

3.2.3 Prmbentukan Key 20

3.2.4 Pengurutan Data pada Key 22 3.2.5 Pemisahan string pada Key 22 3.2.7 Pengukuran Kesamaan pada Key 23 3.2.8 Pengukuran Kesamaan Data Tiap Kolom pada Data 24 3.2.9 Pembacaan Data Duplikat pada Suatu Window 25

3.3 Perancangan Sistem 25

3.3.1 Analisis Pengguna 25

3.3.2 Diagram Use Case 25

3.3.3 Deskripsi Use Case 26

3.3.4 Activity Diagram 26

3.4 Perancangan Antarmuka 29

3.4.1 Rancangan Tampilan Halaman Utama 29 3.4.2 Rancangan Tampilan Halaman Proses 29

BAB 4 IMPLEMENTASI DAN PENGUJIAN

4.1 Kebutuhan Aplikasi 32

4.1.1 Perangkat Keras 32

4.1.2 Perangkat Lunak 32

4.2 Implementasi Perancangan Antarmuka 33

(10)

4.2.2 Halaman Proses 33

4.3 Pengujian Sistem 37

BAB 5 KESIMPULAN DAN SARAN

5.1 Kesimpulan 41

5.2 Saran 42

(11)

DAFTAR GAMBAR

Hal. Gambar 2.1. Tahap pada Knowledge Discovery Database 6 Gambar 2.2. Gambar Tabel Data Yang Terdapat Duplikat 9 Gambar 2.3. Gambar Tabel Data Dan Key 10 Gambar 2.4. Window Pada Tahap Merge 11

Gambar 3.1. Penggunaan Data 17

Gambar 3.2. Arsitektur Umum 19

Gambar 3.3. Gambar Data Setelah Preprocessing 21 Gambar 3.4. Gambar Data Hasil Pembentukan Key 1, Key 2, Key 3 21 Gambar 3.5. Gambar Data Hasil Ascending 22 Gambar 3.6. Gambar Data Hasil N-Gram 22 Gambar 3.7. Gambar Data Hasil Jaccard 23 Gambar 3.8. Gambar Data Hasil Leveinsthein Distance 24

Gambar 3.9. Use Case sistem 26

Gambar 3.10. Activity Diagram Melihat Form Utama 27 Gambar 3.11. Activity Diagram Halaman Data Cleaning 27 Gambar 3.12. Activity Diagram Proses Data Cleaning 28 Gambar 3.14. Rancangan Tampilan Halaman Utama 29 Gambar 3.15. Rancangan Tampilan Proses 30 Gambar 4.1. Tampilan Halaman Utama 33 Gambar 4.2. Tampilan Halaman Proses 34

Gambar 4.3. Tampilan File Location 34

(12)

DAFTAR TABEL

Hal.

Tabel 2.1. Peneliti Terdahulu 14

Tabel 3.1. Deskripsi Use Case Data Cleaning 26

Tabel 4.1. Tabel Data 37

Tabel 4.2. Tabel Hasil Data duplikat 38

Tabel 4.3. Tabel Pengujian 39