SKRIPSI
MARSHA AYUDIA 111402104
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
PERSETUJUAN
Judul : DATA CLEANING PADA DATA DUPLIKAT MENGGUNAKAN LEVEINSTHEIN DISTANCE Kategori : SKRIPSI
Nama : MARSHA AYUDIA
Nomor Induk Mahasiswa : 111402104
Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Romi Fadillah Rahmat, B.Comp.Sc., M.Sc Dr. Erna Budhiarti Nababan, M.Sc, IT NIP. 19860303 201012 1004 NIP. –
Diketahui/disetujui oleh
Program Studi S1 Teknologi Informasi Ketua,
PERNYATAAN
DATA CLEANING PADA DATA DUPLIKAT MENGGUNAKAN LEVEINSTHEIN DISTANCE
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Oktober 2016
UCAPAN TERIMA KASIH
Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
Ucapan terima kasih penulis sampaikan kepada:
1. Bapak Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas Sumatera Utara
2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku Dekan Fasilkom-TI USU 3. Bapak Muhammad Anggia Muchtar, ST., MM.IT selaku Ketua Program Studi
S1 Teknologi Informasi Universitas Sumatera Utara.
4. Ibu Dr. Erna Budhiarti Nababan, M.IT selaku Dosen Pembimbing I yang telah memberikan bimbingan dan saran kepada penulis.
5. Bapak Romi Fadhillah Rahmat, ST., M.Sc selaku Dosen Pembimbing II yang telah memberikan bimbingan dan saran kepada penulis.
6. Bapak Dani Gunawan ST., M.T selaku Dosen Pembanding I yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.
7. Ibu Amalia ST., M.T selaku Dosen Pembanding II yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.
8. Seluruh Dosen dan Pegawai Program Studi S1 Teknologi Informasi Universitas Sumatera Utara
9. Ayahanda Ir.Dasmen Nazar M.M dan Ibunda drg.Nelmi Jamali yang selalu memberikan doa, kasih sayang dan dukungan kepada penulis.
11. Kerabat dekat Bapak Fajar, Ibu Liliana Sari, Ibu dr. Zarni Jamali, Ibu Cici Siska Yani, Ibu Yunizam, drg.Vanazia Rizka Anggarini, Ayu Wahyuni dan Bapak Sony yang selalu memberikan doa, dan dukungan kepada penulis
12. Teman – teman wacana skripsi, Ade Oktariani, Fahrunissa Khairani, Mewati Panjaitan, Karina Ginting, Chairunnisaq, Rauva Chairani, Nabila Pindya dan Abbas Munandar yang telah memberikan dukungan dan bantuan kepada penulis. 13. Teman seangkatan Wulandari Taringan, Anwar Pasaribu, Nurul Fatihah, Ruri Dwi Pari, Tiffany Zatalini, Vanesa Felicia, Para senior Teknologi Informasi Indra Aulia, Rini Jannati, Silvi Ou, Handra Akira Saito, dan Andean Arippa yang telah memberikan nasehat dan pengetahuan kepada penulis.
14. Devina Monica, Jessica Putri, Nur Endah Safitri, Farah Nurul Huda yang selalu memberikan semangat dan motivasi kepada penulis.
15. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu per satu yang telah membantu penyelesaian skripsi ini.
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan, perhatian, serta dukungan kepada penulis dalam menyelesaikan skripsi ini.
Medan, Oktober 2016
ABSTRAK
Data cleaning merupakan salah satu tahap pada data mining. Data cleaning biasa disebut dengan data cleansing atau scrubbing. Proses data cleaning dilakukan untuk menghilangkan kesalahan informasi pada data. Data cleaning dapat dilakukan dengan satu sumber atau beberapa sumber data. Salah satu permasalahan kesalahan pada data dari satu sumber data adalah data duplikat. Data cleaning dapat dilakukan pada data duplikat untuk mendapatkan data yang berkualitas baik. Kualitas data yang baik dapat diketahui dengan adanya informasi yang benar pada data tanpa adanya data duplikat. Namun pembersihan data yang dilakukan secara manual membutuhkan ketelitian dan menghabiskan banyak waktu karena jumlah data yang besar. Penelitian ini mengidentifikasi data duplikat dalam proses cleaning data duplikat pada data identitas. Proses identifikasi data duplikat menggunakan metode leveinsthein distance untuk mengidentifikasi kemiripan jarak antara dua string pada data. Dalam penelitian ini menggunakan 3023 data dengan tingkat akurasi yang diperoleh mencapai 95%.
DATA CLEANING ON DUPLICATE DATA WITH LEVEINSTHEIN DISTANCE METHOD
ABSTRACT
Data cleaning is one of the phases in data mining. Data cleaning is often called as data cleansing or data scrubbing. The process of data cleaning is aimed at removing the false information in the data. Data cleaning can be performed by one or several data resources. One of the common problems in data is duplicate data. Data cleaning can be used to remove duplicate data in order to get good quality of data. Quality of data can be seen from the availability of the right information without the existence of duplicate data. Unfortunately, data cleaning which is often performed manually needs thoroughness and spends a lot of time due to the size of the data. This research is to identify duplicate data existed in data cleaning from identity data. The identification process of duplicate data using leveinsthein distance has the purpose to identify the similarity of both string’s distance in data. This research was using 3023 data with 95% of accuracy rate.
DAFTAR ISI
Hal.
PERSETUJUAN ii
PERNYATAAN iii
UCAPAN TERIMA KASIH iv
ABSTRAK vi
1.7 Sistematika Penulisan 5
BAB 2 LANDASAN TEORI
2.1 Data Mining 6
2.2 Data Cleaning 8
2.3 Data Duplikat 9
2.4 Pre-Processing 9
2.5 Multi-pass Neighborhood 10
2.7 Jaccard 11
2.8 Approximate String Matching 11
2.8. 1 Leveisthein Distance 12
2.9 Transitive Closure 13
2.10 Penelitian Terdahulu 13
BAB 3 ANALISI DAN PERANCANGAN
3.1 Data Yang Digunakan 17
3.2 Analisis Sistem 18
3.2.1 Input Data 19
3.2.2 Pre-Processing 20
3.2.3 Prmbentukan Key 20
3.2.4 Pengurutan Data pada Key 22 3.2.5 Pemisahan string pada Key 22 3.2.7 Pengukuran Kesamaan pada Key 23 3.2.8 Pengukuran Kesamaan Data Tiap Kolom pada Data 24 3.2.9 Pembacaan Data Duplikat pada Suatu Window 25
3.3 Perancangan Sistem 25
3.3.1 Analisis Pengguna 25
3.3.2 Diagram Use Case 25
3.3.3 Deskripsi Use Case 26
3.3.4 Activity Diagram 26
3.4 Perancangan Antarmuka 29
3.4.1 Rancangan Tampilan Halaman Utama 29 3.4.2 Rancangan Tampilan Halaman Proses 29
BAB 4 IMPLEMENTASI DAN PENGUJIAN
4.1 Kebutuhan Aplikasi 32
4.1.1 Perangkat Keras 32
4.1.2 Perangkat Lunak 32
4.2 Implementasi Perancangan Antarmuka 33
4.2.2 Halaman Proses 33
4.3 Pengujian Sistem 37
BAB 5 KESIMPULAN DAN SARAN
5.1 Kesimpulan 41
5.2 Saran 42
DAFTAR GAMBAR
Hal. Gambar 2.1. Tahap pada Knowledge Discovery Database 6 Gambar 2.2. Gambar Tabel Data Yang Terdapat Duplikat 9 Gambar 2.3. Gambar Tabel Data Dan Key 10 Gambar 2.4. Window Pada Tahap Merge 11
Gambar 3.1. Penggunaan Data 17
Gambar 3.2. Arsitektur Umum 19
Gambar 3.3. Gambar Data Setelah Preprocessing 21 Gambar 3.4. Gambar Data Hasil Pembentukan Key 1, Key 2, Key 3 21 Gambar 3.5. Gambar Data Hasil Ascending 22 Gambar 3.6. Gambar Data Hasil N-Gram 22 Gambar 3.7. Gambar Data Hasil Jaccard 23 Gambar 3.8. Gambar Data Hasil Leveinsthein Distance 24
Gambar 3.9. Use Case sistem 26
Gambar 3.10. Activity Diagram Melihat Form Utama 27 Gambar 3.11. Activity Diagram Halaman Data Cleaning 27 Gambar 3.12. Activity Diagram Proses Data Cleaning 28 Gambar 3.14. Rancangan Tampilan Halaman Utama 29 Gambar 3.15. Rancangan Tampilan Proses 30 Gambar 4.1. Tampilan Halaman Utama 33 Gambar 4.2. Tampilan Halaman Proses 34
Gambar 4.3. Tampilan File Location 34
DAFTAR TABEL
Hal.
Tabel 2.1. Peneliti Terdahulu 14
Tabel 3.1. Deskripsi Use Case Data Cleaning 26
Tabel 4.1. Tabel Data 37
Tabel 4.2. Tabel Hasil Data duplikat 38
Tabel 4.3. Tabel Pengujian 39