IN086 – Temu Pengetahuan
5. Data Preprocessing
1
Mengapa Data Preprocessing ?
•
Data di dunia nyata itu kotor
•
Tidak lengkap: kekurangan nilai atribut,
kekurangan beberapa atribut yang dibutuhkan,
atau hanya terdiri dari data agregat
Mengapa Data Kotor?
• Data yang tidak lengkap mungkin berasal dari
• Data bernilai “Not Applicable” saat direkam
• Pertimbangan yang berbeda saat data direkam dan saat data dianalisa
• Masalah – masalah perangkat keras / perangkat lunak
• Data yang berisik (noisy / data yang tidak benar) mungkin berasal dari
• Instrumen yang mengumpulkan data yang salah • Kesalahan manusia atau komputer saat entri data • Kesalahan saat transmisi data
• Data yang tidak konsisten mungkin berasal dari
• Sumber – sumber data yang berbeda
• Pelanggaran ketergantungan fungsinal (contoh: memodifikasi data yang terhubung)
• Data duplikat juga perlu dibersihkan
3
Mengapa Data Preprocessing
Penting?
•
No quality data, no quality mining results!
• Keputusan berkualitas harus berasal dari data yang berkualitas
• Contoh: data duplikat atau hilang dapat menyebabkan statistik yang salah atau menyesatkan
• Data Warehouse membutuhkan integrasi yang konsisten dari data yang berkualitas
•
Ekstraksi data, pembersihan, dan transformasi
merupakan pekerjaan terbesar dari membangun
sebuah Data Warehouse
Tugas – Tugas Utama dalam Data
Preprocessing
•
Pembersihan Data
• Mengisi nilai – nilai yang hilang, menghaluskan data yang berisik, mengidentifikasi outlier, dan menyelesaikan ketidakkonsistenan. •
Integrasi Data
• Integrasi dari basis data, data cube, atau berkas – berkas yang beragam
•
Transformasi Data
• Normalisasi dan agregasi •
Reduksi Data
• Mendapatkan representasi yang lebih sedikit dalam volume tetapi menghasilkan hasil analisis yang sama atau mirip
•
Dikretisasi Data
• Bagian dari reduksi data tapi dengan kepentingan yang tertentu, khususnya untuk data numerik
5
Deskripsi Data
7Karakteristik dari Mining Data Deskriptif
• Motivasi
• Untuk lebih memahami data: tendensi sentral, variasi, sebaran
• Karakteristik Dispersi Data
• median, max, min, quantiles, outliers, variance, dll.
• Dimensi numerik yang berhubungan dengan interval yang disortir
• Dispersi Data: dianalisa dengan presisi yang bergranularitas beragam
• Analisis boxplot atau quantile untuk interval yang tersortir
• Analisis Dispersi dari nilai – nilai terkomputasi
• Melipat pengukuran dalam dimensi numerik
• Analisis boxplot atau quantile untuk kubus yang ditransformasi
9
Mengukur Tendensi Sentral
• Mean (pengukuran aljabar) (sampel vs. populasi):
• Weighted arithmetic mean:
• Trimmed mean: memangkas nilai extreme
• Median: Sebuah nilai holistik
• Nilai tengah dari nilai – nilai berjumlah ganjil, atau rata – rata nilai tengah untuk yang lainnya.
• Diestimasikan dengan interpolasi (untuk data berkelompok)
• Mode
• Nilai yang muncul paling sering dalam data
• Unimodal, bimodal, trimodal
• Rumus empiris: N x
9
n i i x n x 1 1
n i i n i i i w x w x 1 1 c f l f n L median median ) ) ( 2 / ( 1
)
(
3
mean
median
mode
mean
Data Simetris vs Skewed
•Median, mean and mode dari data
simetris, skewed positif dan skewed
negatif
DM-MA/S1IF/FTI/UKM/2010
Mengukur Sebaran Data
• Quartiles, outliers dan boxplots
• Quartiles: Q1 (25th percentile), Q3 (75th percentile) • Inter-quartile range: IQR = Q3 –Q1
• Five number summary: min, Q1, M,Q3, max
• Boxplot: akhir dari kotak adalah the quartiles, median ditandai, whiskers, dan mengeplot outlier satu persatu
• Outlier: biasanya nilai lebih tinggi / rendah dari 1.5 x IQR
• Variance dan standard deviasi (sample: s, population: σ)
• Variance: (algebraic, scalable computation)
• Standard deviasi s (or σ) adalah akar kuadrat dari variance s2 (orσ2)
n i i n i i N x x N 1 2 2 1 2 2 1 ( ) 1 11
n i n i i i n i i x n x n x x n s 1 1 2 2 1 2 2 [ 1( ) ] 1 1 ) ( 1 1 DM-MA/S1IF/FTI/UKM/2010 12Properti dari Kurva Distribusi Normal
•
Kurva distribusi normal
•
Dari μ–σ ke μ+σ: mengandung sekitar 68% seluruh
pengukuran (μ: mean, σ: standard deviasi)
•
Dariμ–2σ to μ+2σ: mengandung sekitar 95% seluruh
pengukuran
•
Dari μ–3σ to μ+3σ: mengandung sekitar 99.7% seluruh
pengukuran
10/1/2014
Analisis Histogram
•
Tampilan grafis dari deskripsi kelas statistika dasar
•Histogram frekuensi
• Sebuah metode grafika yang univariate
• Terdiri dari sebuah set dari kotak – kotak yang merefleksikan jumlah atau frekuensi dari kelas – kelas yang ada dalam data
13
Plot tebar / Scatter plot
•
Menyediakan tampilan awal dari data yang bersifat bivariate
untuk melihat klaster dari poin, outlier, dll
•
Setiap pasang nilai diterjemahkan sebagai sepasang koordinat
dan diplot sebagai poin dalam latar
Data preprocessing
15DM-MA/S1IF/FTI/UKM/2010
Pembersihan Data
•
Arti penting
• Pembersihan data merupakan salah satu dari tiga
permasalahan besar dalam Data Warehousing – Ralph Kimball
• Pembersihan data adalah permasalahan nomor satu dari Data Warehousing – Survey DCI
•
Tugas – tugas Pembersihan Data
• Mengisi nilai – nilai yang hilang
• Mengidentifikasi outlier dan menghaluskan data yang berisik
• Mengoreksi data yang tidak konsisten
• Menyelesaikan duplikasi yang disebabkan karena integrasi data
DM-MA/S1IF/FTI/UKM/2010
Data yang Hilang
•
Data tidak selalu harus tersedia
• Contoh: banyak tuples (pasangan data) yang tidak memiliki data yang terekam untuk beberapa atributnya, seperti penghasilan konsumen dalam data sales
•
Hilangnya data mungkin disebabkan oleh
•
Kerusakan instrumen
•
Ketidakkonsistenan dengan rekaman data yang lain
yang akhrinya dihapus
•
Data tidak dimasukkan karena kesalahpahaman
•Beberapa data tidak dianggap penting waktu di entri
•Tidak ada daftar historis atau perubahan dari data
•Data yang hilang mungkin perlu diperkirakan nilainya.
17
Bagaimana Menangani Missing Data?
• Mengabaikan tuple: biasanya dilakukan ketika label kelas hilang
(diasumsikan untuk tugas klasifikasi) – tidak efektif apabila prosentase dari nilai yang hilang di setiap atribut bervariasi secara besar
• Mengisi nilai yang hilang secara manual: memakan waktu + memungkinkan?
DM-MA/S1IF/FTI/UKM/2010
Data Berisik / Noisy
• Noise: error random atau variance dari sebuah variabel yang diukur
• Nilai atribut yang tidak benar mungkin disebabkan oleh
• Instrumen pengumpul data yang salah
• Masalah data entri
• Masalah transmisi data
• Limitasi teknologi
• Ketidakkonsistenan dalam kesepakatan penamaan
• Kesalahan – kesalahan lain yang membutuhkan pembersihan data
• Data duplikat
• Data tidak lengkap
• Data tidak konsisten
19
Bagaimana Menangani Noisy Data?
•
Binning
•
Pertama menyortir data dan mempartisi menjadi bin – bin
berfrekuensi sama
•
Kemudian dapat dilakukan
smooth by bin means, smooth by
bin median, smooth by bin boundaries
, dll.
•
Regresi
•
Menghaluskan dengan memasangkan data dalam fungsi regresi
•
Clustering
•
Mendeteksi dan menghilangkan outlier
•
Kombinasi inspeksi komputer dan manusia
•
Mendeteksi nilai – nilai yang dicurigai dan dicek oleh manusia
(contoh menangani kemungkinan outlier)
Metode Diskretisasi Sederhana: Binning
•
Equal-width
(distance) partitioning
• Membagi kisaran dalam N interval dengan ukuran yang sama: grid seragam
• Jika A dan B adalah nilai terendah dan tertinggi dari atribut, lebar internval menjadi: W = (B – A) / N
• Sangat simpel, tapi presentasi akan didominasi outlier
• Data skewed tidak tertangani dengan baik
•
Equal-depth
(frequency) partitioning
• Membagi kisaran dalam N interval, setiap interval berisi sampel yang kira – kira sama jumlahnya
• Skala data yang baik
• Mengatur data kategoris mungkin agak sulit
21
Metode Binning untuk Penghalusan Data
Sortir data untuk harga (dalam dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partisi dalam equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34
Integrasi Data
•
Integrasi Data:
•
Mengkombinasikan data dari sumber – sumber yang berbeda
dalam sebuah penyimpanan yang koheren
•
Skema integrasi: contoh A.cust-id B.cust-#
•
Mengintegrasikan meta data dari berbagai sumber
•
Permasalahan identifikasi Entitas
:
•
Mengidentifikasi entitas dunia nyata dari berbagai sumber,
contoh Bill Clinton = William Clinton
•
Mendeteksi dan menyelesaikan konflik nilai data
•
Untuk entitas dunia nyata yang sama, nilai atribut dari sumber
berbeda mungkin bernilai berbeda
•
Alasan yang mungkin: representasi yang berbeda, skala
yang berbeda, contoh unit metrik dan unit British
23
Menganani Kembaran Data dalam Integrasi Data
•Data redundan (kembar) mungkin sering terjadi dalam integrasi dari
berbagai basis data
•
Object identification: atribut atau obyek yang sama mungkin
memiliki nama berbeda pada basis data yang berbeda
•
Derivable data: satu atribut mungkin sebuah atribut derivasi dari
atribut tabel yang lainnya, contoh revenue tahunan
•
Atribut kembaran mungkin dapat dideteksi dengan melakukan
analisis korelasi
•
Integrasi yang hati – hati dari data yang berasal dari berbagai
sumber bisa mengurangi / menghidari kembaran atau
ketidakkonsistenan dan meningkatkan kecepatan dan kualitas
mining.
Transformasi Data
• Penghalusan: menghilangkan noise dari data
• Agregasi: merangkum, konstruksi kubus data
• Generalisasi: konsep menyusuri hirarki
• Normalisasi: diskala untuk masuk dalam kisaran yang kecil dan tertentu
• Normalisasi min – max
• Normalisasi z-score
• Normalisai dengan skala desimal
• Konstruksi atribut / fitur
• Atribut – atribut baru dibuat dari atribut yang sudah diberikan
25
Strategi Reduksi Data
•Mengapa Reduksi Data?
• Sebuah basis data / Data Warehouse dapat menyimpan data dalam terabita
• Data analisis yang kompleks / mining dapat memakan waktu yang sangat lama apabila dilakukan di set data yang lengkap
•
Reduksi Data
• Mendapatkan representasi data set yang dikurangi yang sangat lebih kecil dalam volume tapi dapat menghasilkan hasil analisis yang sama
Diskretisasi
•
Tiga tipe atribut
• Nominal – nilai dari set yang tidak berurut, contoh warna, profesi
• Ordinal – nilai dari set yang berurut, contoh rangking militer dan akademis
• Continuous – nilai riil, contoh nilai integer atau real
•
Diskretisasi
• Membagi kisaran dari nilai atribut continuous menjadi interval – interval
• Beberapa algoritma klasifikasi hanya menerima atribut kategorikal
• Mengurangi ukuran data dengan diskretisasi
• Penyiapkan untuk analisa lanjutan
27
Diskretisasi dan Hirarki Konsep
•Diskretisasi
• Mengurangi jumlah dari nilai – nilai untuk atribut yang continuous dengan membaginya dalam kisaran atribut dalam interval – interval
• Label interval kemudian dipakai untuk mengganti nilai data aktual
• Supervised dan unsupervised
• Split (top – down) vs. Merge (bottom – up)
• Diskretisasi dapat dilakukan secara rekursif pada sebuah atribut
•
Formasi hirarki konsep
• Secara rekursif mereduksi data dengan mengumpulkan dan mengganti konsep yang level rendah (seperti nilai numerik untuk umur) menjadi konsep yang tingkatannya lebih tinggi (seperti muda, dewasa, senior)