DATA
PREPROCESSING
Budi Susanto (versi 1.2)
Kenali Data Anda
¨ Atribut Data
¤ Memahami tipe atribut
¤ Membantu membetulkan data saat integrasi data
¨ Deskripsi Statistik Data
¤ Memudahkan untuk mengisi nilai yang kosong,
¤ memperhalus noise data,
¤ mengetahui outlier selama pemrosesan data
¨ Mengukur Kesamaan dan ketidaksamaan
¤ Dapat berguna juga untuk mendeteksi outlier
¤ Untuk melakukan klasifikasi
Data
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data yang ada pada umumnya:
¤ Banyak noise
¤ Ukuran yang besar
¤ Dapat merupakan campuran dari berbagai macam
sumber
¨ Memahami data sangat penting untuk tahap
preprosesing.
Atribut Data
¨ Mencerminkan karakteristik objek data.
¨ Tipe atribut menentukan himpunan nilai yang
diperbolehkan. ¤ Nominal ¤ Binary (Binomial) ¤ Ordinal ¤ Numerik n Interval-scale n Ratio-scale
Deskripsi Statistik
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Mengukur lokasi pusat/tengah dari distribusi data
¤ Mean
¤ Median
¤ Mode
¤ Midrange
Data Mining: Concepts and Techniques, 3th ed., p. 47
Deskripsi Statistik
¨ Mengukur penyebaran data
¤ Rentang dan Kuartil
BoxPlot
¨ Interquartil Range (IQR) ¤ Q3 – Q1 ¨ Outlier data ¤ 1.5 x IQRData Preprocessing - Budi Susanto - FTI UKDW
Mengukur Kesamaan
¨ Dalam aplikasi data mining, seperti clustering,
analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak.
¤ Minkwoski distance
n Euclidean dan Manhattan
Mengukur Kesamaan
Data Preprocessing - Budi Susanto - FTI UKDW
Mengapa Perlu Data Preprocessing?
¨ Data mentah yang ada sebagian besar kotor
¤ Tidak komplet
n Berisi data yang hilang/kosong
n Kekurangan atribut yang sesuai
n Hanya berisi data aggregate
¤ Banyak “noise”
n Berisi data yang Outlier
n Berisi error
¤ Tidak konsisten
Mengapa Data Preprocessing Penting?
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data yang tidak berkualitas, akan menghasilkan
kualitas mining yang tidak baik pula.
¨ Data Preprocessing, cleaning, dan transformasi
merupakan pekerjaan mayoritas dalam aplikasi data mining (90%).
Ukuran Kualitas Data
¨ Accuracy ¨ Completeness ¨ Consistency ¨ Timeliness ¨ Believability ¨ Value added ¨ Interpretability ¨ Accessibility
Teknik Data Preprocessing
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Data Cleaning
¨ Data integration
¨ Data Reduction
¨ Data Transformation
Data Cleaning
¨ Proses untuk membersihkan data dengan beberapa
teknik
¤ Memperkecil noise
¤ membetulkan data yang tidak konsisten.
¤ Mengisi missing value
Data Cleaning: Missing Values
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Mengabaikan record
¤ Biasanya untuk label klasifikasi yang kosong
¨ Mengisikan secara manual
¨ Menggunakan mean/median dari atribut yang mengandung missing value
¤ Mean dapat dipakai jika distribusi data normal
¤ Median digunakan jika distribusi data tidak normal
(condong)
¨ Menggunakan nilai global
¨ Menggunakan nilai termungkin
¤ Menerapkan regresi
Data Cleaning: Missing Values
¨ Contoh untuk missing value IPK diisi dengan
rata-rata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga.
¨ Contoh untuk missing value Pekerjaan, dapat diisi
dengan pekerjaan yang paling banyak muncul.
Angkatan IPK Pekerjaan Kelamin
2004 3.45 Programmer L
2005 ? Ibu RT P
Data Cleaning: Noisy Data
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Noise data adalah suatu kesalahan acak atau
variasi dalam variabel terukur.
¨ Teknik-teknik
¤ Binning
n Smoothing by bin means
n Smoothing by bin medians
n Smoothing by bin boundaries
¤ Regression
¤ Outlier Analysis
Metode Binning
¨ Metode ini akan melakukan pengelompokan terhadap kumpulan data.
¨ Metode binning merupakan salah satu pendekatan dicretization.
¨ Urutan proses:
¤ Urutkan data secara ascending
¤ Lakukan partisi ke dalam bins
n Dapat dengan equal-width (jarak) atau equal-depth (frekuensi)
¤ Kemudian dapat di-smoothing: smooth by means, smooth by
Partisi dalam Metode Binning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Partisi Equal-Width
¤ Algoritma membagi data ke dalam k interval ukuran
yang sama. Lebar interval adalah
n w = (max-min)/k
¤ Batasan interval adalah
n min+w, min+2w, …, min+(k-1)w
¨ Partisi Equal-depth
¤ Membagi data ke dalam k kelompok dimana tiap
kelompok berisi jumlah yang sama
Contoh Partisi Binning
¨ Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 ¨ Equal Width ¤ BIN1 = 0, 4 [-, 10] ¤ BIN2 = 12, 16, 16, 18 [10, 20] ¤ BIN3 = 24, 26, 28 [20, +] ¨ Equal Depth ¤ BIN1 = 0, 4, 12 ¤ BIN2 = 16, 16, 18 ¤ BIN3 = 24, 26, 28
Smoothing pada Partisi Binning
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Smoothing berdasar rata-rata
¤ Semua nilai di tiap bin diganti dengan rata-rata nilai
tiap bin
¨ Smoothing berdasar batasan
¤ Setiap nilai bin diganti dengan nilai yang paling dekat
dari batasan nilai
¤ Batasan nilai terbentuk dari [min, max] tiap bin
Data Cleaning: Outliers
cluster
outlier salary
Data Cleaning: Regresi
Data Preprocessing - Budi Susanto - FTI UKDW
x y y = x + 1 X1 Y1 (salary) (age)
Percobaan Data Cleaning
¨ Dataset
Workflow #1
Data Preprocessing - Budi Susanto - FTI UKDW reglin
Data Integration
¨ Data dapat bersumber dari beberapa sumber
¨ Teknik
¤ Analisis korelasi
¤ Atribut redudan
Covariance Correlation
Data Preprocessing - Budi Susanto - FTI UKDW integration
Data Transformation
¨ Tujuannya: diharapkan lebih efisien dalam proses
data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.
¨ Strategi:
¤ Smoothing
¤ Attribute (feature) construction
¤ Aggregation
¤ Normalization
Data Transformation: Aggregation dan
Smoothing
Data Preprocessing - Budi Susanto - FTI UKDW
coba1
Data Transformation: Normalization
¨ Unit ukuran dapat mempengaruhi analisis data.¨ Unit yang lebih kecil akan menghasilkan rentang nilai yang besar
¤ Atribut akan memiliki “bobot” yang lebih besar dari atribut
lain
¨ Sehingga
¤ Data perlu dinormalisasi atau dibakukan.
¨ Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]
¨ Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering.
Data Transformation: Metode
Normalization
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Min-max
¨ Z-score
¨ Decimal scaling
Data Transformation: Discretization
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Melakukan pergantian atribut numerik menjadi
interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas)
Data Transformation: Data Reduction
Data Preprocessing - Budi Susanto - FTI UKDW
¨ Teknik
¤ Dimensionality reduction
n Wavelet transform
n Principal Component Analysis
n Attribute Subset Selection
¤ Numerosity reduction
n sampling
¤ Data compression