DATA PREPROCESSING. Budi Susanto (versi 1.2)

(1)

DATA

PREPROCESSING

Budi Susanto (versi 1.2)

Kenali Data Anda

¨  Atribut Data

¤ Memahami tipe atribut

¤ Membantu membetulkan data saat integrasi data

¨  Deskripsi Statistik Data

¤ Memudahkan untuk mengisi nilai yang kosong,

¤ memperhalus noise data,

¤ mengetahui outlier selama pemrosesan data

¨  Mengukur Kesamaan dan ketidaksamaan

¤ Dapat berguna juga untuk mendeteksi outlier

¤ Untuk melakukan klasifikasi

(2)

Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data yang ada pada umumnya:

¤ Banyak noise

¤ Ukuran yang besar

¤ Dapat merupakan campuran dari berbagai macam

sumber

¨  Memahami data sangat penting untuk tahap

preprosesing.

Atribut Data

¨  Mencerminkan karakteristik objek data.

¨  Tipe atribut menentukan himpunan nilai yang

diperbolehkan. ¤ Nominal ¤ Binary (Binomial) ¤ Ordinal ¤ Numerik n Interval-scale n Ratio-scale

(3)

Deskripsi Statistik

¨  Mengukur lokasi pusat/tengah dari distribusi data

¤ Mean

¤ Median

¤ Mode

¤ Midrange

Data Mining: Concepts and Techniques, 3th ed., p. 47

Deskripsi Statistik

¨  Mengukur penyebaran data

¤ Rentang dan Kuartil

(4)

BoxPlot

¨  Interquartil Range (IQR) ¤ Q3 – Q1 ¨  Outlier data ¤ 1.5 x IQR

Mengukur Kesamaan

¨  Dalam aplikasi data mining, seperti clustering,

analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak.

¤ Minkwoski distance

n Euclidean dan Manhattan

(5)

Mengukur Kesamaan

Mengapa Perlu Data Preprocessing?

¨  Data mentah yang ada sebagian besar kotor

¤ Tidak komplet

n Berisi data yang hilang/kosong

n Kekurangan atribut yang sesuai

n Hanya berisi data aggregate

¤ Banyak “noise”

n Berisi data yang Outlier

n Berisi error

¤ Tidak konsisten

(6)

Mengapa Data Preprocessing Penting?

¨  Data yang tidak berkualitas, akan menghasilkan

kualitas mining yang tidak baik pula.

¨  Data Preprocessing, cleaning, dan transformasi

merupakan pekerjaan mayoritas dalam aplikasi data mining (90%).

Ukuran Kualitas Data

¨  Accuracy ¨  Completeness ¨  Consistency ¨  Timeliness ¨  Believability ¨  Value added ¨  Interpretability ¨  Accessibility

(7)

Teknik Data Preprocessing

¨  Data Cleaning

¨  Data integration

¨  Data Reduction

¨  Data Transformation

Data Cleaning

¨  Proses untuk membersihkan data dengan beberapa

teknik

¤ Memperkecil noise

¤ membetulkan data yang tidak konsisten.

¤ Mengisi missing value

(8)

Data Cleaning: Missing Values

¨  Mengabaikan record

¤ Biasanya untuk label klasifikasi yang kosong

¨  Mengisikan secara manual

¨  Menggunakan mean/median dari atribut yang mengandung missing value

¤ Mean dapat dipakai jika distribusi data normal

¤ Median digunakan jika distribusi data tidak normal

(condong)

¨  Menggunakan nilai global

¨  Menggunakan nilai termungkin

¤ Menerapkan regresi

Data Cleaning: Missing Values

¨  Contoh untuk missing value IPK diisi dengan

rata-rata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga.

¨  Contoh untuk missing value Pekerjaan, dapat diisi

dengan pekerjaan yang paling banyak muncul.

Angkatan IPK Pekerjaan Kelamin

2004 3.45 Programmer L

2005 ? Ibu RT P

(9)

Data Cleaning: Noisy Data

¨  Noise data adalah suatu kesalahan acak atau

variasi dalam variabel terukur.

¨  Teknik-teknik

¤ Binning

n Smoothing by bin means

n Smoothing by bin medians

n Smoothing by bin boundaries

¤ Regression

¤ Outlier Analysis

Metode Binning

¨  Metode ini akan melakukan pengelompokan terhadap kumpulan data.

¨  Metode binning merupakan salah satu pendekatan dicretization.

¨  Urutan proses:

¤ Urutkan data secara ascending

¤ Lakukan partisi ke dalam bins

n Dapat dengan equal-width (jarak) atau equal-depth (frekuensi)

¤ Kemudian dapat di-smoothing: smooth by means, smooth by

(10)

Partisi dalam Metode Binning

¨  Partisi Equal-Width

¤ Algoritma membagi data ke dalam k interval ukuran

yang sama. Lebar interval adalah

n w = (max-min)/k

¤ Batasan interval adalah

n min+w, min+2w, …, min+(k-1)w

¨  Partisi Equal-depth

¤ Membagi data ke dalam k kelompok dimana tiap

kelompok berisi jumlah yang sama

Contoh Partisi Binning

¨  Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 ¨  Equal Width ¤ BIN1 = 0, 4 [-, 10] ¤ BIN2 = 12, 16, 16, 18 [10, 20] ¤ BIN3 = 24, 26, 28 [20, +] ¨  Equal Depth ¤ BIN1 = 0, 4, 12 ¤ BIN2 = 16, 16, 18 ¤ BIN3 = 24, 26, 28

(11)

Smoothing pada Partisi Binning

¨  Smoothing berdasar rata-rata

¤ Semua nilai di tiap bin diganti dengan rata-rata nilai

tiap bin

¨  Smoothing berdasar batasan

¤ Setiap nilai bin diganti dengan nilai yang paling dekat

dari batasan nilai

¤ Batasan nilai terbentuk dari [min, max] tiap bin

Data Cleaning: Outliers

cluster

outlier salary

(12)

Data Cleaning: Regresi

x y y = x + 1 X1 Y1 (salary) (age)

Percobaan Data Cleaning

¨  Dataset

(13)

Workflow #1

Data Preprocessing - Budi Susanto - FTI UKDW reglin

Data Integration

¨  Data dapat bersumber dari beberapa sumber

¨  Teknik

¤ Analisis korelasi

¤ Atribut redudan

(14)

Covariance Correlation

Data Preprocessing - Budi Susanto - FTI UKDW _integration

Data Transformation

¨  Tujuannya: diharapkan lebih efisien dalam proses

data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.

¨  Strategi:

¤ Smoothing

¤ Attribute (feature) construction

¤ Aggregation

¤ Normalization

(15)

Data Transformation: Aggregation dan

Smoothing

coba1

Data Transformation: Normalization

¨  Unit ukuran dapat mempengaruhi analisis data.

¨  Unit yang lebih kecil akan menghasilkan rentang nilai yang besar

¤ Atribut akan memiliki “bobot” yang lebih besar dari atribut

lain

¨  Sehingga

¤ Data perlu dinormalisasi atau dibakukan.

¨  Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]

¨  Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering.

(16)

Data Transformation: Metode

Normalization

¨  Min-max

¨  Z-score

¨  Decimal scaling

(17)

Data Transformation: Discretization

¨  Melakukan pergantian atribut numerik menjadi

interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas)

(18)

Data Transformation: Data Reduction

¨  Teknik

¤ Dimensionality reduction

n Wavelet transform

n Principal Component Analysis

n Attribute Subset Selection

¤ Numerosity reduction

n sampling

¤ Data compression

DATA PREPROCESSING. Budi Susanto (versi 1.2)

DATA

PREPROCESSING

Kenali Data Anda

Data

Atribut Data

Deskripsi Statistik

Deskripsi Statistik

BoxPlot

Mengukur Kesamaan

Mengukur Kesamaan

Mengapa Perlu Data Preprocessing?

Mengapa Data Preprocessing Penting?

Ukuran Kualitas Data

Teknik Data Preprocessing

Data Cleaning

Data Cleaning: Missing Values

Data Cleaning: Missing Values

Data Cleaning: Noisy Data

Metode Binning

Partisi dalam Metode Binning

Contoh Partisi Binning

Smoothing pada Partisi Binning

Data Cleaning: Outliers

Data Cleaning: Regresi

Percobaan Data Cleaning

Workflow #1

Data Integration

Covariance Correlation

Data Transformation

Data Transformation: Aggregation dan

Smoothing

Data Transformation: Normalization

Data Transformation: Metode

Normalization

Data Transformation: Discretization

Data Transformation: Data Reduction

TERIMA KASIH!