• Tidak ada hasil yang ditemukan

DATA PREPROCESSING. Budi Susanto (versi 1.2)

N/A
N/A
Protected

Academic year: 2021

Membagikan "DATA PREPROCESSING. Budi Susanto (versi 1.2)"

Copied!
18
0
0

Teks penuh

(1)

DATA

PREPROCESSING

Budi Susanto (versi 1.2)

Kenali Data Anda

¨  Atribut Data

¤ Memahami tipe atribut

¤ Membantu membetulkan data saat integrasi data

¨  Deskripsi Statistik Data

¤ Memudahkan untuk mengisi nilai yang kosong,

¤ memperhalus noise data,

¤ mengetahui outlier selama pemrosesan data

¨  Mengukur Kesamaan dan ketidaksamaan

¤ Dapat berguna juga untuk mendeteksi outlier

¤ Untuk melakukan klasifikasi

(2)

Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data yang ada pada umumnya:

¤ Banyak noise

¤ Ukuran yang besar

¤ Dapat merupakan campuran dari berbagai macam

sumber

¨  Memahami data sangat penting untuk tahap

preprosesing.

Atribut Data

¨  Mencerminkan karakteristik objek data.

¨  Tipe atribut menentukan himpunan nilai yang

diperbolehkan. ¤ Nominal ¤ Binary (Binomial) ¤ Ordinal ¤ Numerik n Interval-scale n Ratio-scale

(3)

Deskripsi Statistik

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mengukur lokasi pusat/tengah dari distribusi data

¤ Mean

¤ Median

¤ Mode

¤ Midrange

Data Mining: Concepts and Techniques, 3th ed., p. 47

Deskripsi Statistik

¨  Mengukur penyebaran data

¤ Rentang dan Kuartil

(4)

BoxPlot

¨  Interquartil Range (IQR) ¤ Q3 – Q1 ¨  Outlier data ¤ 1.5 x IQR

Data Preprocessing - Budi Susanto - FTI UKDW

Mengukur Kesamaan

¨  Dalam aplikasi data mining, seperti clustering,

analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak.

¤ Minkwoski distance

n Euclidean dan Manhattan

(5)

Mengukur Kesamaan

Data Preprocessing - Budi Susanto - FTI UKDW

Mengapa Perlu Data Preprocessing?

¨  Data mentah yang ada sebagian besar kotor

¤ Tidak komplet

n Berisi data yang hilang/kosong

n Kekurangan atribut yang sesuai

n Hanya berisi data aggregate

¤ Banyak “noise”

n Berisi data yang Outlier

n Berisi error

¤ Tidak konsisten

(6)

Mengapa Data Preprocessing Penting?

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data yang tidak berkualitas, akan menghasilkan

kualitas mining yang tidak baik pula.

¨  Data Preprocessing, cleaning, dan transformasi

merupakan pekerjaan mayoritas dalam aplikasi data mining (90%).

Ukuran Kualitas Data

¨  Accuracy ¨  Completeness ¨  Consistency ¨  Timeliness ¨  Believability ¨  Value added ¨  Interpretability ¨  Accessibility

(7)

Teknik Data Preprocessing

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data Cleaning

¨  Data integration

¨  Data Reduction

¨  Data Transformation

Data Cleaning

¨  Proses untuk membersihkan data dengan beberapa

teknik

¤ Memperkecil noise

¤ membetulkan data yang tidak konsisten.

¤ Mengisi missing value

(8)

Data Cleaning: Missing Values

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mengabaikan record

¤ Biasanya untuk label klasifikasi yang kosong

¨  Mengisikan secara manual

¨  Menggunakan mean/median dari atribut yang mengandung missing value

¤ Mean dapat dipakai jika distribusi data normal

¤ Median digunakan jika distribusi data tidak normal

(condong)

¨  Menggunakan nilai global

¨  Menggunakan nilai termungkin

¤ Menerapkan regresi

Data Cleaning: Missing Values

¨  Contoh untuk missing value IPK diisi dengan

rata-rata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga.

¨  Contoh untuk missing value Pekerjaan, dapat diisi

dengan pekerjaan yang paling banyak muncul.

Angkatan IPK Pekerjaan Kelamin

2004 3.45 Programmer L

2005 ? Ibu RT P

(9)

Data Cleaning: Noisy Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Noise data adalah suatu kesalahan acak atau

variasi dalam variabel terukur.

¨  Teknik-teknik

¤ Binning

n Smoothing by bin means

n Smoothing by bin medians

n Smoothing by bin boundaries

¤ Regression

¤ Outlier Analysis

Metode Binning

¨  Metode ini akan melakukan pengelompokan terhadap kumpulan data.

¨  Metode binning merupakan salah satu pendekatan dicretization.

¨  Urutan proses:

¤ Urutkan data secara ascending

¤ Lakukan partisi ke dalam bins

n Dapat dengan equal-width (jarak) atau equal-depth (frekuensi)

¤ Kemudian dapat di-smoothing: smooth by means, smooth by

(10)

Partisi dalam Metode Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Partisi Equal-Width

¤ Algoritma membagi data ke dalam k interval ukuran

yang sama. Lebar interval adalah

n w = (max-min)/k

¤ Batasan interval adalah

n min+w, min+2w, …, min+(k-1)w

¨  Partisi Equal-depth

¤ Membagi data ke dalam k kelompok dimana tiap

kelompok berisi jumlah yang sama

Contoh Partisi Binning

¨  Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 ¨  Equal Width ¤ BIN1 = 0, 4 [-, 10] ¤ BIN2 = 12, 16, 16, 18 [10, 20] ¤ BIN3 = 24, 26, 28 [20, +] ¨  Equal Depth ¤ BIN1 = 0, 4, 12 ¤ BIN2 = 16, 16, 18 ¤ BIN3 = 24, 26, 28

(11)

Smoothing pada Partisi Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Smoothing berdasar rata-rata

¤ Semua nilai di tiap bin diganti dengan rata-rata nilai

tiap bin

¨  Smoothing berdasar batasan

¤ Setiap nilai bin diganti dengan nilai yang paling dekat

dari batasan nilai

¤ Batasan nilai terbentuk dari [min, max] tiap bin

Data Cleaning: Outliers

cluster

outlier salary

(12)

Data Cleaning: Regresi

Data Preprocessing - Budi Susanto - FTI UKDW

x y y = x + 1 X1 Y1 (salary) (age)

Percobaan Data Cleaning

¨  Dataset

(13)

Workflow #1

Data Preprocessing - Budi Susanto - FTI UKDW reglin

Data Integration

¨  Data dapat bersumber dari beberapa sumber

¨  Teknik

¤ Analisis korelasi

¤ Atribut redudan

(14)

Covariance Correlation

Data Preprocessing - Budi Susanto - FTI UKDW integration

Data Transformation

¨  Tujuannya: diharapkan lebih efisien dalam proses

data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.

¨  Strategi:

¤ Smoothing

¤ Attribute (feature) construction

¤ Aggregation

¤ Normalization

(15)

Data Transformation: Aggregation dan

Smoothing

Data Preprocessing - Budi Susanto - FTI UKDW

coba1

Data Transformation: Normalization

¨  Unit ukuran dapat mempengaruhi analisis data.

¨  Unit yang lebih kecil akan menghasilkan rentang nilai yang besar

¤ Atribut akan memiliki “bobot” yang lebih besar dari atribut

lain

¨  Sehingga

¤ Data perlu dinormalisasi atau dibakukan.

¨  Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]

¨  Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering.

(16)

Data Transformation: Metode

Normalization

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Min-max

¨  Z-score

¨  Decimal scaling

(17)

Data Transformation: Discretization

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Melakukan pergantian atribut numerik menjadi

interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas)

(18)

Data Transformation: Data Reduction

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Teknik

¤ Dimensionality reduction

n Wavelet transform

n Principal Component Analysis

n Attribute Subset Selection

¤ Numerosity reduction

n sampling

¤ Data compression

TERIMA KASIH!

Referensi

Dokumen terkait

KEENAM : Analisis dan Penyajian statistik dan informasi kelautan dan perikanan oleh unit data dan statistik Kementerian disajikan dalam dua macam penyajian yaitu

Sewa menyewa memiliki beberapa jenis dan cara dalam praktiknya, seperti yang sudah dibahas pada paragraf sebelumnya bahwa sewa menyewa memiliki dua objek, yakni

Metode analisis yang digunakan dalam penelitian ini adalah uji regresi linier berganda dan uji hipotesis dengan uji t yang menghasilkan secara parsial harga

Yang terakhir adalah sebuah analisis monte carlo menggunakan program komputer Crystal Ball untuk mendesain pondasi bored pile dengan memasukkan seluruh data yang didapat dari

Dekomposisi ini dilakukan dengan cara membagi sebuah himpunan entitas menjadi dua atau lebih dengan pemisahan atribut..

Penggunaan algoritma K-Nearest Neighbor (K-NN) didasarkan pada penelitian berkaitan dengan klasifikasi data dari beberapa kriteria dan jumlah data sampel yang

Hasil analisis program MATLAB 7.0 juga menunjukkan bahwa hasil yang paling fit (best fit distribution) pada semua titik dan gabungan semua titik lebih kecil dari χ2 (0.05

2016 ‘Analisis Dan Implementasi Perbandingan Algoritma Knn K- Nearest Neighbor Dengan SVM Support Vector Machine Untuk Prediksi Penawaran Produk Comparative Analysis and Implementation