• Tidak ada hasil yang ditemukan

DATA PREPROCESSING. Budi Susanto (versi 1.2)

N/A
N/A
Protected

Academic year: 2021

Membagikan "DATA PREPROCESSING. Budi Susanto (versi 1.2)"

Copied!
18
0
0

Teks penuh

(1)

DATA

PREPROCESSING

Budi Susanto (versi 1.2)

Kenali Data Anda

¨  Atribut Data

¤ Memahami tipe atribut

¤ Membantu membetulkan data saat integrasi data

¨  Deskripsi Statistik Data

¤ Memudahkan untuk mengisi nilai yang kosong,

¤ memperhalus noise data,

¤ mengetahui outlier selama pemrosesan data

¨  Mengukur Kesamaan dan ketidaksamaan

¤ Dapat berguna juga untuk mendeteksi outlier

¤ Untuk melakukan klasifikasi

(2)

Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data yang ada pada umumnya:

¤ Banyak noise

¤ Ukuran yang besar

¤ Dapat merupakan campuran dari berbagai macam

sumber

¨  Memahami data sangat penting untuk tahap

preprosesing.

Atribut Data

¨  Mencerminkan karakteristik objek data.

¨  Tipe atribut menentukan himpunan nilai yang

diperbolehkan. ¤ Nominal ¤ Binary (Binomial) ¤ Ordinal ¤ Numerik n Interval-scale n Ratio-scale

(3)

Deskripsi Statistik

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mengukur lokasi pusat/tengah dari distribusi data

¤ Mean

¤ Median

¤ Mode

¤ Midrange

Data Mining: Concepts and Techniques, 3th ed., p. 47

Deskripsi Statistik

¨  Mengukur penyebaran data

¤ Rentang dan Kuartil

(4)

BoxPlot

¨  Interquartil Range (IQR) ¤ Q3 – Q1 ¨  Outlier data ¤ 1.5 x IQR

Data Preprocessing - Budi Susanto - FTI UKDW

Mengukur Kesamaan

¨  Dalam aplikasi data mining, seperti clustering,

analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak.

¤ Minkwoski distance

n Euclidean dan Manhattan

(5)

Mengukur Kesamaan

Data Preprocessing - Budi Susanto - FTI UKDW

Mengapa Perlu Data Preprocessing?

¨  Data mentah yang ada sebagian besar kotor

¤ Tidak komplet

n Berisi data yang hilang/kosong

n Kekurangan atribut yang sesuai

n Hanya berisi data aggregate

¤ Banyak “noise”

n Berisi data yang Outlier

n Berisi error

¤ Tidak konsisten

(6)

Mengapa Data Preprocessing Penting?

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data yang tidak berkualitas, akan menghasilkan

kualitas mining yang tidak baik pula.

¨  Data Preprocessing, cleaning, dan transformasi

merupakan pekerjaan mayoritas dalam aplikasi data mining (90%).

Ukuran Kualitas Data

¨  Accuracy ¨  Completeness ¨  Consistency ¨  Timeliness ¨  Believability ¨  Value added ¨  Interpretability ¨  Accessibility

(7)

Teknik Data Preprocessing

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Data Cleaning

¨  Data integration

¨  Data Reduction

¨  Data Transformation

Data Cleaning

¨  Proses untuk membersihkan data dengan beberapa

teknik

¤ Memperkecil noise

¤ membetulkan data yang tidak konsisten.

¤ Mengisi missing value

(8)

Data Cleaning: Missing Values

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Mengabaikan record

¤ Biasanya untuk label klasifikasi yang kosong

¨  Mengisikan secara manual

¨  Menggunakan mean/median dari atribut yang mengandung missing value

¤ Mean dapat dipakai jika distribusi data normal

¤ Median digunakan jika distribusi data tidak normal

(condong)

¨  Menggunakan nilai global

¨  Menggunakan nilai termungkin

¤ Menerapkan regresi

Data Cleaning: Missing Values

¨  Contoh untuk missing value IPK diisi dengan

rata-rata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga.

¨  Contoh untuk missing value Pekerjaan, dapat diisi

dengan pekerjaan yang paling banyak muncul.

Angkatan IPK Pekerjaan Kelamin

2004 3.45 Programmer L

2005 ? Ibu RT P

(9)

Data Cleaning: Noisy Data

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Noise data adalah suatu kesalahan acak atau

variasi dalam variabel terukur.

¨  Teknik-teknik

¤ Binning

n Smoothing by bin means

n Smoothing by bin medians

n Smoothing by bin boundaries

¤ Regression

¤ Outlier Analysis

Metode Binning

¨  Metode ini akan melakukan pengelompokan terhadap kumpulan data.

¨  Metode binning merupakan salah satu pendekatan dicretization.

¨  Urutan proses:

¤ Urutkan data secara ascending

¤ Lakukan partisi ke dalam bins

n Dapat dengan equal-width (jarak) atau equal-depth (frekuensi)

¤ Kemudian dapat di-smoothing: smooth by means, smooth by

(10)

Partisi dalam Metode Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Partisi Equal-Width

¤ Algoritma membagi data ke dalam k interval ukuran

yang sama. Lebar interval adalah

n w = (max-min)/k

¤ Batasan interval adalah

n min+w, min+2w, …, min+(k-1)w

¨  Partisi Equal-depth

¤ Membagi data ke dalam k kelompok dimana tiap

kelompok berisi jumlah yang sama

Contoh Partisi Binning

¨  Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 ¨  Equal Width ¤ BIN1 = 0, 4 [-, 10] ¤ BIN2 = 12, 16, 16, 18 [10, 20] ¤ BIN3 = 24, 26, 28 [20, +] ¨  Equal Depth ¤ BIN1 = 0, 4, 12 ¤ BIN2 = 16, 16, 18 ¤ BIN3 = 24, 26, 28

(11)

Smoothing pada Partisi Binning

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Smoothing berdasar rata-rata

¤ Semua nilai di tiap bin diganti dengan rata-rata nilai

tiap bin

¨  Smoothing berdasar batasan

¤ Setiap nilai bin diganti dengan nilai yang paling dekat

dari batasan nilai

¤ Batasan nilai terbentuk dari [min, max] tiap bin

Data Cleaning: Outliers

cluster

outlier salary

(12)

Data Cleaning: Regresi

Data Preprocessing - Budi Susanto - FTI UKDW

x y y = x + 1 X1 Y1 (salary) (age)

Percobaan Data Cleaning

¨  Dataset

(13)

Workflow #1

Data Preprocessing - Budi Susanto - FTI UKDW reglin

Data Integration

¨  Data dapat bersumber dari beberapa sumber

¨  Teknik

¤ Analisis korelasi

¤ Atribut redudan

(14)

Covariance Correlation

Data Preprocessing - Budi Susanto - FTI UKDW integration

Data Transformation

¨  Tujuannya: diharapkan lebih efisien dalam proses

data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.

¨  Strategi:

¤ Smoothing

¤ Attribute (feature) construction

¤ Aggregation

¤ Normalization

(15)

Data Transformation: Aggregation dan

Smoothing

Data Preprocessing - Budi Susanto - FTI UKDW

coba1

Data Transformation: Normalization

¨  Unit ukuran dapat mempengaruhi analisis data.

¨  Unit yang lebih kecil akan menghasilkan rentang nilai yang besar

¤ Atribut akan memiliki “bobot” yang lebih besar dari atribut

lain

¨  Sehingga

¤ Data perlu dinormalisasi atau dibakukan.

¨  Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]

¨  Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering.

(16)

Data Transformation: Metode

Normalization

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Min-max

¨  Z-score

¨  Decimal scaling

(17)

Data Transformation: Discretization

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Melakukan pergantian atribut numerik menjadi

interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas)

(18)

Data Transformation: Data Reduction

Data Preprocessing - Budi Susanto - FTI UKDW

¨  Teknik

¤ Dimensionality reduction

n Wavelet transform

n Principal Component Analysis

n Attribute Subset Selection

¤ Numerosity reduction

n sampling

¤ Data compression

TERIMA KASIH!

Referensi

Dokumen terkait

Permasalahan arti dalam bahasa yang menjadi objek semantik adalah salah satu bagian dalam ilmu linguistik. Semantik yang secara khusus dibedakan sesuai dengan sebutannya

kan kualitas layanan yang diikutsertakan seluruh karyawan dalam menjaga reputasi sehingga memberikan efek positif dimata konsumen terhadap citra merek dari

Mengatur pemeliharaan peralatan suatu obyek kerja sesuai prosedur yang berlaku agar pekerjaan dapat berjalan dengan lancar melaksanakan tugas kedinasan yang diperintahkan

Pernyataan-pernyataan berikut berkaitan dengan motivasi anda mengakses rubrik Detik i-net pada media online Detik.Com berdasarkan motif integrasi dan interaksi sosial..

Algoritma k-Nearest Neighbor adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan

tujuan penelitian dengan cara tanya jawab sambil bertatap muka antara si penanya atau pewawancara dengan si penjawab atau responden dengan menggunakan alat yang

Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek

Kegiatan perancangan konsep desain mesin merupakan kegiatan perancangan mekanisme dan struktur dari komponen mesin agar dapat memenuhi target rancangan fungsional