Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

(1)

Knowledge Discovery

in Databases (IS704)

dan Data Mining

(CS704)

Kuliah #4:

Data Preprocessing (Bagian 2)

Gunawan

Jurusan Teknik Informatika

Sekolah Tinggi Teknik Surabaya 26 August 2004 Gunawan, Teknik Informatika STTS 2

Task III : Data Transformation

(Transformasi Data)

Mengubah / mentransformasikan

data ke dalam bentuk yang paling

tepat / cocok untuk proses data

mining.

26 August 2004 Gunawan, Teknik Informatika STTS 3

Beberapa Pendekatan

Transformasi Data

Transformasi Data dapat melibatkan:

–Smoothing, yang dilakukan untuk membuang noise.

–Aggregation, dimana operasi-operasi summary atau aggregation

diaplikasikan pada data.

–Generalization dari data, dimana level rendah atau data

"primitif" (data mentah) digantikan oleh higher-level concepts melalui penggunaan hirarki konsep.

–Normalization, dimana data sebuah atribut diskalakan ke dalam

rentang (kecil) yang ditentukan.

–Attribute Construction (atau Feature Construction), dimana

atribut-atribut yang baru dibentuk dan ditambahkan ke dalaanm kelompok atribut yang telah ada.

Smoothing

Telah dijelaskan pada bagian sebelumnya,

mencakup binning, regression, dan

clustering.

Normalization (#1)

Min-max Normalization

–

Jika min

_A

dan max

_A

merupakan nilai-nilai

minimum dan maximum dari atribut A,

min-max normalization memetakan sebuah nilai v

dari A menjadi v’ dalam rentang [new_min

_A

,

new_max

_A

] dengan rumus:

A A A A A A

min

new

min

new

max

new

min

max

min

v

'

(

_

−

_

)

+

_

−

=

Normalization (#2)

Contoh:

–

Anggap bahwa nilai minimum dan maximum

untuk atribut income secara berturut-turut

adalah $12,000 dan $98,000. Jika income akan

dipetakan pada rentang [0.0,1.0], dengan

normalisasi min-max, maka $73,600, sebuah

nilai dari income ditransformasikan menjadi

[(73,600 – 12,000) / (98,000-12,000)](1.0-0) +

0 = 0.716.

(2)

Normalization (#3)

z-score Normalization

–

nilai-nilai untuk sebuah atribut A

dinormalisasi berdasarkan mean dan standard

deviation dari A. Nilai v dari A dinormalisasi

pada v’ dengan menghitung:

v’ = (v – Ā)

σ

_A

Normalization (#4)

Contoh:

–

Anggaplah bahwa mean dan standard

deviation dari nilai-nilai untuk atribut income

secara berturut-turut adalah $54,000 dan

$16,000. Dengan z-score normalization, maka

income sebesar $73,600 ditransformasikan

menjadi (73,600-54,000) / 16,000 = 1.225.

Normalization (#5)

Normalization by Decimal Scaling

–Prinsipnya dilakukan dengan memindahkan titik desimal dari nilai-nilai atribut A.

–Panjang pergeseran titik desimal ( j ) tergantung pada nilai absolut maksimum dari A.

–j adalah integer terkecil sedemikian hingga Max(| v’ |)<1

–Nilai v dari A dinormalisasikan pada v’ dengan menghitung: j v v 10 '=

Normalization (#6)

Contoh:

–

Anggap bahwa nilai-nilai atribut A terletak

dalam range –986 sampai 917. Dengan

demikian nilai absolut maksimum A adalah

986. Untuk menormalisasikan dengan

menggunakan skala desimal, setiap nilai A

dibagi dengan 1000 (misalnya, j = 3) sehingga

–986 dinormalisasi menjadi -0.986.

Attribute Construction (1)

Satu atau lebih atribut yang baru dibentuk dari atribut-atribut yang sudah ada untuk membantu peningkatan akurasi dan pemahaman data dalam staruktur dalam dimensi yang lebih tinggi.

Sebagai contoh atribut area dapat ditambah pada atribut

height dan width.

Konstruksi atribut diharapkan membantu mengurangi masalah fragmentasi ketika algoritma decision tree digunakan untuk klasifikasi, dimana sebuah atribut diuji berkali-kali sepanjang sebuah path dalam decision tree yang didapat.

Attribute Construction (2)

Contoh operator-operator untuk konstruksi

atribut termasuk and untuk atribut binary dan

product

untuk atribut-atribut nominal.

Dengan menggabungkan sejumlah atribut,

harapannya adalah: informasi yang hilang (belum

terpikir nantinya akan bermanfaat) tentang

hubungan antar atribut dapat digali, dan mungkin

ia berguna untuk penemuan pengetahuan baru.

(3)

Task IV : Data Reduction

(Reduksi Data)

Data Warehouse mungkin memuat tera bytes data, sehingga algoritma mining yang kompleks mungkin akan memakan waktu yang sangat lama untuk mengolah seluruh data sets.

Sejumlah strategi dapat diterapkan untuk mendapatkan representasi data yang telah direduksi sehingga volumenya jauh lebih kecil, tetapi integritas data originalnya masih tetap terjaga.

Artinya: Mining pada kumpulan data yang direduksi seharusnya lebih efisien, tetapi dapat menghasilkan hasil analisis yang sama (atau hampir sama).

Beberapa Strategi untuk

Reduksi Data (#1)

Strategi untuk reduksi data mencakup:

–Data Cube Aggregation, ketika operasi-operasi summary / aggregation diterapkankan pada data dalam konstruksi sebuah data cube.

–Dimension Reduction, dimana atribut/dimensi yang

irrelevant (tidak relevan), weakly relevan

(berhubungan tetapi lemah), atau redundant (ganda) dapat dideteksi dan dihapus.

–Data Compression, dimana mekanisasi encoding digunakan untuk mereduksi ukuran data / data set.

Beberapa Strategi untuk

Reduksi Datan (#2)

–Numerosity Reduction, di mana data diganti dengan alternatif representasi data yang lebih kecil seperti

parametric models (yang hanya perlu menyimpan

parameter-parameter model bukan data

sesungguhnya), atau metode-metode nonparametric seperti clustering, sampling, dan penggunaan histogram.

–Discretization dan Concept Hierarchy Generation, di mana nilai data mentah untuk suatu atribut digantikan dengan ranges atau level konsepsi yang lebih tinggi. Konsep hierarki memungkinkan mining data pada sejumlah level hirarki yang berbeda.

Data Cube Aggregation (#1)

Data Cube Aggregation (#2)

_{Data Cube Aggregation (#3)}

–Aggregation adalah operasi sumary (peringkasan) yang diterapkaan pada data numerik.

–Misal: Data penjualan harian digabungkan untuk menghitung pendapatan perbulan dan pertahun, sehingga tidak perlu data yang detail (dengan dirata-rata atau ditotal).

–Langkah ini dilakukan dengan memanfaatkan operator data cube roll up (meringkas).

(4)

Dimensionality Reduction (#1)

Mereduksi ukuran data sets dengan

menghapus atribut-atribut yang mungkin

tidak relevan untuk proses mining.

Contoh:

–

Apakah nomor telepon cukup relevan untuk

dipakai dalam menentukan suka tidaknya

seorang customer akan CD tertentu?

Dimensionality Reduction (#2)

Beberapa metode Heuristics yang dapat

digunakan:

–

decision-tree induction

–

step-wise forward selection

–

step-wise backward elimination

–

combining forward selection and backward

elimination

Kumpulan attribute mula-mula : {A1, A2, A3, A4, A5, A6}

A4 ?

A1? A6?

Class 1 Class 2 Class 1 Class 2

> Kumpulan attribute setelah reduksi : {A1, A4, A6}

Contoh Dimensionally Reduction

dengan Induksi Decision Tree

Data Compression

Metode yang biasa digunakan untuk

keperluan Data Reduction:

–

Wavelet Transform

–

Principal Component Analysis

Justru yang tidak biasa digunakan untuk

kompresi string atau audio/video pada

umumnya.

Wavelet Transform

Teknik pemrosesan sinyal linier, yang jika

digunakan pada vector D, mentransformasikan

vektor itu menjadi sebuah vector lain, D

′

,

koefisien wavelet-nya. Dua vector itu

panjangnya sama.

“Bagaimana mungkin teknik ini berguna untuk

reduksi data, jika data hasil transformasi wavelet

itu sama panjangnya dengan data aslinya?”

Principle Component Analysis

(#1)

(5)

Principle Component Analysis

(#2)

Output: 8 utility publik yang “principal”.

Numerosity Reduction

Numerosly Reduction: Upaya untuk mengurangi volume data dengan menggunakan alternatif representasi data.

Terdapat 2 (dua) kategori pendekatan yang berbeda: – Parametric Methods: Diasumsikan nilai-nilai sebuah atribut

cocok (fits) dengan model tertentu sehingga yang diproses hanya parameter-parameternya, datanya diabaikan (kecuali untuk data outlier).

– Non-Parametric Methods: Tidak mengasumsikan adanya model

yang cocok dengan data.

Numerosity Reduction

Beberapa teknik yang digunakan untuk

numerosity reduction:

–

Regression Model

–

Log-Linear Model

–

Histogram

–

Clustering

–

Sampling

Discretization dan Concept

Hierarchy Generation

Teknik diskritisasi dapat digunakan untuk mengurangi jumlah value

pada atribut yang diberikan, dengan membagi range nilai atribut tersebut ke dalam sejumlah interval. Label interval kemudian dapat digunakan untuk mengantikan nilai data yang aktual.

Generalization: Mengganti data level rendah / primitif / mentah

(low-level data) dengan konsep yang lebih tinggi.

Concept Hierarchy: Penerapan teknik diskretisasi secara recursive

pada nilai-nilai sebuah atribut dengan tujuan menyediakan pengelompokan/partisi secara hirarki/multiresolusi.

Discretization dan Concept

Hierarchy Generation

Beberapa metode diskretisasi dan Upaya Menghasilkan Hirarki Konsep untuk Data Numerik dapat dilakukan melalui:

–Binning: Equal Width Binning –Histogram Analysis –Cluster Analysis –Holte’s 1R Discretizer

–Entropy-Based Discretization: Recursive Minimal Entrophy Partitioning

–ChiMerge

–Segmentation by Natural Partitioning (3-4-5 rule) Paper: Discretization - An Enabling Technique, Huan Liu et.al.

Discretization dan Concept

Hierarchy Generation

Concept hierarchy dibedakan untuk:

–

Numeric Data

• Nilai usia dapat diubah ke hirarki yang lebih tinggi menjadi anak-anak, remaja, dewasa, dan manula.

–

Categorical / Nominal Data.

• nama jalan (level rendah) dapat diganti dengan nama kota, nama provinsi, negara (menuju level yang lebih tinggi).

(6)

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

Knowledge Discovery

in Databases (IS704)

dan Data Mining

(CS704)

Kuliah #4:

Data Preprocessing (Bagian 2)

Gunawan

Task III : Data Transformation

(Transformasi Data)



Mengubah / mentransformasikan

data ke dalam bentuk yang paling

tepat / cocok untuk proses data

mining.

Beberapa Pendekatan

Transformasi Data



Transformasi Data dapat melibatkan:

Smoothing



Telah dijelaskan pada bagian sebelumnya,

mencakup binning, regression, dan

clustering.

Normalization (#1)



Min-max Normalization

–

Jika min

dan max

merupakan nilai-nilai

minimum dan maximum dari atribut A,

min-max normalization memetakan sebuah nilai v

dari A menjadi v’ dalam rentang [new_min

,

new_max

] dengan rumus:

min

new

min

new

max

new

min

max

min

v

v

'

(

_

−

_

)

+

_

−

−

=

Normalization (#2)



Contoh:

–

Anggap bahwa nilai minimum dan maximum

untuk atribut income secara berturut-turut

adalah $12,000 dan $98,000. Jika income akan

dipetakan pada rentang [0.0,1.0], dengan

normalisasi min-max, maka $73,600, sebuah

nilai dari income ditransformasikan menjadi

[(73,600 – 12,000) / (98,000-12,000)](1.0-0) +

0 = 0.716.

Normalization (#3)



z-score Normalization

–

nilai-nilai untuk sebuah atribut A

dinormalisasi berdasarkan mean dan standard

deviation dari A. Nilai v dari A dinormalisasi

pada v’ dengan menghitung:

v’ = (v – Ā)

_{Data Cube Aggregation (#3)}