• Tidak ada hasil yang ditemukan

Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

N/A
N/A
Protected

Academic year: 2021

Membagikan "Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)"

Copied!
6
0
0

Teks penuh

(1)

Knowledge Discovery

in Databases (IS704)

dan Data Mining

(CS704)

Kuliah #4:

Data Preprocessing (Bagian 2)

Gunawan

Jurusan Teknik Informatika

Sekolah Tinggi Teknik Surabaya 26 August 2004 Gunawan, Teknik Informatika STTS 2

Task III : Data Transformation

(Transformasi Data)

Š

Mengubah / mentransformasikan

data ke dalam bentuk yang paling

tepat / cocok untuk proses data

mining.

26 August 2004 Gunawan, Teknik Informatika STTS 3

Beberapa Pendekatan

Transformasi Data

Š

Transformasi Data dapat melibatkan:

Smoothing, yang dilakukan untuk membuang noise.

Aggregation, dimana operasi-operasi summary atau aggregation

diaplikasikan pada data.

Generalization dari data, dimana level rendah atau data

"primitif" (data mentah) digantikan oleh higher-level concepts melalui penggunaan hirarki konsep.

Normalization, dimana data sebuah atribut diskalakan ke dalam

rentang (kecil) yang ditentukan.

Attribute Construction (atau Feature Construction), dimana

atribut-atribut yang baru dibentuk dan ditambahkan ke dalaanm kelompok atribut yang telah ada.

26 August 2004 Gunawan, Teknik Informatika STTS 4

Smoothing

Š

Telah dijelaskan pada bagian sebelumnya,

mencakup binning, regression, dan

clustering.

Normalization (#1)

Š

Min-max Normalization

Jika min

A

dan max

A

merupakan nilai-nilai

minimum dan maximum dari atribut A,

min-max normalization memetakan sebuah nilai v

dari A menjadi v’ dalam rentang [new_min

A

,

new_max

A

] dengan rumus:

A A A A A A

min

new

min

new

max

new

min

max

min

v

v

'

(

_

_

)

+

_

=

Normalization (#2)

Š

Contoh:

Anggap bahwa nilai minimum dan maximum

untuk atribut income secara berturut-turut

adalah $12,000 dan $98,000. Jika income akan

dipetakan pada rentang [0.0,1.0], dengan

normalisasi min-max, maka $73,600, sebuah

nilai dari income ditransformasikan menjadi

[(73,600 – 12,000) / (98,000-12,000)](1.0-0) +

0 = 0.716.

(2)

26 August 2004 Gunawan, Teknik Informatika STTS 7

Normalization (#3)

Š

z-score Normalization

nilai-nilai untuk sebuah atribut A

dinormalisasi berdasarkan mean dan standard

deviation dari A. Nilai v dari A dinormalisasi

pada v’ dengan menghitung:

v’ = (v – Ā)

σ

A

26 August 2004 Gunawan, Teknik Informatika STTS 8

Normalization (#4)

Š

Contoh:

Anggaplah bahwa mean dan standard

deviation dari nilai-nilai untuk atribut income

secara berturut-turut adalah $54,000 dan

$16,000. Dengan z-score normalization, maka

income sebesar $73,600 ditransformasikan

menjadi (73,600-54,000) / 16,000 = 1.225.

26 August 2004 Gunawan, Teknik Informatika STTS 9

Normalization (#5)

Š

Normalization by Decimal Scaling

–Prinsipnya dilakukan dengan memindahkan titik desimal dari nilai-nilai atribut A.

Panjang pergeseran titik desimal ( j ) tergantung pada nilai absolut maksimum dari A.

j adalah integer terkecil sedemikian hingga Max(| v’ |)<1

Nilai v dari A dinormalisasikan pada v’ dengan menghitung: j v v 10 '=

26 August 2004 Gunawan, Teknik Informatika STTS 10

Normalization (#6)

Š

Contoh:

Anggap bahwa nilai-nilai atribut A terletak

dalam range –986 sampai 917. Dengan

demikian nilai absolut maksimum A adalah

986. Untuk menormalisasikan dengan

menggunakan skala desimal, setiap nilai A

dibagi dengan 1000 (misalnya, j = 3) sehingga

–986 dinormalisasi menjadi -0.986.

Attribute Construction (1)

Š Satu atau lebih atribut yang baru dibentuk dari atribut-atribut yang sudah ada untuk membantu peningkatan akurasi dan pemahaman data dalam staruktur dalam dimensi yang lebih tinggi.

Š Sebagai contoh atribut area dapat ditambah pada atribut

height dan width.

Š Konstruksi atribut diharapkan membantu mengurangi masalah fragmentasi ketika algoritma decision tree digunakan untuk klasifikasi, dimana sebuah atribut diuji berkali-kali sepanjang sebuah path dalam decision tree yang didapat.

Attribute Construction (2)

Š

Contoh operator-operator untuk konstruksi

atribut termasuk and untuk atribut binary dan

product

untuk atribut-atribut nominal.

Š

Dengan menggabungkan sejumlah atribut,

harapannya adalah: informasi yang hilang (belum

terpikir nantinya akan bermanfaat) tentang

hubungan antar atribut dapat digali, dan mungkin

ia berguna untuk penemuan pengetahuan baru.

(3)

26 August 2004 Gunawan, Teknik Informatika STTS 13

Task IV : Data Reduction

(Reduksi Data)

Š Data Warehouse mungkin memuat tera bytes data, sehingga algoritma mining yang kompleks mungkin akan memakan waktu yang sangat lama untuk mengolah seluruh data sets.

Š Sejumlah strategi dapat diterapkan untuk mendapatkan representasi data yang telah direduksi sehingga volumenya jauh lebih kecil, tetapi integritas data originalnya masih tetap terjaga.

Š Artinya: Mining pada kumpulan data yang direduksi seharusnya lebih efisien, tetapi dapat menghasilkan hasil analisis yang sama (atau hampir sama).

26 August 2004 Gunawan, Teknik Informatika STTS 14

Beberapa Strategi untuk

Reduksi Data (#1)

Š

Strategi untuk reduksi data mencakup:

Data Cube Aggregation, ketika operasi-operasi summary / aggregation diterapkankan pada data dalam konstruksi sebuah data cube.

Dimension Reduction, dimana atribut/dimensi yang

irrelevant (tidak relevan), weakly relevan

(berhubungan tetapi lemah), atau redundant (ganda) dapat dideteksi dan dihapus.

Data Compression, dimana mekanisasi encoding digunakan untuk mereduksi ukuran data / data set.

26 August 2004 Gunawan, Teknik Informatika STTS 15

Beberapa Strategi untuk

Reduksi Datan (#2)

Numerosity Reduction, di mana data diganti dengan alternatif representasi data yang lebih kecil seperti

parametric models (yang hanya perlu menyimpan

parameter-parameter model bukan data

sesungguhnya), atau metode-metode nonparametric seperti clustering, sampling, dan penggunaan histogram.

Discretization dan Concept Hierarchy Generation, di mana nilai data mentah untuk suatu atribut digantikan dengan ranges atau level konsepsi yang lebih tinggi. Konsep hierarki memungkinkan mining data pada sejumlah level hirarki yang berbeda.

26 August 2004 Gunawan, Teknik Informatika STTS 16

Data Cube Aggregation (#1)

Data Cube Aggregation (#2)

Data Cube Aggregation (#3)

–Aggregation adalah operasi sumary (peringkasan) yang diterapkaan pada data numerik.

–Misal: Data penjualan harian digabungkan untuk menghitung pendapatan perbulan dan pertahun, sehingga tidak perlu data yang detail (dengan dirata-rata atau ditotal).

–Langkah ini dilakukan dengan memanfaatkan operator data cube roll up (meringkas).

(4)

26 August 2004 Gunawan, Teknik Informatika STTS 19

Dimensionality Reduction (#1)

Š

Mereduksi ukuran data sets dengan

menghapus atribut-atribut yang mungkin

tidak relevan untuk proses mining.

Š

Contoh:

Apakah nomor telepon cukup relevan untuk

dipakai dalam menentukan suka tidaknya

seorang customer akan CD tertentu?

26 August 2004 Gunawan, Teknik Informatika STTS 20

Dimensionality Reduction (#2)

Š

Beberapa metode Heuristics yang dapat

digunakan:

decision-tree induction

step-wise forward selection

step-wise backward elimination

combining forward selection and backward

elimination

26 August 2004 Gunawan, Teknik Informatika STTS 21

Kumpulan attribute mula-mula : {A1, A2, A3, A4, A5, A6}

A4 ?

A1? A6?

Class 1 Class 2 Class 1 Class 2

> Kumpulan attribute setelah reduksi : {A1, A4, A6}

Contoh Dimensionally Reduction

dengan Induksi Decision Tree

26 August 2004 Gunawan, Teknik Informatika STTS 22

Data Compression

Š

Metode yang biasa digunakan untuk

keperluan Data Reduction:

Wavelet Transform

Principal Component Analysis

Š

Justru yang tidak biasa digunakan untuk

kompresi string atau audio/video pada

umumnya.

Wavelet Transform

Š

Teknik pemrosesan sinyal linier, yang jika

digunakan pada vector D, mentransformasikan

vektor itu menjadi sebuah vector lain, D

,

koefisien wavelet-nya. Dua vector itu

panjangnya sama.

Š

“Bagaimana mungkin teknik ini berguna untuk

reduksi data, jika data hasil transformasi wavelet

itu sama panjangnya dengan data aslinya?”

Principle Component Analysis

(#1)

(5)

26 August 2004 Gunawan, Teknik Informatika STTS 25

Principle Component Analysis

(#2)

Š

Output: 8 utility publik yang “principal”.

26 August 2004 Gunawan, Teknik Informatika STTS 26

Numerosity Reduction

Š Numerosly Reduction: Upaya untuk mengurangi volume data dengan menggunakan alternatif representasi data.

Š Terdapat 2 (dua) kategori pendekatan yang berbeda: – Parametric Methods: Diasumsikan nilai-nilai sebuah atribut

cocok (fits) dengan model tertentu sehingga yang diproses hanya parameter-parameternya, datanya diabaikan (kecuali untuk data outlier).

Non-Parametric Methods: Tidak mengasumsikan adanya model

yang cocok dengan data.

26 August 2004 Gunawan, Teknik Informatika STTS 27

Numerosity Reduction

Š

Beberapa teknik yang digunakan untuk

numerosity reduction:

Regression Model

Log-Linear Model

Histogram

Clustering

Sampling

26 August 2004 Gunawan, Teknik Informatika STTS 28

Discretization dan Concept

Hierarchy Generation

Š Teknik diskritisasi dapat digunakan untuk mengurangi jumlah value

pada atribut yang diberikan, dengan membagi range nilai atribut tersebut ke dalam sejumlah interval. Label interval kemudian dapat digunakan untuk mengantikan nilai data yang aktual.

Š Generalization: Mengganti data level rendah / primitif / mentah

(low-level data) dengan konsep yang lebih tinggi.

Š Concept Hierarchy: Penerapan teknik diskretisasi secara recursive

pada nilai-nilai sebuah atribut dengan tujuan menyediakan pengelompokan/partisi secara hirarki/multiresolusi.

Discretization dan Concept

Hierarchy Generation

Š Beberapa metode diskretisasi dan Upaya Menghasilkan Hirarki Konsep untuk Data Numerik dapat dilakukan melalui:

Binning: Equal Width Binning –Histogram Analysis –Cluster Analysis –Holte’s 1R Discretizer

Entropy-Based Discretization: Recursive Minimal Entrophy Partitioning

–ChiMerge

–Segmentation by Natural Partitioning (3-4-5 rule) Š Paper: Discretization - An Enabling Technique, Huan Liu et.al.

Discretization dan Concept

Hierarchy Generation

Š

Concept hierarchy dibedakan untuk:

Numeric Data

• Nilai usia dapat diubah ke hirarki yang lebih tinggi menjadi anak-anak, remaja, dewasa, dan manula.

Categorical / Nominal Data.

• nama jalan (level rendah) dapat diganti dengan nama kota, nama provinsi, negara (menuju level yang lebih tinggi).

(6)

26 August 2004 Gunawan, Teknik Informatika STTS 31

Discretization dan Concept

Hierarchy Generation

Referensi

Dokumen terkait

Berdasarkan data tersebut, persentase penilaian dari dua validator ahli media terhadap video tutorial berbasis animasi didapatkan klasifikasi kelayakan produk dalam Utomo dan

Penyuluh KB bersentuhan langsung dengan masyarakat dalam memberikan berbagai penyuluhan program KB.9 Hasil pra penelitian yang dilakukan penulis ke Dinas Keluarga

untuk dijadikan sebagai bahan aktif sediaan gel jerawat dan dilakukan uji kestabilan sediaan yang meliputi uji organoleptis, uji homogenitas, uji pH, uji viskositas,

1) Bagi penulis, mengembangkan pengetahuan penulis dalam menganalisis profitabilitas dan opini audit yang dapat mempengaruhi ketepatan waktu pelaporan keuangan. 2) Bagi

jika pemiliknya menghendaki. 60 Dalam kaitannya dengan produk giro. Bank syariah menerapkan prinsip wadi’ah yad dhamanah, yakni nasabah bertindak sebagai penitip yang

Temuan yang tidak konsisten juga ditemukan ketika persepsi media yang menilai humas universitas memiliki kendali bersama yang cukup baik dan persepsi humas yang menyatakan

Implementasi nilai-nilai pendidikan karakter dapat dilakukan dengan berbagai strategi pengintegrasian. Anik Ghufron berpendapat bahwa pengintegrasian nilai-nilai

18 Sebagai sarana komunikasi (communication), film merupakan bagian terpenting dari sistem yang digunakan oleh para individu dan kelompok untuk mengirim dan