DM 02 Persiapan Data Id

(1)

(2)

What is Data?



Kumpulan obyek data

dan atributnya



Atribut adalah property

atau karakteristik suatu

obyek

 Contoh: warna mata,

temperature, dll

 Atribut dikenal sebagai

variable, feld, ataupun karakteristik



Kumpulan dari atribut

menggambarkan obyek

 Obyek dikenal juga sebagai

record, point, case, sample, entitas

Attributes

Objects

Tid Refund Marital

Status Taxable Income Cheat

(3)

Attribute Values



Nilai atribut adalah

angka-angka

atau

simbol-simbol

yang diassign ke suatu

atribut



Perbedaan antara atribut dan nilai atribut



Atribut yg sama dapat dipetakkan ke nilai

atribut yang beda

 Misal: ketinggian dapat diukur dalam feet atau

meter



Atribut yg beda dapat dipetakan ke

himpunan nilai yang sama

 Contoh: nilai atribut untuk ID dan age adalah

integer

 Tetapi property nilai atribut dapat berbeda:

 ID tidak mempunyai batasan nilai maksimum

(4)

Attribute Types

 Ada jenis-jenis atribut yang berbeda:

 Nominal

 _{Contoh: nomor ID, warna mata, kode pos}  Ordinal

 _{Rangking/ tingkatan (contoh rasa dari kripik kentang}

dalam skala 1-10), grade, tinggi dalam {tinggi, sedang, rendah}

 Interval

 Contoh: tanggal kalender, temperature dalam Celsius

atau Fahrenheit

 Ratio

 Contoh: temperature dalam Kelvin, panjang, waktu,

(5)

Properties of Attribute Values /1

 Jenis atribut tergantung pada properti berikut yang mana dia miliki

 Distinctness: = _

 Order: < >

 Addition: + -

 Multiplication: * /

 Nominal attribute: distinctness

 Ordinal attribute: distinctness & order

(6)

Properties of Attribute Values /2

Attribute

Type Description Examples Operations

Nominal The values of a nominal attribute are just diferent names, i.e., nominal

attributes provide only enough information to

distinguish one object from another. (=, )

zip codes, employee ID numbers, eye color, sex:

{male, female}

mode, entropy, contingency correlation, 2

test

Ordinal The values of an ordinal attribute provide enough information to order

objects. (<, >)

hardness of

minerals, {good, better, best}, grades, street numbers

median, percentiles, rank

correlation, run tests, sign tests

Interval For interval attributes, the diferences between values are meaningful, i.e., a unit of measurement exists. (+, - )

calendar dates, temperature in Celsius or

Fahrenheit

mean, standard deviation, Pearson's correlation, t

and F tests Ratio For ratio variables, both

diferences and ratios are meaningful. (*, /)

temperature in Kelvin, monetary quantities,

counts, age, mass, length, electrical current

geometric mean, harmonic

(7)

Properties of Attribute Values /

3

Attribute

Level Transformation

Comments

Nominal Any permutation of values If all employee ID numbers were

reassigned, would it make any diference? Ordinal An order preserving change of

values, i.e.,

new_value = f(old_value)

where f is a monotonic function.

An attribute

encompassing the notion of good, better best can be represented equally well by the

values {1, 2, 3} or by { 0.5, 1, 10}.

Interval new_value =a * old_value + b

where a and b are constants

Thus, the Fahrenheit

and Celsius temperature scales difer in terms of where their zero value is and the size of a unit (degree).

Ratio new_value = a * old_value Length can be

(8)

Discrete and Continuous Attributes



Discrete Attribute

 Mempunyai himpunan nilai terbatas atau tak

terbatas

 Contoh: zip codes, himpunan kata dalam

kumpulan dokumen

 Sering direpresentasikan sbg variable integer  Note: binary attributes _ special case



Continuos Attribute

 Memiliki angka-angka real sebagai nilai

atribut

 Contoh: temperatur, tinggi atau berat  Dapat diukur dan direpresentasikan

menggunakan sejumlah digit terbatas

 Ciri khasnya direpresentasikan sebagai

(9)

Asymmetric Attributes



Hanya keberadaannya (non zero attribute

value) diperhatikan



Contoh:

 _{Kata-kata muncul di dokumen}

 Item-item muncul di transaksi customer

Document 1

Document 2

Document 3

3 0 5 0 2 6 0 2 0 2

0

7 0 2 1 0 0 3 0 0

(10)

Types of data sets

Record

▫ Data Matrix

▫ Document Data

▫ Transaction Data

Graph

▫ World Wide Web

▫ Molecular Structures

Ordered

▫ Spatial Data

▫ Temporal Data

▫ Sequential Data

(11)

Important characteristics of structured

data



Dimensionality



Sparsity



Hanya menghitung kemunculan



Resolution

(12)

Record Data

 Data yang berisi kumpulan record, yang mana

masing-masing berisi suatu himpunan atribut yang ditentukan.

Tid Refund Marital Status

Taxable

Income Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes

(13)

Data Matrix

 Jika objek data mempunyai kumpulan atribut numerik yg ditentukan , kemudian data objek dapat dipandang sebagai titik dalam ruang

multidimensional, di mana setiap dimensi

merepresentasian suatu atribut yang berbeda.

(14)

Document Data

 Setiap document menjadi suatu ‘term’ vector,

 Setiap term adalah komponen (atribut) dari vector  _{Nilai setiap komponen adalah banyaknya waktu yg}

berhubungan terms terdapat dalam document

Document 1

Document 2

Document 3

3 0 5 0 2 6 0 2 0 2

0

7 0 2 1 0 0 3 0 0

(15)

Transaction Data



Jenis spesial dari data rekord , dimana s

_etiap

record (transaksi) mencangkup kumpulan item-item

 Contoh: Toko penjualan bahan makanan. Sejumlah

produk dibeli customer selama perjalanan

pembelian merupakan suatu transaksi, namun produk yg dibeli merupakan itemTID Items

1 Bread, Coke, Milk

2 Beer, Bread

3 Beer, Coke, Diaper, Milk

4 Beer, Bread, Diaper, Milk

(16)

Graph Data



Contoh: Generic graph and HTML Links

5

2

1 2

5

<a href="papers/papers.html#bbbb"> Data Mining </a>

<li>

<a href="papers/papers.html#aaaa"> Graph Partitioning </a>

<li>

Parallel Solution of Sparse Linear System of Equations </a> <li>

(17)

Chemical Data

(18)

Ordered Data /1



Sequence of

transaction

An element of the sequence

(19)

Ordered Data /2



Genomic sequence data

(20)

Ordered Data /3



Spatio-Temporal data

(21)

Data Quality



Jenis masalah apakah kualitas data?



Bagaimana kita dapat mendeteksi masalah

dengan data?



Apa yg dapat kita lakukan tentang masalah

ini?



Contoh masalah kualitas data:

(22)

Noise



Mengacu pada modifkasi nilai original



Contoh: distorsi suara seseorang ketika

berbicara

(23)

Outliers /1



Outliers adalah

obyek data dengan

karakteristik berbeda

dengan kebanyakan

data obyek lain

(24)

Outliers /2

 Contoh: suatu data set merepresentasikan gambaran umur dengan 20 nilai yg berbeda,

 _{Age = {3, 56, 23, 39, 156, 52, 41, 22, 9, 28, 139, 31, 55, 20,}

-67, 37, 11, 55, 45, 37}

 Maka parameter statistika yg berhubungan:

 _{Mean = 39.9}

 Standard deviation = 45.65

Jika kita memilih nilai threshold untuk distribusi normal data :

Theshold = Mean ± 2 x Standard Deviation

maka seluruh data yg diluar range [-54.1, 131.2] adalah potential outliers. Dan oleh karena age >0, mungkin mengurangi range menjadi [0, 131.2]. Sehingga ada outlier berdasarkan kriteria yg diberikan: 156, 139dan -67

Dengan kemungkinan yg tinggi, dapat disimpulkan 3 data tersebut ada mistypo (data yg dimasukkan dengan

(25)

Missing Values



Beberapa alasan missing values:

 Informasi tidak terkumpul

(misal: orang2 menolak memberikan info umur dan berat mereka)

 Atribut mungkin tidak dapat diaplikasikan ke

semua kasus

(misal: pendapatan tidak dapat diaplikasikan ke anak2)



Mengatasi missing values:

 Eliminasi obyek data

 Mengestimasi missing value selama analisis  Mengganti dengan semua nilai kemungkinan

(26)

Duplicate Data

 Data set mungkin terdapat obyek data yang

duplikat, atau hampir duplikasi dari yg lain

 Isu utama dengan menggabungkan sumber yg

berbeda-beda

 Contoh: orang yg sama dengan berbagai

email address

 Data cleaning

(27)

Data Preprocessing: Why is

Needed?



Data di dunia riil cenderung kotor

 Incomplete: kekurangan nilai atribut, kurang

atribut ttt yg menarik, atau hanya berupa kumpulan data

 Noise: berisi errors atau outliers

 Inconsistent: berisi berbeda format dalam

code dan nama



Data yg tidak berkualitas, tidak ada

hasil-hasil mining yg berkualitas

 Keputusan kualitas harus didasarkan pada

data kualitas

 Data warehouse memerlukan integritas

(28)

Major task in Data

Preprocessing



Data Cleaning



Data Integration



Data Transformation



Data Reduction

(29)

Forms of

Data

(30)

Transformation of Raw Data



Normalization



Data smoothing

(31)

Normalizations



Nilai yg terukur dapat diskala ke range

khusus, seperti [-1, 1], atau [0,1] dengan

alasan ukuran-ukuran jarak akan overweight

yang dimiliki, atas rata-rata, nilai-nilai itu

lebih besar.



Ada 3 tehnik normalisasi:

1.

Decimal scalling

2.

Min-max normalization

(32)

Decimal scalling

(normalization)



Menggerakkan titik desimal tetapi masih

memelihara kebanyakan nilai digit asal. Skala

khusus memelihara nilai dalam range -1

sampai 1. Persamaan berikut menggambarkan

penskalaan desimal, dimana v(i) adalah nilai

dari feature v untuk kasus i dan v’(i) adalah

nilai yg diskala.

v’(i)=v(i)/10

k

untuk k terkecil sehingga max (v’(i))< 1

Contoh:

Jika nilai terbesar data set 455 dan terkecil

-834, maka nilai absolut maksimum

(33)

Min-max normalization

 Andaikan data v dalam suatu range antara 150 dan 250. Maka, metode normalisasi sebelumnya akan memberikan data yg dinormalisasi

antara .15 dan .25; tetapi dia akan

mengakumuladi nilai dalam subinterval kecil dalam range keseluruhan. Untuk mencapai distribusi yg lebih baik dari nilai seluruhnya, intervalnya dinormalisasikan, seperti [0, 1]

v’(i) =(v(i)-min(v(i))) /

(max(vi))-min(v(i)))

dimana, nilai minimum dan maksimum v

dihitung secara otomatis, atau diestimasi oleh seorang expert memberikan domain.

(34)

Standard deviation

normalization



Normalisasi dengan standard deviasi sering

bekerja baik dengan ukuran jarak, tetapi

transformasi data tidak dapat dikenali data

asalnya.

v’(i)=(v(i)-mean(v))/sd(v)

Contoh:

Jika himpunan nilai atribut awal v={1, 2,

3}, maka mean(v)=2, sd(v)=1, dan

(35)

Data Smoothing

 Suatu feature numerik, y, mungkin berkisar atas banyak nilai yg berbeda, terkadang sebanyak

jumlah kasus pelatihan. Banyak teknik data-mining, perbedaan minor antar nilai-nilai ini tidak signifkan dan mungkin menurunkan performance metode dan hasil akhir. Oleh karena itu, dia terkadang menjadi keuntungan untuk menghaluskan nilai variable.

 Sebagai contoh, bilangan real dengan beberapa letak desimal, pembulatan nilai ke presisi yg

diberikan dapat menjadi algoritma smoothing yg

sederhana untuk sejumlah sampel yg besar, dimana setiap sampel mempunya nilai realnya sendiri.

 Jika diberikan F = {0.93, 1.01, 1.001, 3.02, 2.99, 5.03, 5.01, 4.98}, kemudian, nilai2 di smooth

secara nyata menjadi F_smoothed = {1.0, 1.0, 1.0, 3.0, 3.0, 5.0, 5.0, 5.0}.

 Tujuan : transformasi sederhana tanpa menghilangkan kualitas data set.

(36)

Diferences and ratios

 Meskipun perubahan kecil feature dapat menghasilkan perbaikan yang signifkan dalam performance

data-mining. Dampak transformasi dari i/o yg relative minor adalah hal yg penting dalam menspesifkasi tujuan

data-mining.

 Transformasi kadangkala menghasilkan hasil yg lebih bagus dari tujual prediksi suatu angka semula.

 Contoh: tujuan menggerakkan control untuk proses manufaktur pada suatu setting optimal. Daripada mengoptimisasi spesifkasi besaran yg nyata untuk output s(t-1), dia akan lebih efektive men-set tujuan gerakan relatif dari nilai saat ini ke optimal akhir

s(t+1)-s(t).

 Rasio adalah transformasi sederhana yg kedua.

(37)

 _{Transformasi perbedaan dan rasio}_{tidak hanya}_berguna untuk ftur output, tetapi juga untuk input. Mereka dapat digunakan sebagai perubahan dalam waktu untuk satu

feature atau sebagai komposisi dari perbedaan feature input.

 _{Contoh: data set medical, ada 2 feature dari pasien, tinggi} dan berat, yg diambil sebagai parameter input untuk

analisis diagnosa yg berbeda. Beberapa aplikasi

menunjukkan hasil diagnosa dicapai lebih bagus ketika transformasi awal ditunjukkan menggunakan feature baru yg disebut body-mass index (BMI), yg mana rasio

(38)

Transforming Data

 Centering

 Mengurangi setiap data dengan rata2 dari setiap

atribut

 Normalization

 Hasil dari centering dibagi dengan standard deviasi

 Scaling

 Merubah data sehingga berasa dalam skala