• Tidak ada hasil yang ditemukan

DM 02 Persiapan Data Id

N/A
N/A
Protected

Academic year: 2018

Membagikan "DM 02 Persiapan Data Id"

Copied!
38
0
0

Teks penuh

(1)
(2)

What is Data?

Kumpulan obyek data

dan atributnya

Atribut adalah property

atau karakteristik suatu

obyek

 Contoh: warna mata,

temperature, dll

 Atribut dikenal sebagai

variable, feld, ataupun karakteristik

Kumpulan dari atribut

menggambarkan obyek

 Obyek dikenal juga sebagai

record, point, case, sample, entitas

Attributes

Objects

Tid Refund Marital

Status Taxable Income Cheat

(3)

Attribute Values

Nilai atribut adalah

angka-angka

atau

simbol-simbol

yang diassign ke suatu

atribut

Perbedaan antara atribut dan nilai atribut

Atribut yg sama dapat dipetakkan ke nilai

atribut yang beda

 Misal: ketinggian dapat diukur dalam feet atau

meter

Atribut yg beda dapat dipetakan ke

himpunan nilai yang sama

 Contoh: nilai atribut untuk ID dan age adalah

integer

 Tetapi property nilai atribut dapat berbeda:

 ID tidak mempunyai batasan nilai maksimum

(4)

Attribute Types

 Ada jenis-jenis atribut yang berbeda:

 Nominal

Contoh: nomor ID, warna mata, kode pos  Ordinal

Rangking/ tingkatan (contoh rasa dari kripik kentang

dalam skala 1-10), grade, tinggi dalam {tinggi, sedang, rendah}

 Interval

 Contoh: tanggal kalender, temperature dalam Celsius

atau Fahrenheit

 Ratio

 Contoh: temperature dalam Kelvin, panjang, waktu,

(5)

Properties of Attribute Values /1

 Jenis atribut tergantung pada properti berikut yang mana dia miliki

 Distinctness: =

 Order: < >

 Addition: + -

 Multiplication: * /

 Nominal attribute: distinctness

 Ordinal attribute: distinctness & order

(6)

Properties of Attribute Values /2

Attribute

Type Description Examples Operations

Nominal The values of a nominal attribute are just diferent names, i.e., nominal

attributes provide only enough information to

distinguish one object from another. (=, )

zip codes, employee ID numbers, eye color, sex:

{male, female}

mode, entropy, contingency correlation, 2

test

Ordinal The values of an ordinal attribute provide enough information to order

objects. (<, >)

hardness of

minerals, {good, better, best}, grades, street numbers

median, percentiles, rank

correlation, run tests, sign tests

Interval For interval attributes, the diferences between values are meaningful, i.e., a unit of measurement exists. (+, - )

calendar dates, temperature in Celsius or

Fahrenheit

mean, standard deviation, Pearson's correlation, t

and F tests Ratio For ratio variables, both

diferences and ratios are meaningful. (*, /)

temperature in Kelvin, monetary quantities,

counts, age, mass, length, electrical current

geometric mean, harmonic

(7)

Properties of Attribute Values /

3

Attribute

Level Transformation

Comments

Nominal Any permutation of values If all employee ID numbers were

reassigned, would it make any diference? Ordinal An order preserving change of

values, i.e.,

new_value = f(old_value)

where f is a monotonic function.

An attribute

encompassing the notion of good, better best can be represented equally well by the

values {1, 2, 3} or by { 0.5, 1, 10}.

Interval new_value =a * old_value + b

where a and b are constants

Thus, the Fahrenheit

and Celsius temperature scales difer in terms of where their zero value is and the size of a unit (degree).

Ratio new_value = a * old_value Length can be

(8)

Discrete and Continuous Attributes

Discrete Attribute

 Mempunyai himpunan nilai terbatas atau tak

terbatas

 Contoh: zip codes, himpunan kata dalam

kumpulan dokumen

 Sering direpresentasikan sbg variable integer  Note: binary attributes special case

Continuos Attribute

 Memiliki angka-angka real sebagai nilai

atribut

 Contoh: temperatur, tinggi atau berat  Dapat diukur dan direpresentasikan

menggunakan sejumlah digit terbatas

 Ciri khasnya direpresentasikan sebagai

(9)

Asymmetric Attributes

Hanya keberadaannya (non zero attribute

value) diperhatikan

Contoh:

Kata-kata muncul di dokumen

 Item-item muncul di transaksi customer

Document 1

Document 2

Document 3

3 0 5 0 2 6 0 2 0 2

0

0

7 0 2 1 0 0 3 0 0

(10)

Types of data sets

Record

Data Matrix

Document Data

Transaction Data

Graph

World Wide Web

Molecular Structures

Ordered

Spatial Data

Temporal Data

Sequential Data

(11)

Important characteristics of structured

data

Dimensionality

Sparsity

Hanya menghitung kemunculan

Resolution

(12)

Record Data

 Data yang berisi kumpulan record, yang mana

masing-masing berisi suatu himpunan atribut yang ditentukan.

Tid Refund Marital Status

Taxable

Income Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes

(13)

Data Matrix

 Jika objek data mempunyai kumpulan atribut numerik yg ditentukan , kemudian data objek dapat dipandang sebagai titik dalam ruang

multidimensional, di mana setiap dimensi

merepresentasian suatu atribut yang berbeda.

(14)

Document Data

 Setiap document menjadi suatu ‘term’ vector,

 Setiap term adalah komponen (atribut) dari vector  Nilai setiap komponen adalah banyaknya waktu yg

berhubungan terms terdapat dalam document

Document 1

Document 2

Document 3

3 0 5 0 2 6 0 2 0 2

0

0

7 0 2 1 0 0 3 0 0

(15)

Transaction Data

Jenis spesial dari data rekord , dimana s

etiap

record (transaksi) mencangkup kumpulan item-item

 Contoh: Toko penjualan bahan makanan. Sejumlah

produk dibeli customer selama perjalanan

pembelian merupakan suatu transaksi, namun produk yg dibeli merupakan itemTID Items

1 Bread, Coke, Milk

2 Beer, Bread

3 Beer, Coke, Diaper, Milk

4 Beer, Bread, Diaper, Milk

(16)

Graph Data

Contoh: Generic graph and HTML Links

5

2

1 2

5

<a href="papers/papers.html#bbbb"> Data Mining </a>

<li>

<a href="papers/papers.html#aaaa"> Graph Partitioning </a>

<li>

<a href="papers/papers.html#aaaa">

Parallel Solution of Sparse Linear System of Equations </a> <li>

<a href="papers/papers.html#ffff">

(17)

Chemical Data

(18)

Ordered Data /1

Sequence of

transaction

An element of the sequence

(19)

Ordered Data /2

Genomic sequence data

(20)

Ordered Data /3

Spatio-Temporal data

(21)

Data Quality

Jenis masalah apakah kualitas data?

Bagaimana kita dapat mendeteksi masalah

dengan data?

Apa yg dapat kita lakukan tentang masalah

ini?

Contoh masalah kualitas data:

(22)

Noise

Mengacu pada modifkasi nilai original

Contoh: distorsi suara seseorang ketika

berbicara

(23)

Outliers /1

Outliers adalah

obyek data dengan

karakteristik berbeda

dengan kebanyakan

data obyek lain

(24)

Outliers /2

 Contoh: suatu data set merepresentasikan gambaran umur dengan 20 nilai yg berbeda,

Age = {3, 56, 23, 39, 156, 52, 41, 22, 9, 28, 139, 31, 55, 20,

-67, 37, 11, 55, 45, 37}

 Maka parameter statistika yg berhubungan:

Mean = 39.9

 Standard deviation = 45.65

Jika kita memilih nilai threshold untuk distribusi normal data :

Theshold = Mean ± 2 x Standard Deviation

maka seluruh data yg diluar range [-54.1, 131.2] adalah potential outliers. Dan oleh karena age >0, mungkin mengurangi range menjadi [0, 131.2]. Sehingga ada outlier berdasarkan kriteria yg diberikan: 156, 139dan -67

Dengan kemungkinan yg tinggi, dapat disimpulkan 3 data tersebut ada mistypo (data yg dimasukkan dengan

(25)

Missing Values

Beberapa alasan missing values:

 Informasi tidak terkumpul

(misal: orang2 menolak memberikan info umur dan berat mereka)

 Atribut mungkin tidak dapat diaplikasikan ke

semua kasus

(misal: pendapatan tidak dapat diaplikasikan ke anak2)

Mengatasi missing values:

 Eliminasi obyek data

 Mengestimasi missing value selama analisis  Mengganti dengan semua nilai kemungkinan

(26)

Duplicate Data

 Data set mungkin terdapat obyek data yang

duplikat, atau hampir duplikasi dari yg lain

 Isu utama dengan menggabungkan sumber yg

berbeda-beda

 Contoh: orang yg sama dengan berbagai

email address

 Data cleaning

(27)

Data Preprocessing: Why is

Needed?

Data di dunia riil cenderung kotor

 Incomplete: kekurangan nilai atribut, kurang

atribut ttt yg menarik, atau hanya berupa kumpulan data

 Noise: berisi errors atau outliers

 Inconsistent: berisi berbeda format dalam

code dan nama

Data yg tidak berkualitas, tidak ada

hasil-hasil mining yg berkualitas

 Keputusan kualitas harus didasarkan pada

data kualitas

 Data warehouse memerlukan integritas

(28)

Major task in Data

Preprocessing

Data Cleaning

Data Integration

Data Transformation

Data Reduction

(29)

Forms of

Data

(30)

Transformation of Raw Data

Normalization

Data smoothing

(31)

Normalizations

Nilai yg terukur dapat diskala ke range

khusus, seperti [-1, 1], atau [0,1] dengan

alasan ukuran-ukuran jarak akan overweight

yang dimiliki, atas rata-rata, nilai-nilai itu

lebih besar.

Ada 3 tehnik normalisasi:

1.

Decimal scalling

2.

Min-max normalization

(32)

Decimal scalling

(normalization)

Menggerakkan titik desimal tetapi masih

memelihara kebanyakan nilai digit asal. Skala

khusus memelihara nilai dalam range -1

sampai 1. Persamaan berikut menggambarkan

penskalaan desimal, dimana v(i) adalah nilai

dari feature v untuk kasus i dan v’(i) adalah

nilai yg diskala.

v’(i)=v(i)/10

k

untuk k terkecil sehingga max (v’(i))< 1

Contoh:

Jika nilai terbesar data set 455 dan terkecil

-834, maka nilai absolut maksimum

(33)

Min-max normalization

 Andaikan data v dalam suatu range antara 150 dan 250. Maka, metode normalisasi sebelumnya akan memberikan data yg dinormalisasi

antara .15 dan .25; tetapi dia akan

mengakumuladi nilai dalam subinterval kecil dalam range keseluruhan. Untuk mencapai distribusi yg lebih baik dari nilai seluruhnya, intervalnya dinormalisasikan, seperti [0, 1]

v’(i) =(v(i)-min(v(i))) /

(max(vi))-min(v(i)))

dimana, nilai minimum dan maksimum v

dihitung secara otomatis, atau diestimasi oleh seorang expert memberikan domain.

(34)

Standard deviation

normalization

Normalisasi dengan standard deviasi sering

bekerja baik dengan ukuran jarak, tetapi

transformasi data tidak dapat dikenali data

asalnya.

v’(i)=(v(i)-mean(v))/sd(v)

Contoh:

Jika himpunan nilai atribut awal v={1, 2,

3}, maka mean(v)=2, sd(v)=1, dan

(35)

Data Smoothing

 Suatu feature numerik, y, mungkin berkisar atas banyak nilai yg berbeda, terkadang sebanyak

jumlah kasus pelatihan. Banyak teknik data-mining, perbedaan minor antar nilai-nilai ini tidak signifkan dan mungkin menurunkan performance metode dan hasil akhir. Oleh karena itu, dia terkadang menjadi keuntungan untuk menghaluskan nilai variable.

 Sebagai contoh, bilangan real dengan beberapa letak desimal, pembulatan nilai ke presisi yg

diberikan dapat menjadi algoritma smoothing yg

sederhana untuk sejumlah sampel yg besar, dimana setiap sampel mempunya nilai realnya sendiri.

 Jika diberikan F = {0.93, 1.01, 1.001, 3.02, 2.99, 5.03, 5.01, 4.98}, kemudian, nilai2 di smooth

secara nyata menjadi Fsmoothed = {1.0, 1.0, 1.0, 3.0, 3.0, 5.0, 5.0, 5.0}.

 Tujuan : transformasi sederhana tanpa menghilangkan kualitas data set.

(36)

Diferences and ratios

 Meskipun perubahan kecil feature dapat menghasilkan perbaikan yang signifkan dalam performance

data-mining. Dampak transformasi dari i/o yg relative minor adalah hal yg penting dalam menspesifkasi tujuan

data-mining.

 Transformasi kadangkala menghasilkan hasil yg lebih bagus dari tujual prediksi suatu angka semula.

 Contoh: tujuan menggerakkan control untuk proses manufaktur pada suatu setting optimal. Daripada mengoptimisasi spesifkasi besaran yg nyata untuk output s(t-1), dia akan lebih efektive men-set tujuan gerakan relatif dari nilai saat ini ke optimal akhir

s(t+1)-s(t).

 Rasio adalah transformasi sederhana yg kedua.

(37)

Transformasi perbedaan dan rasio tidak hanya berguna untuk ftur output, tetapi juga untuk input. Mereka dapat digunakan sebagai perubahan dalam waktu untuk satu

feature atau sebagai komposisi dari perbedaan feature input.

Contoh: data set medical, ada 2 feature dari pasien, tinggi dan berat, yg diambil sebagai parameter input untuk

analisis diagnosa yg berbeda. Beberapa aplikasi

menunjukkan hasil diagnosa dicapai lebih bagus ketika transformasi awal ditunjukkan menggunakan feature baru yg disebut body-mass index (BMI), yg mana rasio

(38)

Transforming Data

 Centering

 Mengurangi setiap data dengan rata2 dari setiap

atribut

 Normalization

 Hasil dari centering dibagi dengan standard deviasi

 Scaling

 Merubah data sehingga berasa dalam skala

Referensi

Dokumen terkait

Pengertian Jaminan Sosial Tenaga Kerja (Jamsostek) menurut UU Nomor 3 Tahun 1992 adalah : Suatu perlindungan bagi tenaga kerja dalam bentuk santunan berupa uang sebagai

Model Organisasi sektor publik tradisional sangat didominasi organsiasi birokrasi. Model organisasi birokrasi yang dikembangkan oleh Max weber itu pada awalnya sangat

Masalah yang terjadi di Industri ini adalah kecelakaan kerja dari segi bahaya kimia di area stock fit proses produksi bottom sepatu yang banyak menggunakan

Untuk bergerak dengan baik dan dapat memetakan sirkuit, maka robot harus mampu mengukur dengan akurat jarak halangan(dinding) yang terdapat di depan atau disamping

curah hujan, dan ketinggian tempat untuk Penularan pada manusia dapat terjadi secara mengetahui sebaran kasus leptospirosis berdasarkan langsung melalui kontak dengan

Hama dan Penyakit : Hawar daun bakteri, Walang sangit , Keong mas, dan Penggerek batang padi, Wereng hijau.. Pengendalian : Kimiawi (Penyemprotan 3x dalam

Karena itu, perlu direncanakan alokasi waktu setiap tahapan pembelajaran sehingga memberikan waktu bagi penerima knowledge menyerap ilmu baru dan siap untuk

Jadi pendidikan orang dewasa adalah proses pendidikan dimana para pembelajarnya adalah individu yang telah memiliki identitas dan mengetahui