What is Data?
Kumpulan obyek data
dan atributnya
Atribut adalah property
atau karakteristik suatu
obyek
Contoh: warna mata,
temperature, dll
Atribut dikenal sebagai
variable, feld, ataupun karakteristik
Kumpulan dari atribut
menggambarkan obyek
Obyek dikenal juga sebagai
record, point, case, sample, entitas
Attributes
Objects
Tid Refund Marital
Status Taxable Income Cheat
Attribute Values
Nilai atribut adalah
angka-angka
atau
simbol-simbol
yang diassign ke suatu
atribut
Perbedaan antara atribut dan nilai atribut
Atribut yg sama dapat dipetakkan ke nilai
atribut yang beda
Misal: ketinggian dapat diukur dalam feet atau
meter
Atribut yg beda dapat dipetakan ke
himpunan nilai yang sama
Contoh: nilai atribut untuk ID dan age adalah
integer
Tetapi property nilai atribut dapat berbeda:
ID tidak mempunyai batasan nilai maksimum
Attribute Types
Ada jenis-jenis atribut yang berbeda:
Nominal
Contoh: nomor ID, warna mata, kode pos Ordinal
Rangking/ tingkatan (contoh rasa dari kripik kentang
dalam skala 1-10), grade, tinggi dalam {tinggi, sedang, rendah}
Interval
Contoh: tanggal kalender, temperature dalam Celsius
atau Fahrenheit
Ratio
Contoh: temperature dalam Kelvin, panjang, waktu,
Properties of Attribute Values /1
Jenis atribut tergantung pada properti berikut yang mana dia miliki
Distinctness: =
Order: < >
Addition: + -
Multiplication: * /
Nominal attribute: distinctness
Ordinal attribute: distinctness & order
Properties of Attribute Values /2
Attribute
Type Description Examples Operations
Nominal The values of a nominal attribute are just diferent names, i.e., nominal
attributes provide only enough information to
distinguish one object from another. (=, )
zip codes, employee ID numbers, eye color, sex:
{male, female}
mode, entropy, contingency correlation, 2
test
Ordinal The values of an ordinal attribute provide enough information to order
objects. (<, >)
hardness of
minerals, {good, better, best}, grades, street numbers
median, percentiles, rank
correlation, run tests, sign tests
Interval For interval attributes, the diferences between values are meaningful, i.e., a unit of measurement exists. (+, - )
calendar dates, temperature in Celsius or
Fahrenheit
mean, standard deviation, Pearson's correlation, t
and F tests Ratio For ratio variables, both
diferences and ratios are meaningful. (*, /)
temperature in Kelvin, monetary quantities,
counts, age, mass, length, electrical current
geometric mean, harmonic
Properties of Attribute Values /
3
Attribute
Level Transformation
Comments
Nominal Any permutation of values If all employee ID numbers were
reassigned, would it make any diference? Ordinal An order preserving change of
values, i.e.,
new_value = f(old_value)
where f is a monotonic function.
An attribute
encompassing the notion of good, better best can be represented equally well by the
values {1, 2, 3} or by { 0.5, 1, 10}.
Interval new_value =a * old_value + b
where a and b are constants
Thus, the Fahrenheit
and Celsius temperature scales difer in terms of where their zero value is and the size of a unit (degree).
Ratio new_value = a * old_value Length can be
Discrete and Continuous Attributes
Discrete Attribute
Mempunyai himpunan nilai terbatas atau tak
terbatas
Contoh: zip codes, himpunan kata dalam
kumpulan dokumen
Sering direpresentasikan sbg variable integer Note: binary attributes special case
Continuos Attribute
Memiliki angka-angka real sebagai nilai
atribut
Contoh: temperatur, tinggi atau berat Dapat diukur dan direpresentasikan
menggunakan sejumlah digit terbatas
Ciri khasnya direpresentasikan sebagai
Asymmetric Attributes
Hanya keberadaannya (non zero attribute
value) diperhatikan
Contoh:
Kata-kata muncul di dokumen
Item-item muncul di transaksi customer
Document 1
Document 2
Document 3
3 0 5 0 2 6 0 2 0 2
0
0
7 0 2 1 0 0 3 0 0
Types of data sets
Record
▫ Data Matrix
▫ Document Data
▫ Transaction Data
Graph
▫ World Wide Web
▫ Molecular Structures
Ordered
▫ Spatial Data
▫ Temporal Data
▫ Sequential Data
Important characteristics of structured
data
Dimensionality
Sparsity
Hanya menghitung kemunculan
Resolution
Record Data
Data yang berisi kumpulan record, yang mana
masing-masing berisi suatu himpunan atribut yang ditentukan.
Tid Refund Marital Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
Data Matrix
Jika objek data mempunyai kumpulan atribut numerik yg ditentukan , kemudian data objek dapat dipandang sebagai titik dalam ruang
multidimensional, di mana setiap dimensi
merepresentasian suatu atribut yang berbeda.
Document Data
Setiap document menjadi suatu ‘term’ vector,
Setiap term adalah komponen (atribut) dari vector Nilai setiap komponen adalah banyaknya waktu yg
berhubungan terms terdapat dalam document
Document 1
Document 2
Document 3
3 0 5 0 2 6 0 2 0 2
0
0
7 0 2 1 0 0 3 0 0
Transaction Data
Jenis spesial dari data rekord , dimana s
etiaprecord (transaksi) mencangkup kumpulan item-item
Contoh: Toko penjualan bahan makanan. Sejumlah
produk dibeli customer selama perjalanan
pembelian merupakan suatu transaksi, namun produk yg dibeli merupakan itemTID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
Graph Data
Contoh: Generic graph and HTML Links
5
2
1 2
5
<a href="papers/papers.html#bbbb"> Data Mining </a>
<li>
<a href="papers/papers.html#aaaa"> Graph Partitioning </a>
<li>
<a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a> <li>
<a href="papers/papers.html#ffff">
Chemical Data
Ordered Data /1
Sequence of
transaction
An element of the sequence
Ordered Data /2
Genomic sequence data
Ordered Data /3
Spatio-Temporal data
Data Quality
Jenis masalah apakah kualitas data?
Bagaimana kita dapat mendeteksi masalah
dengan data?
Apa yg dapat kita lakukan tentang masalah
ini?
Contoh masalah kualitas data:
Noise
Mengacu pada modifkasi nilai original
Contoh: distorsi suara seseorang ketika
berbicara
Outliers /1
Outliers adalah
obyek data dengan
karakteristik berbeda
dengan kebanyakan
data obyek lain
Outliers /2
Contoh: suatu data set merepresentasikan gambaran umur dengan 20 nilai yg berbeda,
Age = {3, 56, 23, 39, 156, 52, 41, 22, 9, 28, 139, 31, 55, 20,
-67, 37, 11, 55, 45, 37}
Maka parameter statistika yg berhubungan:
Mean = 39.9
Standard deviation = 45.65
Jika kita memilih nilai threshold untuk distribusi normal data :
Theshold = Mean ± 2 x Standard Deviation
maka seluruh data yg diluar range [-54.1, 131.2] adalah potential outliers. Dan oleh karena age >0, mungkin mengurangi range menjadi [0, 131.2]. Sehingga ada outlier berdasarkan kriteria yg diberikan: 156, 139dan -67
Dengan kemungkinan yg tinggi, dapat disimpulkan 3 data tersebut ada mistypo (data yg dimasukkan dengan
Missing Values
Beberapa alasan missing values:
Informasi tidak terkumpul
(misal: orang2 menolak memberikan info umur dan berat mereka)
Atribut mungkin tidak dapat diaplikasikan ke
semua kasus
(misal: pendapatan tidak dapat diaplikasikan ke anak2)
Mengatasi missing values:
Eliminasi obyek data
Mengestimasi missing value selama analisis Mengganti dengan semua nilai kemungkinan
Duplicate Data
Data set mungkin terdapat obyek data yang
duplikat, atau hampir duplikasi dari yg lain
Isu utama dengan menggabungkan sumber yg
berbeda-beda
Contoh: orang yg sama dengan berbagai
email address
Data cleaning
Data Preprocessing: Why is
Needed?
Data di dunia riil cenderung kotor
Incomplete: kekurangan nilai atribut, kurang
atribut ttt yg menarik, atau hanya berupa kumpulan data
Noise: berisi errors atau outliers
Inconsistent: berisi berbeda format dalam
code dan nama
Data yg tidak berkualitas, tidak ada
hasil-hasil mining yg berkualitas
Keputusan kualitas harus didasarkan pada
data kualitas
Data warehouse memerlukan integritas
Major task in Data
Preprocessing
Data Cleaning
Data Integration
Data Transformation
Data Reduction
Forms of
Data
Transformation of Raw Data
Normalization
Data smoothing
Normalizations
Nilai yg terukur dapat diskala ke range
khusus, seperti [-1, 1], atau [0,1] dengan
alasan ukuran-ukuran jarak akan overweight
yang dimiliki, atas rata-rata, nilai-nilai itu
lebih besar.
Ada 3 tehnik normalisasi:
1.
Decimal scalling
2.
Min-max normalization
Decimal scalling
(normalization)
Menggerakkan titik desimal tetapi masih
memelihara kebanyakan nilai digit asal. Skala
khusus memelihara nilai dalam range -1
sampai 1. Persamaan berikut menggambarkan
penskalaan desimal, dimana v(i) adalah nilai
dari feature v untuk kasus i dan v’(i) adalah
nilai yg diskala.
v’(i)=v(i)/10
kuntuk k terkecil sehingga max (v’(i))< 1
Contoh:
Jika nilai terbesar data set 455 dan terkecil
-834, maka nilai absolut maksimum
Min-max normalization
Andaikan data v dalam suatu range antara 150 dan 250. Maka, metode normalisasi sebelumnya akan memberikan data yg dinormalisasi
antara .15 dan .25; tetapi dia akan
mengakumuladi nilai dalam subinterval kecil dalam range keseluruhan. Untuk mencapai distribusi yg lebih baik dari nilai seluruhnya, intervalnya dinormalisasikan, seperti [0, 1]
v’(i) =(v(i)-min(v(i))) /
(max(vi))-min(v(i)))
dimana, nilai minimum dan maksimum v
dihitung secara otomatis, atau diestimasi oleh seorang expert memberikan domain.
Standard deviation
normalization
Normalisasi dengan standard deviasi sering
bekerja baik dengan ukuran jarak, tetapi
transformasi data tidak dapat dikenali data
asalnya.
v’(i)=(v(i)-mean(v))/sd(v)
Contoh:
Jika himpunan nilai atribut awal v={1, 2,
3}, maka mean(v)=2, sd(v)=1, dan
Data Smoothing
Suatu feature numerik, y, mungkin berkisar atas banyak nilai yg berbeda, terkadang sebanyak
jumlah kasus pelatihan. Banyak teknik data-mining, perbedaan minor antar nilai-nilai ini tidak signifkan dan mungkin menurunkan performance metode dan hasil akhir. Oleh karena itu, dia terkadang menjadi keuntungan untuk menghaluskan nilai variable.
Sebagai contoh, bilangan real dengan beberapa letak desimal, pembulatan nilai ke presisi yg
diberikan dapat menjadi algoritma smoothing yg
sederhana untuk sejumlah sampel yg besar, dimana setiap sampel mempunya nilai realnya sendiri.
Jika diberikan F = {0.93, 1.01, 1.001, 3.02, 2.99, 5.03, 5.01, 4.98}, kemudian, nilai2 di smooth
secara nyata menjadi Fsmoothed = {1.0, 1.0, 1.0, 3.0, 3.0, 5.0, 5.0, 5.0}.
Tujuan : transformasi sederhana tanpa menghilangkan kualitas data set.
Diferences and ratios
Meskipun perubahan kecil feature dapat menghasilkan perbaikan yang signifkan dalam performance
data-mining. Dampak transformasi dari i/o yg relative minor adalah hal yg penting dalam menspesifkasi tujuan
data-mining.
Transformasi kadangkala menghasilkan hasil yg lebih bagus dari tujual prediksi suatu angka semula.
Contoh: tujuan menggerakkan control untuk proses manufaktur pada suatu setting optimal. Daripada mengoptimisasi spesifkasi besaran yg nyata untuk output s(t-1), dia akan lebih efektive men-set tujuan gerakan relatif dari nilai saat ini ke optimal akhir
s(t+1)-s(t).
Rasio adalah transformasi sederhana yg kedua.
Transformasi perbedaan dan rasio tidak hanya berguna untuk ftur output, tetapi juga untuk input. Mereka dapat digunakan sebagai perubahan dalam waktu untuk satu
feature atau sebagai komposisi dari perbedaan feature input.
Contoh: data set medical, ada 2 feature dari pasien, tinggi dan berat, yg diambil sebagai parameter input untuk
analisis diagnosa yg berbeda. Beberapa aplikasi
menunjukkan hasil diagnosa dicapai lebih bagus ketika transformasi awal ditunjukkan menggunakan feature baru yg disebut body-mass index (BMI), yg mana rasio
Transforming Data
Centering
Mengurangi setiap data dengan rata2 dari setiap
atribut
Normalization
Hasil dari centering dibagi dengan standard deviasi
Scaling
Merubah data sehingga berasa dalam skala