Pertemuan ke-2
“
”
Transaction Data
Sekumpulan data objects and their attributes
database penjualan, data objects : pelanggan, item, dan item penjualan
database universitas, data objects : mahasiswa, dosen, dan mata kuliah
Kumpulan attributes menggambarkan suatu object
Sebuah attributes mewakili karakteristik atau fitur dari data objects
juga dikenal sebagai variabel, bidang, karakteristik, dimensi, atau fitur
mendeskripsikan objek pelanggan, mencakup, ID pelanggan, nama, dan alamat
Examples: eye color of a person, temperature,
Database rows data objects; columns attributes
Tid Refund Marital Status
Taxable
Income Cheat
1 Yes Single 125K No 2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Attributes
Objects
Database Management System (DBMS)
Interrelated data (database)
Software program
Relational database
Collection of table
Each table : attribute and tuples (record or rows)
Each tuples identified by unique key
Semantic model : Entity-Relationship (ER)
Database queries
A query allows retrieval of specified sub-sets of the data
When mining relational databases, we can go further by searching for trends or data patterns
Database Management System (DBMS)
"Show me a list of all items that were sold in the last quarter.”
“Show me the total sales of the last month, grouped by branch,”
“How many sales transactions occurred in the month of December?”
“Which salesperson had the highest sales?”
Data Spatial
Group / Network Data Data
Multimedia
Data Text
Data
Sequence Data Stream
Data Warehouse
A data warehouse is a repository of information collected from multiple sources
stored under a unified schema
usually residing at a single site
Data warehouses are constructed via process :
process of data cleaning
data integration
data transformation
data loading, and
periodic data refreshing
To facilitate decision making : customer, item, supplier, and activity
Data Warehouse
attributes adalah bidang data, mewakili karakteristik atau fitur dari data objects
kata benda, dimensi, fitur, dan variabel sering digunakan
attributes yang mendeskripsikan data objects
pelanggan mencakup, ID pelanggan, nama, dan alamat
satu set attributes yang digunakan untuk
mendeskripsikan objek tertentu disebut vektor attributes (atau vektor fitur)
distribusi data yang melibatkan satu attributes (atau variabel) disebut univariat
distribusi bivariat melibatkan dua attributes, dan seterusnya
Jenis attributes ditentukan oleh kumpulan nilai yang memungkinkan — nominal, binary, ordinal, atau numerik
Nominal: categories, states, or “names of things”
Nominal berarti "berkaitan dengan nama“
Setiap nilai mewakili beberapa jenis kategori, kode, atau status, dan atribut nominal juga disebut kategorikal
Hair_color = {auburn, black, blond, brown, grey, red, white}
marital status, occupation, ID numbers, zip codes
Binary
Atribut nominal hanya dengan 2 nilai : 0 dan 1
Symmetric binary: kedua hasil sama penting
e.g., gender
Asymmetric binary: kedua hasil tidak sama penting
e.g., medical test (positive or. negative)
Convention: assign 1 to most important outcome (e.g., HIV positive)
Ordinal : nilai memiliki urutan yang berarti, besarnya antara nilai-nilai yang berurutan tidak diketahui
Size = {small, medium, large}, grades, army rankings
Ratio
mengenai nilai sebagai urutan besarnya dari unit
Skala Celcius, Fahrenheit, Kelvin
Suhu 10 C˚ dua kali lebih tinggi dari 5 C˚
elapsed time (e.g., time to run a race)
Interval :
Diukur pada skala equal-sized units
Nilai memiliki keteraturan
suhu di C˚ atau pada F˚,
calendar date
Dimensionality (number of attributes)
Data dengan dimensi tinggi menghadirkan number of challenges
Sparsity :
Only presence counts
Ratio
Pola data yang ditampilkan bergantung pada skala
size
Type of analysis may depend on size of data
Document 1
season
timeout
lost
win
game
score
ball
play
coach
team
Document 2
Document 3
3 0 5 0 2 6 0 2 0 2
0
0
7 0 2 1 0 0 3 0 0
1 0 0 1 2 2 0 3 0
TID Items
1 Bread, Coke, Milk 2 Beer, Bread
3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk
Record
Relational records
Data matrix, e.g., numerical matrix, document transaction data,
Graph and network
World Wide Web
Molecular structure
Ordered
Video data: sequence of images
Temporal data: time-series
Sequential Data: transaction sequences
Spatial, image, multimedia
Spatial data: maps
Image data:
Video data:
Data yang terdiri dari kumpulan record, yang masing- masing terdiri dari sekumpulan atribut tetap
Tid Refund Marital Status
Taxable
Income Cheat
1 Yes Single 125K No 2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No 10 No Single 90K Yes
10
Jika data objects memiliki set attributes numerik tetap yang sama, maka data objects dapat dianggap as
points in a multi-dimensional space, di mana setiap dimensi mewakili atribut yang berbeda
Kumpulan data objects seperti ini dapat diwakili oleh matriks m x n, di mana terdapat m baris, satu untuk setiap data objects , dan n kolom, satu untuk setiap attributes
1.1 2.2
16.22 6.25
12.65
1.2 2.7
15.22 5.27
10.23
Thickness Load
Distance Projection
of y load Projection
of x Load
1.1 2.2
16.22 6.25
12.65
1.2 2.7
15.22 5.27
10.23
Thickness Load
Distance Projection
of y load Projection
of x Load
Setiap dokumen menjadi ‘term’ vector
Setiap term merupakan komponen (attributes) dari vektor
Nilai setiap komponen adalah berapa kali term yang terkait attributes muncul dalam sebuah document
Document 1
season
timeout
lost
win
game
score
ball
play
coach
team
Document 2 Document 3
3 0 5 0 2 6 0 2 0 2
0 0
7 0 2 1 0 0 3 0 0
1 0 0 1 2 2 0 3 0
A Special type of data, yang mempunyai beberapa kriteria
Setiap transaksi melibatkan satu set item
Misalnya, toko penjual makanan
Seperangkat produk yang dibeli oleh pelanggan selama satu kali belanjaan merupakan transaksi (id), sedangkan produk individu yang dibeli adalah item
Dapat merepresentasikan data transaksi sebagai data record
TID Items
1 Bread, Coke, Milk 2 Beer, Bread
3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk
A Special type of data, yang mempunyai beberapa kriteria
Visualisasi transformasi geometris dan proyeksi data
Untuk lebih memahami data: tendensi sentral, variasi dan penyebaran
Dapat merepresentasikan data transaksi sebagai data record
5
2
1 2
5
Sequences of transactions Items/Events
An element of the sequence
Spatio-Temporal Data
Average Monthly Temperature of land and ocean
Spatio-Temporal Data
Boxplot: tampilan grafik dengan beberapa ringkasan
Histogram: sumbu x adalah nilai, mewakili sumbu y, frekuensi
Quantile plots : setiap nilai x dipasangkan dengan fi
Scatter plot : setiap pasangan nilai adalah pasangan koordinat dan diplot sebagai titik pada sebuah bidang
0 200000 400000 600000 800000 1000000
0 1000000 2000000 3000000 4000000 5000000
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96
QPSO
-80,000.00 -60,000.00 -40,000.00 -20,000.00 0.00 20,000.00 40,000.00 60,000.00 80,000.00
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97
PSO
Histogram: Tampilan grafik frekuensi yang ditabulasikan, ditampilkan sebagai bars
menunjukkan berapa proporsi kasus yang termasuk dalam masing-masing dari beberapa kategori
0 5 10 15 20 25 30 35 40
10000 30000 50000 70000 90000
Menampilkan semua data
memungkinkan pengguna untuk menilai perilaku secara keseluruhan dan kejadian yang tidak biasa
Plot informasi kuantitatif
Untuk data xi data diurutkan dalam urutan meningkat
Memberikan tampilan pertama pada data dengan sifat bivariat untuk melihat kelompok titik, outlier,
Setiap pasangan nilai diperlakukan sebagai pasangan koordinat dan diplot sebagai titik pada bidang
Jiawei Han and Micheline Kamber, Data Mining:
Concepts and Techniques, Morgan Kaufmann Publishers, 2001
Pang-Ning Tan, Michael Steinbach, and Vipin Kumar, Introduction to Data Mining, Pearson, 2006
https://www.interaction-design.org/literature/article/how- to-display-complex-network-data-with-information-
visualization