Data Warehouse
& Data Mining
STMIK GLOBAL
teknologi yang ada di data warehouse dan OLAP (On-Line Analytical Processing)
Data Warehouse
Definisi :
Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis guna mendukung DSS (Decision Suport System) dan EIS (Expert Information System).
Salinan dari transaksi data yang terstruktur secara spesifik pada query dan analisa.
Salinan dari transaksi data yang terstruktur spesifik untuk query dan laporan
Tujuan :
Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan informasi ke pemakai dalam bentuk yang dimengerti dan dapat diakses dengan mudah.
4 Karakteristik Data Warehouse
1. Subject Oriented Data yang disusun menurut subyek berisi hanya informasi yang penting bagi pemprosesan decision support.
Database yang semua informasi yang tersimpan di kelompokkan
berdasarkan subyek tertentu misalnya: pelanggan, gudang, pasar, dsb.
Semua Informasi tersebut disimpan dalam suatu sistem data warehouse.
Data-data di setiap subyek dirangkum ke dalam dimensi, misalnya : dalam periode waktu, info produk, info wilayah, dsb, sehingga dapat memberikan nilai sejarah sebagai bahan analisa.
2. Integrated
Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu lingkungan operasional, encoding data sering tidak seragam sehinggga bila data dipindahkan ke data warehouse maka coding akan diasumsikan sama seperti lazimnya.
3. Time variant
Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih, Data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui.
4. Non-volatile
Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat ditambah dan dilihat
Perbedaan Data Warehouse &
Database
•
Data Warehouse
– Tidak terikat suatu aplikasi
– Data terpusat
– Historical
– Denormalisasi kecil
– Multiple subject
– Sumber dari dari semua internal maupun eksternal source
– Fleksibel
– Data oriented
– Umurnya panjang
– Ukuran besar
– Single complex structure
•
Database
– Aplikasi DSS secara spesifik
– Tidak terpusat oleh user area
– Sebagian historical
– Denormalisasi besar
– Satu subject
– Sumber dari sebagian internal maupun eksternal source
– Tidak fleksibel, terbatas
– Project oriented
– Umurnya pendek
– Ukuran dari kecil menjadi besar
Data Warehouse & Operasional
DBMS
• OLTP (on-line transaction processing)
Tugas utama DBMS relasional tradisional
Operasional Harian : pembelian, persediaan, perbankan,
manufaktur, penggajian, pendaftaran, akuntansi, dll
• OLAP (on-line analytical processing)
Tugas utama dari sistem data warehouse
Analisis data dan pengambilan keputusan
• Fitur yang berbeda (OLTP vs OLAP):
Orientasi User dan system orientation: customer vs. market
Data contents: saat ini, detail vs. Histori, konsolidasi
Database design: ER + application vs. star + subject
View: saat ini, lokal vs. evolutionary, integrated
Data Warehouse & Operasional
DBMS
OLTP OLAP
users clerk, IT professional knowledge worker
function day to day operations decision support
DB design application-oriented subject-oriented
data current, up-to-date detailed, flat relational isolated
historical,
summarized, multidimensional integrated, consolidated
usage repetitive ad-hoc
access read/write
index/hash on prim. key
lots of scans
unit of work short, simple transaction complex query
# records accessed tens millions
#users thousands hundreds
DB size 100MB-GB 100GB-TB
Konsep Model Data Warehouse
1. Skema bintang: Sebuah tabel fakta di tengah terhubung ke satu
set tabel dimensi
2. Skema Snowflake : Sebuah penyempurnaan skema bintang di
mana beberapa hirarki dimensi dinormalisasi menjadi satu set tabel dimensi yang lebih kecil, membentuk bentuk mirip dengan kepingan salju
3. Fakta konstelasi: Beberapa fakta tabel dibagi menjadi dimensi
tabel, dipandang sebagai kumpulan bintang, karena itu disebut Skema Galaxy atau fakta konstelasi
Example of Star Schema
time_key day day_of_the_week month quarter yeartime
location_key street city province_or_street countrylocation
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key item_name brand type supplier_typeitem
branch_key branch_name branch_typebranch
Example of Snowflake Schema
time_key day day_of_the_week month quarter yeartime
location_key street city_keylocation
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key item_name brand type supplier_keyitem
branch_key branch_name branch_typebranch
supplier_key supplier_typesupplier
city_key city province_or_street countrycity
Example of Fact Constellation
time_key day day_of_the_week month quarter year time location_key street city province_or_street country location Sales Fact Tabletime_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type
item
branch_key branch_name branch_type branchShipping Fact Table
time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper_key shipper_name location_key shipper_type shipper
Data Mining Query Language, DMQL:
Language Primitives
Cube Definition (Fact Table)
define cube
<cube_name> [<dimension_list>]:
<measure_list>
Dimension Definition ( Dimension Table )
define dimension
<dimension_name>
as
(<attribute_or_subdimension_list>)
Special Case (Shared Dimension Tables)
First time as “cube definition”
define dimension
<dimension_name>
as
<dimension_name_first_time>
in cube
Defining a Star Schema in DMQL
define cube
sales_star [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)
define dimension
time
as
(time_key, day, day_of_week,
month, quarter, year)
define dimension
item
as
(item_key, item_name, brand,
type, supplier_type)
define dimension
branch
as
(branch_key, branch_name,
branch_type)
define dimension
location
as
(location_key, street, city,
province_or_state, country)
Defining a Snowflake Schema in
DMQL
define cube
sales_snowflake [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension
time
as
(time_key, day, day_of_week,
month, quarter, year)
define dimension
item
as
(item_key, item_name, brand,
type,
supplier(supplier_key, supplier_type))
define dimension
branch
as
(branch_key, branch_name,
branch_type)
define dimension
location
as
(location_key, street,
Defining a Fact Constellation in DMQL
define cube sales [time, item, branch, location]:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week, month, quarter, year)
define dimension item as (item_key, item_name, brand, type, supplier_type)
define dimension branch as (branch_key, branch_name, branch_type)
define dimension location as (location_key, street, city, province_or_state, country)
define cube shipping [time, item, shipper, from_location, to_location]: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)
define dimension time as time in cube sales
define dimension item as item in cube sales
define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)
define dimension from_location as location in cube sales
3 Kategori Pengukuran
Distributif: jika hasil yang diperoleh dengan menerapkan fungsi
untuk nilai keseluruhan n adalah sama dengan yang diperoleh dengan menerapkan fungsi pada semua data tanpa partisi. Misalnya, count (), jumlah (), min (), max ().
Aljabar: jika dapat dihitung dengan fungsi aljabar dengan
argumen M (di mana M adalah bilangan bulat dibatasi), yang masing-masing diperoleh dengan menerapkan fungsi agregat distributif. Misalnya, avg (), min_N (), deviasi_standar ().
Holistik: jika tidak ada konstan terikat pada ukuran
penyimpanan yang dibutuhkan untuk menggambarkan sub sebuah kumpulan Misalnya, median (), mode (), tank ().
Konsep Hirarki: Dimension (location)
all
Europe
North_America
Mexico
Canada
Spain
Germany
Vancouver
M. Wind
L. Chan
...
...
...
...
...
...
all
region
office
country
Toronto
Frankfurt
city
View of Warehouses and Hierarchies
Specification of hierarchies
Schema hierarchy
day < {month < quarter;
week} < year
Set_grouping hierarchy
Multidimensional Data
Sales volume as a function of product, month, and region
Product
Month
Dimensions: Product, Location, Time
Hierarchical summarization paths
Industry Region Year
Category Country Quarter
Product City Month Week
Office Day
Contoh Data Cube
Total annual sales
of TV in U.S.A.
Date
Country
sum
sum
TV
VCR
PC
1Qtr
2Qtr
3Qtr
4Qtr
U.S.A
Canada
Mexico
sum
Cuboids Corresponding to the Cube
all
product
date
country
product,date product,country date, country
product, date, country
0-D(apex) cuboid
1-D cuboids
2-D cuboids
Browsing a Data Cube
Visualization
OLAP capabilities