• Tidak ada hasil yang ditemukan

Data Warehouse & Data Mining STMIK GLOBAL

N/A
N/A
Protected

Academic year: 2021

Membagikan "Data Warehouse & Data Mining STMIK GLOBAL"

Copied!
30
0
0

Teks penuh

(1)

Data Warehouse

& Data Mining

STMIK GLOBAL

(2)
(3)
(4)
(5)
(6)

teknologi yang ada di data warehouse dan OLAP (On-Line Analytical Processing)

(7)

Data Warehouse

Definisi :

 Data Warehouse adalah Pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis guna mendukung DSS (Decision Suport System) dan EIS (Expert Information System).

 Salinan dari transaksi data yang terstruktur secara spesifik pada query dan analisa.

 Salinan dari transaksi data yang terstruktur spesifik untuk query dan laporan

Tujuan :

 Meningkatkan kualitas dan akurasi informasi bisnis dan  mengirimkan informasi ke pemakai dalam bentuk yang  dimengerti dan dapat diakses dengan mudah.

(8)

4 Karakteristik Data Warehouse

1. Subject Oriented

 Data yang disusun menurut subyek berisi hanya informasi yang penting bagi pemprosesan decision support.

 Database yang semua informasi yang tersimpan di kelompokkan

berdasarkan subyek tertentu misalnya: pelanggan, gudang, pasar, dsb.

Semua Informasi tersebut disimpan dalam suatu sistem data warehouse.

 Data-data di setiap subyek dirangkum ke dalam dimensi, misalnya : dalam periode waktu, info produk, info wilayah, dsb, sehingga dapat memberikan nilai sejarah sebagai bahan analisa.

2. Integrated

Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu lingkungan operasional, encoding data sering tidak seragam sehinggga bila data dipindahkan ke data warehouse maka coding akan diasumsikan sama seperti lazimnya.

(9)

3. Time variant

Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih, Data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui.

4. Non-volatile

Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat ditambah dan dilihat

(10)

Perbedaan Data Warehouse &

Database

Data Warehouse

– Tidak terikat suatu aplikasi

– Data terpusat

– Historical

– Denormalisasi kecil

– Multiple subject

– Sumber dari dari semua internal maupun eksternal source

– Fleksibel

– Data oriented

– Umurnya panjang

– Ukuran besar

– Single complex structure

Database

– Aplikasi DSS secara spesifik

– Tidak terpusat oleh user area

– Sebagian historical

– Denormalisasi besar

– Satu subject

– Sumber dari sebagian internal maupun eksternal source

– Tidak fleksibel, terbatas

– Project oriented

– Umurnya pendek

– Ukuran dari kecil menjadi besar

(11)
(12)
(13)

Data Warehouse & Operasional

DBMS

• OLTP (on-line transaction processing)

Tugas utama DBMS relasional tradisional

Operasional Harian : pembelian, persediaan, perbankan,

manufaktur, penggajian, pendaftaran, akuntansi, dll

• OLAP (on-line analytical processing)

Tugas utama dari sistem data warehouse

Analisis data dan pengambilan keputusan

• Fitur yang berbeda (OLTP vs OLAP):

Orientasi User dan system orientation: customer vs. market

Data contents: saat ini, detail vs. Histori, konsolidasi

Database design: ER + application vs. star + subject

View: saat ini, lokal vs. evolutionary, integrated

(14)

Data Warehouse & Operasional

DBMS

OLTP OLAP

users clerk, IT professional knowledge worker

function day to day operations decision support

DB design application-oriented subject-oriented

data current, up-to-date detailed, flat relational isolated

historical,

summarized, multidimensional integrated, consolidated

usage repetitive ad-hoc

access read/write

index/hash on prim. key

lots of scans

unit of work short, simple transaction complex query

# records accessed tens millions

#users thousands hundreds

DB size 100MB-GB 100GB-TB

(15)

Konsep Model Data Warehouse

1. Skema bintang: Sebuah tabel fakta di tengah terhubung ke satu

set tabel dimensi

2. Skema Snowflake : Sebuah penyempurnaan skema bintang di

mana beberapa hirarki dimensi dinormalisasi menjadi satu set tabel dimensi yang lebih kecil, membentuk bentuk mirip dengan kepingan salju

3. Fakta konstelasi: Beberapa fakta tabel dibagi menjadi dimensi

tabel, dipandang sebagai kumpulan bintang, karena itu disebut Skema Galaxy atau fakta konstelasi

(16)

Example of Star Schema

time_key day day_of_the_week month quarter year

time

location_key street city province_or_street country

location

Sales Fact Table

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_sales

Measures

item_key item_name brand type supplier_type

item

branch_key branch_name branch_type

branch

(17)

Example of Snowflake Schema

time_key day day_of_the_week month quarter year

time

location_key street city_key

location

Sales Fact Table

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_sales

Measures

item_key item_name brand type supplier_key

item

branch_key branch_name branch_type

branch

supplier_key supplier_type

supplier

city_key city province_or_street country

city

(18)

Example of Fact Constellation

time_key day day_of_the_week month quarter year time location_key street city province_or_street country location Sales Fact Table

time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type

item

branch_key branch_name branch_type branch

Shipping Fact Table

time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper_key shipper_name location_key shipper_type shipper

(19)

Data Mining Query Language, DMQL:

Language Primitives

Cube Definition (Fact Table)

define cube

<cube_name> [<dimension_list>]:

<measure_list>

Dimension Definition ( Dimension Table )

define dimension

<dimension_name>

as

(<attribute_or_subdimension_list>)

Special Case (Shared Dimension Tables)

First time as “cube definition”

define dimension

<dimension_name>

as

<dimension_name_first_time>

in cube

(20)

Defining a Star Schema in DMQL

define cube

sales_star [time, item, branch, location]:

dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)

define dimension

time

as

(time_key, day, day_of_week,

month, quarter, year)

define dimension

item

as

(item_key, item_name, brand,

type, supplier_type)

define dimension

branch

as

(branch_key, branch_name,

branch_type)

define dimension

location

as

(location_key, street, city,

province_or_state, country)

(21)

Defining a Snowflake Schema in

DMQL

define cube

sales_snowflake [time, item, branch, location]:

dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)

define dimension

time

as

(time_key, day, day_of_week,

month, quarter, year)

define dimension

item

as

(item_key, item_name, brand,

type,

supplier(supplier_key, supplier_type))

define dimension

branch

as

(branch_key, branch_name,

branch_type)

define dimension

location

as

(location_key, street,

(22)

Defining a Fact Constellation in DMQL

define cube sales [time, item, branch, location]:

dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)

define dimension time as (time_key, day, day_of_week, month, quarter, year)

define dimension item as (item_key, item_name, brand, type, supplier_type)

define dimension branch as (branch_key, branch_name, branch_type)

define dimension location as (location_key, street, city, province_or_state, country)

define cube shipping [time, item, shipper, from_location, to_location]: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)

define dimension time as time in cube sales

define dimension item as item in cube sales

define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)

define dimension from_location as location in cube sales

(23)

3 Kategori Pengukuran

Distributif: jika hasil yang diperoleh dengan menerapkan fungsi

untuk nilai keseluruhan n adalah sama dengan yang diperoleh dengan menerapkan fungsi pada semua data tanpa partisi. Misalnya, count (), jumlah (), min (), max ().

Aljabar: jika dapat dihitung dengan fungsi aljabar dengan

argumen M (di mana M adalah bilangan bulat dibatasi), yang masing-masing diperoleh dengan menerapkan fungsi agregat distributif. Misalnya, avg (), min_N (), deviasi_standar ().

Holistik: jika tidak ada konstan terikat pada ukuran

penyimpanan yang dibutuhkan untuk menggambarkan sub sebuah kumpulan Misalnya, median (), mode (), tank ().

(24)

Konsep Hirarki: Dimension (location)

all

Europe

North_America

Mexico

Canada

Spain

Germany

Vancouver

M. Wind

L. Chan

...

...

...

...

...

...

all

region

office

country

Toronto

Frankfurt

city

(25)

View of Warehouses and Hierarchies

Specification of hierarchies

Schema hierarchy

day < {month < quarter;

week} < year

Set_grouping hierarchy

(26)

Multidimensional Data

 Sales volume as a function of product, month, and region

Product

Month

Dimensions: Product, Location, Time

Hierarchical summarization paths

Industry Region Year

Category Country Quarter

Product City Month Week

Office Day

(27)

Contoh Data Cube

Total annual sales

of TV in U.S.A.

Date

Country

sum

sum

TV

VCR

PC

1Qtr

2Qtr

3Qtr

4Qtr

U.S.A

Canada

Mexico

sum

(28)

Cuboids Corresponding to the Cube

all

product

date

country

product,date product,country date, country

product, date, country

0-D(apex) cuboid

1-D cuboids

2-D cuboids

(29)

Browsing a Data Cube

 Visualization

 OLAP capabilities

(30)

A Star-Net Query Model

Shipping Method AIR-EXPRESS TRUCK ORDER Customer Orders CONTRACTS Customer Product PRODUCT GROUP PRODUCT LINE PRODUCT ITEM SALES PERSON DISTRICT DIVISION Organization Promotion CITY COUNTRY REGION Location DAILY QTRLY ANNUALY Time

Each circle is

called a

footprint

Referensi

Dokumen terkait

Sihombing, M.F., 2006, ‘Uji Efek Antidispepsi Ekstrak Daun Salam (Syzygium polyanthum ) terhadap Tikus Putih’, Skripsi, Sarjana Farmasi, Universitas Katolik

Hasil penelitian menunjukan bahwa pelaksanaan pembinaan narapidana di Rumah Tahanan Negara Klas IIB Raba Bima tidak berjalan dengan maksimal dan terjadi kendala yang

1. Bagaimana tingkat kepuasan pasien terhadap kualitas pelayanan jasa pada Rumah Sakit Umum Daerah Sanjiwani di Kabupaten Gianyar?.. Faktor-faktor pelayanan jasa manakah

Komunikasi interpersonal merupakan keterlibatan internal secara aktif dan individu menjadi pengirim sekaligus penerima pesan, memberikan umpan balik bagi dirinya sendiri

Rencana Terpadu dan Program Investasi Infrastruktur Jangka Menengah (RPI2-JM) Bidang Cipta Karya merupakan dokumen perencanaan dan pemrograman pembangunan infrastruktur

Jika siswa sudah bisa menentukan kata sapaan pada dongeng, maka guru dapat memberikan penugasan membaca buku lain yang sesuai dengan tema atau materi.. Jika siswa sudah bisa

Halaman ini menampilkan daftar soal-soal latihan pada tenses yang akan di pilih oleh user, terdiri atas 16 kategori soal tenses. Halaman ini berfungsi untuk memilih materi

Abdul Aziz Muslich selaku kepala sekolah SMAKH Sinar Harapan probolinggo dan Ibu Sri Nidayati., S.Pd, selaku kepala sekolah UPT SMPLB NEGERI Purworejo