• Tidak ada hasil yang ditemukan

Data warehouse dan OLAP (Overview) Diambil dari presentasi Jiawei Han / Chirayu Versi dok: 0.8/ Sept 14

N/A
N/A
Protected

Academic year: 2021

Membagikan "Data warehouse dan OLAP (Overview) Diambil dari presentasi Jiawei Han / Chirayu Versi dok: 0.8/ Sept 14"

Copied!
41
0
0

Teks penuh

(1)

Data warehouse dan OLAP

(Overview)

yudi@upi.edu

Diambil dari presentasi Jiawei Han / Chirayu Versi dok: 0.8/ Sept 14

(2)

Kasus: Indomaret

• Jutaan data per hari

• Dimensi (jumlah field) data besar

– Produk, jenis produk, waktu expire, pemasok,

tranksaksi harian, kepegawaian, keuangan, gudang

• Sumber data beragam

– Software beragam (beda vendor, beda versi). Ada data dalam file teks, Excel, database. → belum tentu

konsisten!

(3)

Kasus (lanj)

Kebutuhan pengambil keputusan:

Mengetahui penjualan per produk per wilayah per waktu

“Berapa sikat gigi yang terjual dalam bulan feb 2012 untuk wilayah jawa barat?”

(4)

Kasus (lanj)

Kebutuhan pengambil keputusan:

• Searching, filtering, query kompleks

padahal...

• Laporan harus cepat dan realtime!

Apakah database reguler cukup? Seperti yang dipelajari di kuliah basdat+sisbasdat?

(5)

Apa Data warehouse?

• Database pendukung keputusan yang terpisah dengan database operasional

– Apa database operasional?

• Platform untuk integrasi data historis untuk analisis

• Berdasarkan subyek, terintegrasi,

berdasarkan waktu, non volatile (permanen)

(6)

Kegunaan Datawarehouse

• Pemrosesan Informasi

– querying, analisis statistik, pelaporan,grafik

• Analisis

– Analisis Multidimensi

– Operasi OLAP: slice-dice, drilling, pivot

• Data mining

– Pengetahuan dari pola tersembunyi. – Asosasi, klasifikasi, prediksi

(7)

Berdasarkan Subyek

• Dikelola berdasarkan subyek-subyek penting. Misalnya: pelanggan, produk, penjualan, keuangan.

• Fokus pada model dan analisis data untuk

pengambil keputusan, bukan operasi

harian.

• Memberikan view yang lebih sederhana untuk subyek tertentu

(8)

Terintegrasi

• Dibuat dengan menggabungkan beberapa sumber data:

– Database relational, flat file

• Teknik pembersihan dan integrasi diterapkan

– Konsistensi nama, atribut

(9)

Berdasarkan Waktu

• Time horizon lebih panjang dari sistem yang operasional

– Database operasional: data kini (current) – Datawarehouse: perspektif historis (5-10

tahun)

• Setiap struktur pada data warehouse:

– Mengandung elemen waktu (implisit/eksplisit) – Tidak demikian dengan database operasional

(10)

Non volatile (permanen)

• Penyimpanan data terpisah dengan data operasional

• Tidak memerlukan “update”

– Tidak memerlukan transaksi, recovery dan concurrency

– Hanya memiliki dua operasi:

• Loading awal • Akses data

(11)

Kegunaan Datawarehouse

• Pemrosesan Informasi

– querying, analisis statistik, pelaporan,grafik

• Analisis

– Analisis Multidimensi

– Operasi OLAP: slice-dice, drilling, pivot

• Data mining

– Pengetahuan dari pola tersembunyi. – Asosasi, klasifikasi, prediksi

(12)

OLAP dan OLTP

• Data warehouse: OLAP

• Operasional DB: OLTP

OLTP (online transaction processing)

– Fungsi utama relational database

– Operasi harian: pembelian, inventory, registrasi dll

OLAP (online analytical processing)

– Fungsi utama data warehouse

(13)

OLTP vs OLAP

• Orientasi user

– Operator vs knowledge worker

• Isi sistem

– current, detail vs historical, konsolidasi

• Rancangan:

– ER+Aplikasi vs Star + subject

• View

– current, local vs , integrated

• Model akses

(14)

OLTP vs OLAP

OLTP OLAP

users clerk, IT professional knowledge worker

fungsi harian pengambilan keputusan

DB design ER+applikasi subject-oriented

data current, up-to-date detailed, flat relational isolated

historical,

summarized, multidimensional integrated, consolidated

penggunaan repetitive (sama berulang2) ad-hoc (tergantung situasi)

Model akses read/write

index/hash berdasarkan prim. key

banyak scans (ambil seluruh data)

satuan pekerjaan pendek, transaksi sederhana complex query

# records accessed Ratus sd ribuan Jutaan sd Milyar

#users ribuan ratusan

(15)

Mengapa memisahkan

data warehouse dengan database

operasional?

(16)

Mengapa Memisahkan

Data Warehouse dengan DB OLTP

• Kinerja harus yang tinggi untuk

kedua sistem

– DBMS  dirancang untuk OLTP: indexing, concurrency, recovery

– Warehouse  dirancang untuk OLAP query kompleks, view multi dimensi, konsolidasi

(17)

Mengapa memisahkan

Dw dan DB OLTP (lanj)

• Perbedaan fungsi dan data

– Decision support system membutuhkan data historis yang tidak ada di DBMS

– Konsolidasi data (agregasi dan rangkuman)

– Kualitas data (masalah konsistensi, format)

• Saat ini banyak sistem yang melakukan

OLAP pada DB biasa.

(18)

Implementasi

• Heterogen DBMS: query driven

– Buat pembungkus/mediator di atas database

– Query diterjemahkan menjadi query yang mengakses DBMS yang terkait

– Filter informasi yang kompleks – Lambat

• Data warehouse: update-driven

– Informasi dari database yang heterogen telah digabung.

(19)

Pemodelan:

Data warehouse vs DB OLTP

• DB OLTP

 Model Entitas Relationship (ER)

• Data warehouse

(20)

Multi-Dimensi Model

• Dimensi menjadi faktor yang

paling penting.

• Data dilihat dalam bentuk data

cube

(21)

Contoh Datacube

Tot penjualan tahunan TV Di U.S.A. Waktu Prod uk N ea ga ra sum sum TV VCRPC 1Qtr 2Qtr 3Qtr 4Qtr U.S.A Canada Mexico sum

(22)

Data Multidimensi

P ro du k Wila yah

Dimensi: Produk, Lokasi, Waktu Jalur rangkuman:

Industri Wilayah Tahun Kategori Negara Quarter

Produk Kota Bulan Minggu Kantor Hari

(23)

Data Cube

• Satu data cube, misalnya penjualan dapat dilihat dari berbagai dimensi:

– Tabel dimensi: misalnya, barang

(nama_barang, merk, tipe), waktu (hari, minggu, bulan, tahun)

– Tabel measures: uang yang terjual, jumlah barang yang terjual

(24)

Operator OLAP

• Rollup  rangkum

• Drilldown  kebalikan rollup

• Slice and Dice  ambil dimensi yang

diinginkan

(25)
(26)
(27)
(28)
(29)

Model Konseptual Data Warehouse

• Star schema: tabel fakta dihubungkan dengan tabel dimensi

• Snowflake: perbaikan star schema, hirarki dimensi di normalisasi

• Fact constellations: multiple tabel fakta berbagi tabel dimensi

(30)

Contoh Star Schema

time_key day day_of_the_week month quarter year time location_key street city state_or_province country location Sales Fact Table

time_key item_key branch_key location_key units_sold dollars_sold avg_sales item_key item_name brand type supplier_type item branch_key branch_name branch_type branch

(31)

Contoh Snowflake Schema

time_key day day_of_the_week month quarter year time location_key street city_key location Sales Fact Table

time_key item_key branch_key location_key units_sold dollars_sold avg_sales item_key item_name brand type supplier_key item branch_key branch_name branch_type branch supplier_key supplier_type supplier city_key city city

(32)

Fact constellations

time_key day day_of_the_week month quarter year time location_key street city province_or_state country location Sales Fact Table

time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type item branch_key branch_name branch_type branch

Shipping Fact Table time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper_key shipper

(33)

Hirarki Konsep: Dimension (lokasi)

Jabar Sumatera Selatan

Musi Palembang Kab Subang Kota Bandung x mm zz ... ... ... ... ... ... all propinsi Desa Kab/kota yy Sukawarna Kecamatan all

(34)
(35)

Star-Net Query

Shipping Method AIR-EXPRESS TRUCK ORDER Customer Orders CONTRACTS Customer Product PRODUCT GROUP PRODUCT LINE PRODUCT ITEM SALES PERSON DISTRICT DIVISION CITY COUNTRY REGION DAILY QTRLY ANNUALY Time

(36)

Arsitektur Datawarehouse

• 4 sudut pandang dalam perancangan datawarehouse

Data source view

• Informasi yang dikelola sistem operasional (db biasa, OLTP)

Top-down view

• Informasi yang relevan untuk datawarehouse

Data warehouse view

• Tabel fakta dan dimensi

Business query view

(37)

Proses Perancangan DW

– Pilih proses bisnis yang akan dimodelkan, contoh: pesanan, tagihan dsb.

– Pilih data terkecil pada proses bisnis tersebut. Misal: record transaksi

– Pilih dimensi untuk tabel fakta

(38)

DW: Multi Tiered

Data Warehouse Extract Transform Load Refresh Analisis Query Reports Data mining Monitor & Integrator Metadata Serve Data Marts Operational DB Sumber lain OLAP Server

(39)

Model DW

• Enterprise warehouse

– Mengumpulkan semua informasi tentang subyek yang ada di organisasi

• Data Mart

– Subset untuk grup yang spesifik (misalnya marketing, keuangan)

• Virtual warehouse

– View dari operasional DB

(40)

Arsitektur OLAP server

• Relational OLAP (ROLAP)

– Menggunakan relational atau extended-relational DBMS untuk menyimpan dan memanage warehouse dan OLAP

– Optimization DBMS, implementasi navigasi agregasi dan tools tambahan – Scalable.

• Multidimensional OLAP (MOLAP)

– Storage engine: sparse array-based

– Fast indexing, pre-computed summarized data

• Hybrid OLAP (HOLAP) (Microsoft SQLServer)

– Fleksibel. low level: relational, high-level: array

• Specialized SQL servers (Redbricks)

(41)

Referensi

Dokumen terkait

Matematika pada hakikatnya matematika merupakan suatu ilmu yang didasarkan atas akal (rasio) yang berhubungan benda-benda dalam pikiran yang abstrak atau matematika

Metode Fuzzy C-Means dengan model Fuzzy RFM (Recency, Frequency, Monetary) yang merupakan salah satu metode clustering dimana metode Fuzzy C-Means memberikan hasil

1. Bagaimana tingkat kepuasan pasien terhadap kualitas pelayanan jasa pada Rumah Sakit Umum Daerah Sanjiwani di Kabupaten Gianyar?.. Faktor-faktor pelayanan jasa manakah

Pada level provinsi IPG DKI Jakarta tertinggi diantara provinsi-provinsi lainnya, namun bila dilihat dari sisi kesenjangan jender yang paling rendah (gap antara

Santosa dan Rahayu (2005) Analisis PAD dan Faktor- Faktor yang Mempengaruhin ya dalam Upaya Pelaksanaan Otonomi Daerah di Kabupaten Kediri pengeluaran daerah, jumlah

Abdul Aziz Muslich selaku kepala sekolah SMAKH Sinar Harapan probolinggo dan Ibu Sri Nidayati., S.Pd, selaku kepala sekolah UPT SMPLB NEGERI Purworejo

Sel penolong Herper T cell juatru menjadi prodosen virus AIDS.. Krn T cell tak berfungsi----virus AIDS menyebar- --daya tahan tubuh makin menurun dan

 Siswa dalam kelompok kecil kemudian melakukan percobaan tentang sifat bunyi yang lain yaitu bunyi memantul dan bunyi menyerap, berdasarkan instruksi yang