DATA WAREHOUSE
Pengertian Data Warehouse
Sebuah tempat penyimpanan data yang lengkap dan konsisten yang berasal dari sumber-sumber yang berbeda dibuat untuk
penggunanya agar mereka dapat mengerti dan menggunakannya dalam konteks bisnis.
Pengertian Data Warehouse (cont’d)
Sebuah proses transformasi data ke dalam sebuah informasi dan membuat informasi ini dapat diakses oleh penggunanya tepat waktu untuk membuat perubahan-perubahan (strategi bisnis).
1. Berorientasi subjek, 2. Diintegrasikan,
3. Time-variant, 4. Nonvolatile,
Koleksi data untuk medukung proses pembuatan manajemen pengambilan keputusan.
[Bill Inmon]
Sean Kelly :
The data in the data warehouse is:
Separate
Available
Integrated
Time stamped
Subject oriented
Nonvolatile
Accessible
• Data warehouse adalah basis data yang menyimpan data sekarang dan data masa lalu yang berasal dari berbagai sistem operasional dan sumber yang lain (sumber eksternal) yang menjadi perhatian penting bagi manajemen dalam organisasi dan ditujukan
untuk keperluan analisis dan pelaporan manajemen dalam rangka pengambilan keputusan
• Data warehouse digunakan untuk mendukung pengambilan keputusan, bukan untuk
melaksanakan pemrosesan transaksi
• Data warehouse hanya berisi informasi-informasi yang relevan bagi kebutuhan pemakai yang dipakai untuk pengambilan keputusan
• Data Warehouse adalah Pusat
repositori informasi yang mampu
memberikan database berorientasi
subyek untuk informasi yang
bersifat historis yang mendukung
DSS (Decision Suport System)
dan EIS (Executive Information
System).
• Salinan dari transaksi data
yang terstruktur secara spesifik
pada query dan analisa.
Tujuan :
Meningkatkan kualitas dan akurasi
informasi bisnis danmengirimkan
informasi ke pemakai dalam
bentuk yang dimengerti dan dapat
diakses dengan mudah.
Perbedaan DW dan OLTP
OLTP Data Warehouse
Menangani data saat ini
Data bisa saja disimpan pada beberapa platform
Data diorganisasikan berdasarkan fungsi atau operasi seperti penjualan, produksi, dan pemrosesan pesanan Pemrosesan bersifat berulang
Untuk mendukung keputusan harian (operasional)
Melayani banyak pemakai operasional Berorientasi pada transaksi
Lebih cenderung menangani data masa lalu
Data disimpan dalam satu platform
Data diorganisasikan menutut subjek seperti pelkanggan atau produk
Pemrosesan sewaktu-waktu, tak terstruktur, dan bersifat heuristik Untuk mendukung keputusan yang
strategis
Untuk mendukung pemakai
manajerial yang berjumlah relatif sedikit
Sumber Data untuk DW
1. Data operasional dalam organisasi, misalnya basis data pelanggan dan produk, dan
2. Sumber eksternal yang diperoleh misalnya melalui Internet, basis data komersial, basis data pemasok atau pelanggan
• Berbagai data yang berasal dari sumber
digabungkan dan diproses lebih lanjut oleh manajer
data warehouse dan disimpan dalam basis data tersendiri.
• Selanjutnya, perangkat lunak seperti OLAP dan
data mining dapat digunakan oleh pemakai untuk mengakses data warehouse
4 Karakteristik Data Warehouse
•
Subject oriented
•
Integrated
•
Time variant
Subject Oriented
1. Data warehouse diorganisasikan dalam lingkup subjek, sebagai contoh: Penjualan, Produk, dan Pelanggan.
2. Berfokus ke dalam pemodelan dan analisis data untuk pihak-pihak pembuat keputusan.
3. Memisahkan data yang tidak berguna di dalam proses pendukung keputusan.
Subject Oriented (cont’d )
• Subjek
• Aplikasi
Integrated
1. Data warehouse dikonstruksikan dengan cara mengintegrasikan sejumlah sumber data yang berbeda.
2. Data preprocessing diaplikasikan untuk meyakinkan kekonsistensian data.
Integrated (cont’d)
Savings Same data different name Loans Different data Same name TrustData found here nowhere else
Credit card
Different keys same data
Integrated (cont’d)
Encoding Structures Measurement of attributes Multiple Sources Data Type Formatsappl appl appl appl appl appl appl appl appl appl appl appl A - m,f B - 1,0 C - x,y D - male, female A - pipeline - cm B - pipeline - in C - pipeline - feet D - pipeline - yds A - balance B - bal C - currbal D - balcurr
Integrated (cont’d)
Data WarehouseData perlu distandarkan :
Sales Inventori Transaksi Penjualan
Format Key Text Key Integer Key Yes/No Description Nama pelanggan
U.N.I.J.O.Y.O Nama pelanggan UNIPAHIT Nama pelanggan Universitas majapahit Unit Tinggi centimeter Tinggi meter Tinggi inch Encoding Sex Yes = Laki-laki No = Perempuan Sex L = laki-laki P = Perempuan Sex 1 = Laki-laki 0 = Perempuan
Integrated (cont’d)
Time-Variant
1. Menghasilkan informasi dari sudut pandang historical (misal: 5-10 tahun yang lalu).
Operasional :
– Data pada saat ini (current value)
Datawarehouse :
– Analisa data pada masa lampau
– Informasi pada saat ini
– Forecast untuk masa yang akan datang
Nonvolatile
1. Sekali data direkam maka data tidak bisa diupdate.
2. Data warehouse membutuhkan dua operasi pengaksesan data, yaitu:
a. Initial loading of data b. Akses data
Operasional :
Add, change, delete data pada sistem operasional secara real time setiap transaksi terjadi
Datawarehouse
Update ketika kita perlukan saja, bisa secara periodik
Data pada DW dikhususkan untuk query
dan analisa data
Prinsip Data Warehouse
Sumber Data Internal
Sumber Data Operasional 1 Sumber Data Operasional 2 Sumber Data Eksternal Manajer Data Warehouse Perangkat EIS Perangkat pelaporan Perangkat pengembangan aplikasi OLAP Data Mining Data Warehouse
Sifat Data Warehouse
• Multidimensional yang berarti bahwa terdapat banyak
lapisan kolom dan baris (Ini berbeda dengan tabel pada model relasional yang hanya berdimensi dua)
• Berdasarkan susunan data seperti itu, amatlah mudah untuk memperoleh jawaban atas pertanyaan seperti: “Berapakah jumlah produk 1 terjual di Jawa Tengah pada tahun n-3?” Jawa Tengah Jawa Barat Produk 2 Produk 3 Produk 1 Tahun n-4 Tahun n-3 Tahun n-2 Tahun n-1
Petunjuk Membangun DW
• Menentukan misi dan sasaran bisnis bagi pembentukan data warehouse
• Mengidentifikasi data dari basis data operasional dan sumber lain yang diperlukan bagi data warehouse
• Menentukan item-item data dalam perusahaan dengan melakukan standarisasi penamaan data dan maknanya • Merancang basis data untuk data warehouse
• Membangun kebijakan dalam mengarsipkan data lama
sehingga ruang penyimpanan tak menjadi terlalu besar dan agar pengambilan keputusan tidak menjadi terlalu lamban. • Menarik data produksi (operasional) dan meletakkan ke
Data Mart
• Bagian dari data warehouse yang mendukung kebutuhan pada tingkat departemen atau fungsi bisnis tertentu dalam perusahaan. Karakteristik yang membedakan data mart dan
data warehouse adalah sebagai berikut (Connolly, Begg, Strachan 1999).
– Data mart memfokuskan hanya pada kebutuhan-kebutuhan pemakai yang terkait dalam sebuah departemen atau fungsi bisnis.
– Data mart biasanya tidak mengandung data operasional yang rinci seperti pada data warehouse.
– Data mart hanya mengandung sedikit informasi dibandingkan dengan data warehouse. Data mart lebih mudah dipahami dan dinavigasi.
Data mart = subset of DW for
community users, e.g. accounting
department
Sometimes exist as Multidimensional
Database
Info mart = summarized data + report
for community users
DATAWAREHOUSE vs DATAMART
DATAWAREHOUSE
• Perusahaan, melingkupi semua proses
• Gabungan datamart
• Data didapat dari proses Staging
• Merepresentasikan data dari perusahaan atau
organisasi
• Diorganisasi dlm E-R Model
DATAMART
Departemen
Satu bisnis proses
Start-Join (fakta dan dimensi)
Teknologinya optimal untuk pengaksesan dan analisis data
Cocok untuk
merepresentasikan data departemen
•
Datawarehouse
= gabungan dari beberapa
datamart yang levelnya berada pada
perusahaan atau organisasi.
•
Datamart
= bagian dari datawarehouse
yang berada level departemen pada
perusahaan atau organisasi tersebut. Data
mart menangani sebuah business proses,
misalkan penjualan.
Data Warehousing Architecture
Monitoring & Administration
Metadata Repository Extract Transform Load Refresh Data Marts External Sources Operational dbs Serv e OLAP servers Analysis Query/ Reporting Data Mining
Three-Tier Architecture
Warehouse database server
– Almost always a relational DBMS; rarely flat files
OLAP servers
– Relational OLAP (ROLAP): extended relational DBMS that maps operations on multidimensional data to
standard relational operations.
– Multidimensional OLAP (MOLAP): special purpose server that directly implements multidimensional data and operations.
Clients
– Query and reporting tools.
– Analysis tools
Extract, Transform, Load (ETL) tools
DW databases & DBMS tools
Data marts
Meta data
DW administration & management
tools
Information delivery system
Data about data
Field description, business rules (e.g.
profit=? formula), log of file updates
Help users understand content &
Production Data data operasional persh.
Internal Data spreadsheets, dokumen, Profil
pelanggan, dan database departemen persh. Archived Data data operasional yang telah
disimpan
External Data data statistik, penelitian
dari agenci luar, market share competitor, indikator financial standar, dll
Data staging component
dari berbagai SO + eksternal data disimpan pd
DW yg hrs dirubah/disamakan formatnya
shg dpt disimpan u/ query & analisa
ada 3 komponen :
1. Ekstraksi data
2. Transformasi data,
3. Loading data (ETL)
Data Storage Component
Repository data warehouse terpisah dengan
repositori sistem operasional
Sistem Operasional
mendukung
“day-to-day operation” (OLTP)
Data warehouse
data histori yang besar untuk kebutuhan
analisa data.
KOMPONEN METADATA
Metadata
dalam
Data WareHouse
=
Kamus Data/ Data Katalog
dalam
DBMS
Metadata
– Informasi tentang logical struktur data
– Informasi file dan alamatnya
– Informasi index
– Dll
Intinya
– Meta data = data mengenai data pada data warehouse