Gudang Data - Pemanfaatan gudang data untuk keperluan Online Analytical Processing (OLAP) dan p

2.1.1 Definisi Gudang Data

Gudang Data merupakan koleksi data yang mempunyai sifat berorientasi subjek, terintegrasi, rentang waktu dan tidak mengalami perubahan dari koleksi data dan mendukung proses pengambilan keputusan [1].

Menurut Connolly dan Begg, gudang data adalah koleksi data yang mempunyai sifat berorientasi pada subjek, terintegrasi, memiliki rentang waktu, dan koleksi datanya tidak mengalami perubahan dalam mendukung pengambilan keputusan ditingkatan manajerial.

Tujuan utama gudang data untuk mengintegrasi data yang dimiliki perusahaan ke dalam sebuah repository yang akan memudahkan pengguna untuk menjalankan query, menghasilkan laporan, dan menampilkan analisa sehingga memudahkan perusahaan dalam mengambil keputusan.

2.1.2 Komponen Gudang Data

Ada banyak komponen yang terdapat dalam gudang data[2], diantaranya :

1. Penyimpan data

Penyimpan data operasional adalah komponen yang paling umum dalam gudang data. Setiap hari organisasi akan melakukan

penyimpanan data operasional dimana data yang disimpan adalah tunggal untuk suatu aplikasi tertentu. Fungsi dari penyimpanan data operasional dalam gudang data adalah sebagai sumber aliran data mentah. Organisasi dalam penyimpanan data ini pada umumnya berorientasi subyek, dan berfokus pada pelanggan, produk, order, kebijakan hal lain diseputarnya. Penyimpanan data ini sering juga disebut sebagai gudang data secara fisik.

2. Data Mart

Data Mart adalah bagian dari gudang datadimana hanya data yang relevan saja yang dipelihara. Data Mart sering dilihat sebagai cara untuk meningkatkan masukan ke dalam bidang dari gudang data dan membuat seluruh kesalahan menjadi kecil. Data Mart biasanya digunakan oleh firma untuk memperkecil biaya dan memperkecil skala.

3. Metadata

Metadata merupakan salah satu contoh dari gudang data secara logikal. Yang digunakan untuk memperoleh informasi dan mengakses data secara aktual. Sistem legacy pada umumnya tidak menyimpan

record tentang karakteristik dari data, seperti berapa item data yang ada, dimana lokasi data, darimana data itu berasal, atau bagaimana data dapat diakses. Metadata adalah data sederhana tentang data yaitu

lebih memperhatikan informasi yang disimpan tentang gudang dari pada informasi yang disediakan oleh gudang.

4. Sistem pendukung keputusan dan sistem informasi eksekutif. Keduanya bukanlah bagian dari gudang data akan tetapi aplikasi - aplikasinya digunakan untuk gudang data.

2.1.3 Karakteristik Gudang Data

Karakteristik gudang data[2]

1. Subject Oriented (Berorientasi subject)

Gudang Data berorientasi subject artinya Gudang Data didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu. Gudang Data diorganisasikan disekitar subjek-subjek utama dari perusahaan(customers, products dan sales) dan tidak diorganisasikan pada area-area aplikasi utama (customer invoicing,stock control dan

sales product). Hal ini dikarenakan kebutuhan dari gudang Data untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang berorientasi terhadap data. Jadi dengan kata lain, data yang disimpan adalah berorientasi kepada subjek bukan terhadap proses.

2. Integrated (Terintegrasi)

Gudang Data dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data

tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep gudang data itu sendiri. Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data. Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula dibuat oleh pengembang yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.

3. Time-variant (Rentang Waktu)

Seluruh data pada gudang data dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu dapata menggunakan variasi/perbedaan waktu yang disajikan dalam gudang data baik implicit maupun explicit. Secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut.

4. Non-Volatile

Karakteristik keempat dari gudang data adalah non-volatile, maksudnya data pada gudang data tidak di-update secara real time

tetapi di refresh dari sistem operasional secara reguler. Data yang baru selalu ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara terus- menerus menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya. Berbeda dengan database operasional yang dapat melakukan update, insert dan delete terhadap data yang mengubah isi dari database sedangkan pada gudang data hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses gudang data seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data).

2.1.4 Arsitektur Gudang Data

Sumber data untuk mendukung pembuatan gudang data berupa data transaksi sehari-hari. Data tersebut dapat disimpan dalam berbagai media seperti

file excel , OLTP, dan sebagainya. Sebelum data di pindahkan ke gudang data, terlebih dahulu dilakukan proses ETL (Extract, Transform, Load). Setelah gudang data terbentuk dilanjutkan dengan proses OLAP dan Data Mining. OLAP menyediakan data secara multidimensi sehingga memudahkan pengguna dalam proses analisa dan pelaporan. Data mining menggali informasi berharga lainnya dari gudang data yang telah terbentuk.

2.1.5 Manfaat Gudang Data

Berikut ini manfaat yang bisa dilakukan dengan adanya gudang data, yaitu [4]:

a. Pembuatan laporan merupakan salah satu kegunaan gudang data yang paling umum dilakukan. Dengan menggunakan query sederhana didapatkan laporan perhari, perbulan, pertahun atau jangka waktu kapanpun yang diinginkan

b. On-Line Analytical Processing (OLAP).

Dengan adanya gudang data, semua informasi baik detail maupun hasil summary yang dibutuhkan dalam proses analisa mudah didapat. OLAP mendayagunakan konsep data multi dimensi dan memungkinkan para pemakai menganalisa data sampai mendetail, tanpa mengetikkan satupun perintah SQL. Hal ini dimungkinkan karena pada konsep multi

dimensi, maka data yang berupa fakta yang sama bisa dilihat dengan menggunakan fungsi yang berbeda. Fasilitas lain yang ada pada sofware OLAP adalah fasilitas rool-up dan drill- down. Drill-down adalah kemampuan untuk melihat detail dari suatu informasi dan roll- up adalah kebalikannya

c. Penambangan Data (Data mining)

Data mining merupakan proses untuk menggali (mining) pengetahuan dan informasi baru dari data yang berjumlah banyak pada gudang data, dengan menggunakan kecerdasan buatan (Artificial Intellegence), statistik dan matematika. Data mining merupakan teknologi yang diharapkan dapat menjembatani komunikasi antara data dan pemakainya.

d. Proses informasi executive

Gudang datadapat membuat ringkasan informasi yang penting dengan tujuan membuat keputusan bisnis, tanpa harus menjelajahi keseluruhan data. Dengan menggunakan gudang datasegala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara lengkap, sehingga mempermudah proses pengambilan keputusan. Informasi dan data pada laporan gudang datamenjadi target informative bagi pengguna.

2.1.6 Langkah Pembuatan Gudang data

Adapun langkah-langkah dalam pembuatan gudang dataantara lain: 1. Membaca data legacy

Memperhatikan bagian-bagian data yang perlu untuk dibersihkan 2. Memindahkan data dari sumber ke server gudang data

Membuat standarisasi format dan copy-kan data dari sumber sekaligus data dibuat bersih (clean).

3. Memecah gudang data dalam tabel fakta dan tabel dimensi.

Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek

2.1.7 Online Analytical Processing (OLAP)

Online Analytical Processing (OLAP) adalah sintetis dinamis, analisis dan konsolidasi dari sekumpulan besar data multi-dimensi [3]. OLAP memungkinkan pengguna untuk mendapatkan pengertian dan pengetahuan yang mendalam mengenai berbagai aspek dari data perusahaan dengan akses yang cepat, konsisten, interaktif melalui kemungkinan variasi view

dari data. Penjelasan mengenai perbedaan OLTP dan OLAP tampak pada tabel 2.1 [7].

Tabel 2.1 Perbedaan OLTP dan OLAP

Fitur OLTP OLAP

Karakteristik Proses operasional Proses Informasi

Fungsi Menangani transaksi sehari-hari

Kebutuhan informasi jangka panjang, pendukung keputusan Desain Database Berorientasi pada aplikasi Star/Snowflake Schema

Data Data up-to-date Data histori

Unit Kerja Transaksi sederhana Complex query

2.1.8 Extract, Transform, Load (ETL)

ETL merupakan singkatan dari extract, transform, load yang berfungsi untuk melakukan ekstraksi data dari data source, dan kemudian melakukan transformasi data, sebelum mengirimkannya ke data store

tujuan. Extract adalah suatu pengambilan atau perpindahan data yang dilakukan dari suatu tempat data awal ke tempat data sementara. Kemudian transform adalah suatu perubahan bentuk yang dilakukan untuk memenuhi kebutuhan. Sedangkan load adalah suatu pengiriman atau perpindahan data dari tempat data sementara atau variabel tertentu ke tempat penampungan akhir sebelum data tersebut ditampilkan atau diolah kembali.

Hal ini dijelaskan oleh Kimball yang menyatakan bahwa Extract Transform Load (ETL) adalah kumpulan dari proses dimana sumber data operasional disiapkan untuk dimasukan kedalam data warehouse. Proses ini terdiri dari proses ekstraksi (extracting) data operasional dari sumber aplikasi, mengubah bentuknya (transforming), mengeluarkan (loading)

dan membuat index dari data itu untuk menjamin kualitas dari data lalu menerbitkannya.

2.1.9 Dimensional modeling

2.1.9.1Tabel Fakta (Fact Table)

Tabel fakta merupakan tabel utama dalam model dimensional dimana ukuran dari performa suatu bisnis disimpan [7] . Fakta berisi nilai dari sebuah kejadian atau transaksi tertentu misalnya penyimpanan uang di bank, penjualan produk, pesanan, dan sebagainya. Tabel fakta umumnya mengandung angka dan data history yang terdiri dari foreign key yang merupakan primary key dari beberapa dimension table yang saling berhubungan. Tabel fakta sering disebut juga dengan major table.

2.1.9.2Tabel Dimensi

Tabel dimensi digunakan untuk menyempurnakan data yang ada pada tabel fakta atau menjelaskannya dengan lebih detil [7]. Datanya berupa karakter. Setiap tabel dimensi menyimpan baris dari data dengan informasi berupa karakter yang menjelaskan field yang berhubungan dengan tabel fakta dengan lebih detil.

Tabel dimensi lebih kecil dan memiliki baris yang sedikit dari tabel fakta, biasanya terdiri dari ratuan atau ribuan record. Tabel dimensi menyimpan hanya satu baris data untuk setiap item data, sedangkan tabel

fakta bisa memiliki banyak baris data untuk beberapa transaksi bagi item data yang sama.

2.1.9.3Cube, Dimension, Measure, Member

Teknologi OLAP menganut multi dimensional modeling, artinya dapat melihat analisis pengukuran dengan pandangan berbagai dimensi. Di dalam konsep ini perlu mengenal berbagai istilah yang berkaitan dengan OLAP [8]:

1. Cube adalah struktur multi dimensional konseptual, terdiri dari dimension dan measure dan biasanya mencakup pandangan bisnis tertentu.

2. Dimension adalah struktur view / sudut pandang yang menyusun cube. Dimensi dapat terdiri dari berbagai level.

3. Measure : nilai pengukuran

4. Member adalah isi / anggota dari suatu dimension / measure tertentu

2.1.9.4Skema Bintang (Star Schema)

Star schema berpusat pada satu tabel fakta yang dikelilingi oleh satu atau beberapa tabel dimensi sebagai cabangnya sehingga kelihatan seperti bintang. Setiap percabangan berhenti pada satu tabel dimensi. Atau dengan kata lain tabel dimensi dengan skema ini semuanya berupa leaf (daun) dan tidak ada percabangan lain dapat dilihat pada Gambar 2.1 [9].

Gambar 2.1 Star Schema dari PHI-Minimart

2.1.9.5Surrogate key

Surrogate key adalah key / kolom data di tabel dimensi yang menjadi primary

key dari tabel tersebut. Nilai ini biasanya berupa nilai sekuensial dan tidak memiliki arti dari proses bisnis darimana sumber data berasal [10].

Dalam dokumen Pemanfaatan gudang data untuk keperluan Online Analytical Processing (OLAP) dan penambangan data : studi kasus PT. ASDP Indonesia Ferry (Persero) cabang Kupang. (Halaman 30-41)