• Tidak ada hasil yang ditemukan

BAB II LANDASAN TEORI

2.1. Gudang Data

Gudang data adalah sekumpulan data yang berorientasi pada subyek, terintegrasi, memiliki rentang waktu, dan tidak mudah berubah untuk mendukung proses pembuatan keputusan manajerial (Connolly dkk, 2005). Gudang data mengintegrasikan data yang telah disimpan dalam periode waktu tertentu dan sering digunakan untuk menambah informasi. Menurut Inmon (1992) gudang data didefinisikan sebagai sekumpulan data yang terintegrasi, basis data berorientasi subyek yang didesain untuk mendukung fungsi sistem pengambilan keputusan, dimana setiap unit dari data adalah non-volatile dan relevan untuk waktu tertentu (Connolly dkk, 2008). Gudang data lebih besar dari beberapa jenis basis data, ukurannya mencapai gigabyte bahkan sampai dengan terabyte.

Secara fisik gudang data memisahkan operasional dengan lingkungan pendukung keputusan. Tujuannya adalah untuk mendirikan sebuah tempat penyimpanan data yang membuat data operasional dapat diakses. Gudang data juga melakukan transformasi dari data operasional ke dalam bentuk relasional, akan tetapi tidak seluruh data, yang ditransformasikan hanya data yang dibutuhkan untuk pengambilan keputusan saja.

8 Keuntungan dari gudang data adalah sebagai berikut (Connolly dkk, 2008):

a. Meningkatkan produktifitas pengetahuan para pekerja.

b. Mendukung seluruh data yang diperlukan oleh pengambil keputusan. c. Menyediakan data yang siap diakses untuk data yang penting.

d. Melindungi operasi basis data dari proses ad hoc.

e. Menyediakan ringkasan informasi untuk level tingkat tinggi.

f. Menyediakan kemampuan untuk penelusuran informasi lebih dalam. Hasil yang dapat diperoleh dari gudang data adalah sebagai berikut: a. Meningkatkan pengetahuan bisnis.

b. Mampu melakukan persaingan bisnis bahkan menjadi pemimpin bisnis.

c. Mempertinggi service dan kepuasan pelanggan. d. Memberikan fasilitas pembuatan keputusan. e. Membantu mempersingkat proses bisnis.

Ada 2 asumsi yang dibuat terhadap gudang data yaitu (Connolly dkk, 2008):

a. Gudang data secara fisik terpisah dari seluruh sistem operasional. b. Gudang data menggabungkan data dan data transaksi untuk

manajemen dan memisahkan mereka dari yang digunakan untuk transaksi on-line.

9

2.1.1.Komponen Gudang Data

Ada banyak komponen yang terdapat dalam gudang data, diantaranya (Connolly dkk, 2008):

1. Penyimpanan data

Penyimpanan data operasional adalah komponen yang paling umum dalam gudang data. Setiap hari organisasi akan melakukan penyimpanan data operasional dimana data yang disimpan adalah tunggal untuk suatu aplikasi tertentu. Fungsi dari penyimpanan data operasional dalam gudang data adalah sebagai sumber aliran data mentah. Organisasi dalam penyimpanan data ini pada umumnya berorientasi subyek, dan berfokus pada pelanggan, produk, order, kebijakan hal lain diseputarnya. Penyimpanan data ini sering juga disebut sebagai gudang data secara fisik.

2. Data pasar (mart data)

Data pasar adalah bagian dari gudang data dimana hanya data yang relevan saja yang dipelihara. Data pasar sering dilihat sebagai cara untuk meningkatkan masukan ke dalam bidang dari gudang data dan membuat seluruh kesalahan menjadi kecil. Data pasarnya biasanya digunakan oleh firma untuk memperkecil biaya dan memperkecil skala.

10 3. Metadata

Metadata merupakan salah satu contoh dari gudang data secara logikal yang digunakan untuk memperoleh informasi dan mengakses data secara aktual. Metadata adalah data sederhana tentang data yaitu lebih memperhatikan informasi yang disimpan tentang gudang dari pada informasi yang disediakan oleh gudang.

4. Sistem pendukung keputusan dan sistem informasi eksekutif Keduanya bukanlah bagian dari gudang data akan tetapi aplikasi-aplikasinya digunakan untuk gudang data.

2.1.2.Karakteristik Gudang Data

Karakteristik utama dari gudang data dapat dilihat pada tabel 2.1 di bawah ini:

Tabel 2.1: Karakteristik Gudang Data (Connolly dkk, 2008)

Karakteristik Deskripsi

Subject Orientation Data diorganisir sesuai dengan kebutuhan user

Integrated Menghilangkan kerancuan dalam hal penamaan dan kekacauan informasi serta data harus “clean

Nonvolatile Data hanya dapat dibaca, tidak dapat diubah oleh user

11 Time-series Data dalam rangkaian waktu, bukan

hanya status saat ini

Summarized Data operasional dikumpulkan (diringkas), untuk mendukung keputusan Larger Memelihara data dari waktu ke waktu

selama diperlukan Not Normalized Data dapat redundant

Metadata Data mengenai data untuk user dan personil gudang data

Input Data operasional ditambah data eksternal yang dibutuhkan

2.1.3.Metadata

Metadata adalah data mengenai data. Ini adalah informasi tentang gudang data bukan informasi yang disediakan oleh gudang. Metadata menghasilkan 2 hal essensial yaitu staf dan user dari gudang data. Setiap grup membutuhkan informasi yang berbeda.

Untuk staf gudang data, metadata mengandung (Connolly dkk, 2008):

a. Sebuah direktori tentang apakah isi dari gudang data. Direktori menginformasikan dimana data disimpan. Ini adalah sebuah index yang digunakan ketika sebuah query diajukan untuk menemukan informasi yang benar.

12 b. Sebuah petunjuk untuk memetakan data dari bentuk operasional

ke bentuk gudang. Ketika data dipindahkan ke gudang, data harus dalam format standar dan harus mengikuti ketentuan yang berlaku pada gudang yaitu harus bersih. Petunjuk harus menyediakan instruksi bagaimana setiap kelompok data ditransformasikan sehingga menjadi bentuk yang benar.

c. Aturan yang digunakan untuk membuat ringkasan. Bagi pengguna gudang data, metadata mengandung: 1. Istilah bisnis yang digunakan untuk menggambarkan data. 2. Nama-nama teknis yang sesuai dengan istilah bisnis yang

dapat digunakan untuk akses data.

3. Sumber data, aturan yang digunakan untuk mengambil data dan kapan data dibangun.

Secara konseptual, metadata dikelompokkan dalam 3 komponen, dapat dilihat pada tabel 2.2:

Tabel 2.2: Komponen Metadata

Komponen Isi Pengguna

Direktori Teknis Informasi tentang data

Data warehouse administrator

Direktori Bisnis Perspektif pengguna terhadap data

13 Petunjuk

Informasi

Akses ke direktori bisnis dan gudang data

End user

2.1.4.Format Data

Konsep normalisasi data dalam sistem transaksi, mempunyai popularitas yang panjang dalam database relational, namun tidak dapat dipakai dalam gudang data. Dalam sistem transaksi perhatian utama adalah untuk mengeliminasi redundansi. Prinsipnya, space penyimpanan itu mahal dan tidak seharusnya diboroskan.

Filosofi dalam gudang data adalah mengatur data sehingga mudah digunakan dan mudah diperoleh kembali dengan cepat. Redundansi sangat dibenarkan.

2.1.5.Arsitektur Gudang Data

Banyak sekali arsitektur gudang data yang dikemukakan, akan tetapi pada umumnya memiliki bentuk seperti pada gambar 2.1 (Ponniah, 2001) di bawah ini:

14

Gambar 2.1: Arsitektur Gudang Data

Setiap hari organisasi melakukan kegiatan dan melakukan perubahan terhadap basis data operasional. Data dari basis data operasional dan sumber data eksternal lainnya disimpulkan dengan menggunakan gateway atau standar eksternal penghubung yang lain yang mendukung DBMS seperti Open Database Connectivity (ODBC). ODBC adalah program aplikasi yang menghubungkan antara program client untuk menghasilkan pernyataan SQL agar dapat dilakukan eksekusi oleh server.

Ada 3 jenis gudang data yaitu:

1. Gudang data virtual: membiarkan pemakai untuk melakukan akses secara langsung ke dalam data operasional. Disini gudang data bersifat virtual, tidak real. Gudang data virtual biasanya

15 digunakan untuk memperkecil biaya operasional dan biasanya untuk mengetahui data apa yang sebenarnya dicari oleh pemakai. 2. Gudang data terpusat adalah sebuah penyimpanan fisik basis data

tunggal yang berisi seluruh data untuk suatu area tertentu, departemen atau divisi. Gudang data terpusat ini biasanya dipilih jika ada data yang dibutuhkan secara umum dan ada sejumlah pemakai yang telah siap terhubung melalui jaringan komputer. Gudang data ini real yang berarti data yang disimpan dalam gudang data ada secara fisik dan diakses dari suatu tempat dan harus selalu dipelihara.

3. Gudang data terdistribusi. Sesuai dengan namanya, komponen-komponen dari gudang data terdistribusi melalui sejumlah penyimpanan fisik basis data.

2.1.6.Langkah Pembuatan Gudang Data

1. Membaca data legacy

Memperhatikan bagian-bagian data yang perlu untuk dibersihkan.

2. Memindahkan data yang masih berbentuk file excel ke server gudang data

Membuat standarisasi format dan copy-kan data dari sumber sekaligus data dibuat bersih (clean).

16 Tabel fakta dan tabel dimensi disusun menurut kebutuhan subyek.

2.1.7.Data Staging

Data staging merupakan buffer untuk mengintegrasikan data. Dengan buffer ini proses ETL pada gudang data akan cepat. Hal lain yang menjadikan data staging sebagai solusi yang sangat baik adalah karena proses di memori (RAM) tentunya sangat terbatas dan ujung-ujungnya akan mencari space di hard drive untuk paging/caching. Dengan batasan seperti itu, akhirnya lama kelamaan proses di memori akan penuh terus dan malah menjadi bottleneck di ETL kita. Oleh karena itu apabila terjadi kondisi yang akan sangat membebani memori, kita menggunakan strategi data staging.

2.1.8.Implementasi Gudang Data

Ada banyak cara untuk membuat dan memelihara sebuah gudang data yang besar. Basis data dengan skema yang baik harus didesain agar mudah melakukan integrasi dengan sekumpulan data yang sumbernya terpisah. Permasalahan yang terjadi pada saat membuat gudang data adalah masalah “integrasi semantik”. Bila

sumber data berasal dari sumber yang berbeda tentunya semantiknya berbeda pula. Gudang data harus dapat melakukan proses pembersihan terhadap data. Data dengan maksud yang sama

17 seharusnya dipandang sama. Perbedaan-perbedaan harus dihilangkan dalam gudang data. Hal yang penting dalam gudang data adalah bagaimana memelihara data itu sendiri dalam gudang data. Sistem yang akan dilakukan adalah dengan menggunakan sistem katalog. Informasi tentang data yang disimpan berada pada sistem ini. Jadi gudang data harus dihubungkan dengan sistem katalog dan hal ini biasanya disimpan dalam basis data yang terpisah yang dikenal dengan nama metadata repository (data tentang gudang). Seperti yang telah dikemukakan sebelumnya, yang lebih diperhatikan disini adalah data tentang gudang data dan bukan isi dari gudang data.

Gudang data inilah kemudian dimanfaatkan oleh bermacam macam peralatan seperti termasuk di dalamnya OLAP, algoritma data mining, peralatan untuk visualisasi informasi, paket statistik, dan penghasil laporan. Denis Kozar (1997), wakil pimpinan dari Enterprise Information Architecture dari Chase Manhattan Bank

mengemukakan „tujuh kesalahan fatal‟ dalam menerapkan gudang data yaitu:

1. Pada saat membangun gudang data, data akan datang.

Kesalahan yang sering kali terjadi adalah tidak merencanakan dengan baik gudang data. Pada saat membangun gudang data, seharusnya dipikirkan bagaimana melakukan desain, membangun dan memelihara gudang data itu. Gudang

18 data tidak dengan sendirinya dibangun dengan harapan akan ada orang yang memanfaatkannya.

2. Kesalahan dalam membuat kerangka arsitektur gudang data. Hal yang penting adalah bagaimana membangun kerangka arsitektur gudang data. Kerangka inilah yang merupakan blue print untuk membangun dan menggunakan berbagai komponen gudang data. Sehingga kesalahan pada pembuatan kerangka ini akan berakibat sangat fatal.

3. Ketidakmampuan menyusun asumsi.

Asumsi dan data potensial harus dimasukkan ke dalam kerangka gudang data. Asumsi yang harus dipersiapkan antara lain:

a. Berapa banyak data yang akan dimasukkan ke dalam gudang data?

b. Berapa sering data harus diperbaharui? c. Dimanakah gudang data akan diterapkan?

Jawaban tepat atas pertanyaan di atas akan sangat membantu dalam pembuatan gudang data.

4. Kesalahan dalam menentukan peralatan yang akan digunakan untuk menyelesaikan tugas. Dalam memilih peralatan untuk membangun gudang data haruslah tepat. Peralatan gudang data tidaklah sama dengan peralatan yang digunakan untuk membangun sistem operasional.

19 5. Kesalahan dalam siklus hidup gudang data. Siklus hidup gudang

data berbeda dengan System Development Life Cycle (SDLC). Walaupun memiliki kesamaan, akan tetapi ada perbedaan mendasar yaitu bahwa siklus hidup gudang data tidak pernah berakhir, selalu berlanjut sehingga perlu selalu diperbaharui. Hal ini haruslah perlu disadari.

6. Cenderung membatalkan data yang mengandung perbedaan. Perlu dilakukan penyesuaian terhadap data yang berbeda dan bukan menghilangkan data.

7. Menggagalkan dokumen yang ada kesalahan.

Tujuh kesalahan di atas harus dihindari selama proses pembuatan gudang data.

Dokumen terkait