TINJAUAN PUSTAKA Praproses Data - Data Warehouse dan Aplikasi OLAP Data Akademik Ilmu Komputer

Praproses data merupakan proses yang harus dilakukan sebelum memasuki tahap pemrosesan membuat data warehouse. Data yang digunakan seringkali bersifat noisy (data tidak jelas atau rusak), inclomplete (data kekurangan nilai atributnya atau hanya berisi data agregasi), dan

inconsistent (data tidak konsisten). Berikut adalah tahapan praproses data menurut Han dan Kamber (2006) :

1 Pembersihan Data

Proses ini merupakan tahapan pembersihan data, yaitu mengisi data yang hilang, mengatasi data yang kotor dan rusak, mengidentifikasi atau membuang data pencilan, memperbaiki data yang tidak konsisten. Permasalahan data kotor dan cara membersihkannya yaitu :

 Nilai yang kosong (null)

Untuk mengisi nilai yang kosong dalam data dapat dilakukan dengan tidak menghiraukan data nilainya yang hilang, mengganti nilainya secara manual,

mengisi dengan konstanta “tidak diketahui” untuk data kategori dan

konstanta “0” untuk data numerik,

menggunakan nilai rataan dari atribut yang kosong, dan mengisinya dengan nilai rataan dari kelas yang sama.

PENDAHULUAN Latar Belakang

Saat ini persaingan antar Departemen di IPB semakin ketat. Setiap Departemen berlomba- lomba untuk memperbaiki kualitas dari mahasiswanya baik dalam nilai akademik maupun sikap. Dalam hal ini, Departemen berusaha meningkatkan jumlah lulusan yang terbaik baik dari segi kuantitas maupun kualitas. Kualitas mahasiswa dapat dilihat dari kondisi akademik mahasiswa tersebut selama menempuh kuliah, yaitu melalui nilai tiap mata kuliah yang diambilnya. Semakin tinggi nilai yang diperoleh maka predikat kelulusan juga akan semakin bagus.

Informasi tentang nilai mata kuliah dan perkembangan nilai indeks prestasi pada mahasiswa diperlukan Bagian Akademik Ilmu Komputer untuk meningkatkan mutu pengajaran di mata kuliah tersebut. Proses analisis data nilai akademik masih dilakukan secara manual dengan melihat tabel data yang saling berhubungan. Hal itu membutuhkan waktu lama karena dari data tersebut masih dilakukan query manual pada tiap tabel data.

Untuk menganalisis dan mengetahui perkembangan IP maupun IPK tiap angkatan mahasiswa serta kecenderungan nilai mata kuliah tertentu yang diambil mahasiswa pada tiap tahunnya dapat dilakukan dengan membangun aplikasi OLAP yang diintegrasikan dengan data warehouse. Proses pembuatan data warehouse dilakukan dengan mengambil, mengumpulkan, mempersiapkan, menyimpan, dan menyediakan data untuk aplikasi yang bersifat query atau reporting. Saat ini telah tersedia beberapa teknologi data warehouse

yang menggunakan OLAP server sebagai tool

pembantu untuk analisis data, salah satu yang berbasis open source adalah Palo

(www.jedox.com). Diharapkan tool dan metode

OLAP membantu pengguna menganalisis data pada sebuah data warehouse dengan menyediakan berbagai tampilan data dan didukung dengan representasi data grafik yang dinamis.

Tujuan

Penelitian ini bertujuan untuk membangun sebuah data warehouse dan sebuah aplikasi OLAP berbasis web untuk data akademik Program Studi Ilmu Komputer IPB dengan menggunakan Palo 2.0 sebagai OLAP server.

Ruang Lingkup

Ruang lingkup penelitian dibatasi pada pembuatan data warehouse dan aplikasi OLAP berbasis web. Tahapan yang akan dilakukan meliputi proses persiapan data, pembersihan data, integrasi data dan transformasi data, dilanjutkan dengan implementasi operasi OLAP. Data yang digunakan adalah data akademik Program Studi Ilmu Komputer IPB tahun masuk 2001 sampai 2004 (Passing Out).

Manfaat

Penelitian ini diharapkan dapat memberikan manfaat bagi pihak-pihak terkait di Departemen Ilmu Komputer dalam memberikan informasi konklusif, cepat, dan menarik. Selain itu juga dapat mempermudah analisis data dan membantu dalam proses pengambilan keputusan.

TINJAUAN PUSTAKA Praproses Data

inconsistent (data tidak konsisten). Berikut adalah tahapan praproses data menurut Han dan Kamber (2006) :

1 Pembersihan Data

 Nilai yang kosong (null)

Untuk mengisi nilai yang kosong dalam data dapat dilakukan dengan tidak menghiraukan data nilainya yang hilang, mengganti nilainya secara manual,

mengisi dengan konstanta “tidak diketahui” untuk data kategori dan

konstanta “0” untuk data numerik,

menggunakan nilai rataan dari atribut yang kosong, dan mengisinya dengan nilai rataan dari kelas yang sama.

 Nilai yang mengandung noise

Data dengan nilai yang mengandung

noise dapat diganti menggunakan nilai hasil perhitungan dengan teknik binning

(melakukan pengisian dengan nilai sekitar), regresi, atau dengan cara

clustering.

 Data tidak konsisten

Data tidak konsisten dapat diperbaiki secara manual dengan menyeragamkan data.

2 Integrasi data

Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data untuk menjadi satu kesatuan data yang koheren (Han & Kamber 2006). Menurut Kantardzic (2003), integrasi data merupakan proses mengambil data operasional dari satu sumber atau lebih dan memetakannya field

demi field ke dalam struktur data yang baru pada data warehouse.

Dalam proses mengintegrasikan data dari berbagai sumber terdapat beberapa masalah yang dihadapi, yaitu redudansi (terdapat lebih dari satu tuple untuk satu data unik), dan duplikasi suatu data.

3 Transformasi data

Transformasi data yaitu proses pengubahan data menjadi bentuk yang tepat. Proses ini dilakukan agar kondisi data tetap konsisten dan dapat digunakan untuk proses selanjutnya (Han & Kamber 2006).

Menurut Han dan Kamber (2006), tranformasi data mencakup hal-hal berikut :

 Smoothing

Hal yang berhubungan dengan noise

pada data. Beberapa teknik yang dilakukan termasuk binning, regresi, dan

clustering.

 Agregasi

Operasi agregat atau peringkasan yang diterapkan pada data.

 Generalisasi data

Penggantian data berlevel rendah dengan data berlevel tinggi menggunakan konsep hirarki.

 Normalisasi

Pembuatan skala atribut data dengan

range nilai yang kecil.

 Konstruksi atribut

Pembuatan konstruksi atribut-atribut baru dan memasukkannya ke suatu set atribut.

4 Reduksi data

Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil.

Data Warehouse

Data warehouse dibangun untuk mengatasi masalah teknis dan bisnis, yang berkaitan dengan penggunaan data dan informasi untuk mengambil keputusan. Secara rinci dijelaskan oleh Han dan Kamber (2006) bahwa data warehouse mempunyai empat karateristik yaitu:

 Berorientasi subjek, terorganisasi pada subjek utama sesuai topik bisnis atau berdasarkan subjek dari organisasi.

 Terintegrasi, data dibangun dengan mengintegrasikan berbagai sumber data.

 Time-variant, dimensi waktu secara eksplisit termasuk dalam data, jadi model dan perubahannya dapat diketahui setiap saat.

 Non-volatile, data terpisah dari basis data operasional sehingga hanya memerlukan pemuatan dan akses data. Data tidak dapat berubah atau tetap.

Model Data Multidimensi

Model data multidimensi terdiri dari satu atau lebih tabel dimensi dan tabel fakta. Dimensi adalah perspektif atau entitas yang digunakan sebagai tempat menyimpan beberapa

record yang saling berhubungan. Sedangkan fakta adalah suatu pengukuran data numerik dan data historis yang terdiri dari facts, measures

dan keys dari tabel dimensi yang bersangkutan (Han & Kamber 2006).

Model tersebut dapat menampilkan data dalam bentuk kubus yang merupakan inti dari model ini dan dapat digambarkan dalam bentuk skema bintang, skema snowflake, dan skema galaksi (Han & Kamber 2006).

Skema galaksi merupakan kumpulan dari skema bintang. Skema ini terdiri dari berbagai tabel fakta yang berbagi beberapa tabel dimensi, sehingga membentuk seperti galaksi bintang. Bentuk skema galaksi dapat dilihat pada Gambar 1. Keuntungan menggunakan skema ini adalah menghemat memory dan mengurangi kesalahan yang mungkin terjadi.

Operasi-operasi pada Online Analytical Processing (OLAP)

Online analitycal Processing (OLAP) terdiri dari seperangkat tool untuk membantu proses

Dalam dokumen Data Warehouse dan Aplikasi OLAP Data Akademik Ilmu Komputer Berbasis Web Menggunakan Palo 2.0 (Halaman 37-40)