Praproses data merupakan proses yang harus dilakukan sebelum memasuki tahap pemrosesan membuat data warehouse. Data yang digunakan seringkali bersifat noisy (data tidak jelas atau rusak), inclomplete (data kekurangan nilai atributnya atau hanya berisi data agregasi), dan
inconsistent (data tidak konsisten). Berikut adalah tahapan praproses data menurut Han dan Kamber (2006) :
1 Pembersihan Data
Proses ini merupakan tahapan pembersihan data, yaitu mengisi data yang hilang, mengatasi data yang kotor dan rusak, mengidentifikasi atau membuang data pencilan, memperbaiki data yang tidak konsisten. Permasalahan data kotor dan cara membersihkannya yaitu :
Nilai yang kosong (null)
Untuk mengisi nilai yang kosong dalam data dapat dilakukan dengan tidak menghiraukan data nilainya yang hilang, mengganti nilainya secara manual,
mengisi dengan konstanta “tidak diketahui” untuk data kategori dan
konstanta “0” untuk data numerik,
menggunakan nilai rataan dari atribut yang kosong, dan mengisinya dengan nilai rataan dari kelas yang sama.
PENDAHULUAN Latar Belakang
Saat ini persaingan antar Departemen di IPB semakin ketat. Setiap Departemen berlomba- lomba untuk memperbaiki kualitas dari mahasiswanya baik dalam nilai akademik maupun sikap. Dalam hal ini, Departemen berusaha meningkatkan jumlah lulusan yang terbaik baik dari segi kuantitas maupun kualitas. Kualitas mahasiswa dapat dilihat dari kondisi akademik mahasiswa tersebut selama menempuh kuliah, yaitu melalui nilai tiap mata kuliah yang diambilnya. Semakin tinggi nilai yang diperoleh maka predikat kelulusan juga akan semakin bagus.
Informasi tentang nilai mata kuliah dan perkembangan nilai indeks prestasi pada mahasiswa diperlukan Bagian Akademik Ilmu Komputer untuk meningkatkan mutu pengajaran di mata kuliah tersebut. Proses analisis data nilai akademik masih dilakukan secara manual dengan melihat tabel data yang saling berhubungan. Hal itu membutuhkan waktu lama karena dari data tersebut masih dilakukan query manual pada tiap tabel data.
Untuk menganalisis dan mengetahui perkembangan IP maupun IPK tiap angkatan mahasiswa serta kecenderungan nilai mata kuliah tertentu yang diambil mahasiswa pada tiap tahunnya dapat dilakukan dengan membangun aplikasi OLAP yang diintegrasikan dengan data warehouse. Proses pembuatan data warehouse dilakukan dengan mengambil, mengumpulkan, mempersiapkan, menyimpan, dan menyediakan data untuk aplikasi yang bersifat query atau reporting. Saat ini telah tersedia beberapa teknologi data warehouse
yang menggunakan OLAP server sebagai tool
pembantu untuk analisis data, salah satu yang berbasis open source adalah Palo
(www.jedox.com). Diharapkan tool dan metode
OLAP membantu pengguna menganalisis data pada sebuah data warehouse dengan menyediakan berbagai tampilan data dan didukung dengan representasi data grafik yang dinamis.
Tujuan
Penelitian ini bertujuan untuk membangun sebuah data warehouse dan sebuah aplikasi OLAP berbasis web untuk data akademik Program Studi Ilmu Komputer IPB dengan menggunakan Palo 2.0 sebagai OLAP server.
Ruang Lingkup
Ruang lingkup penelitian dibatasi pada pembuatan data warehouse dan aplikasi OLAP berbasis web. Tahapan yang akan dilakukan meliputi proses persiapan data, pembersihan data, integrasi data dan transformasi data, dilanjutkan dengan implementasi operasi OLAP. Data yang digunakan adalah data akademik Program Studi Ilmu Komputer IPB tahun masuk 2001 sampai 2004 (Passing Out).
Manfaat
Penelitian ini diharapkan dapat memberikan manfaat bagi pihak-pihak terkait di Departemen Ilmu Komputer dalam memberikan informasi konklusif, cepat, dan menarik. Selain itu juga dapat mempermudah analisis data dan membantu dalam proses pengambilan keputusan.
TINJAUAN PUSTAKA Praproses Data
Praproses data merupakan proses yang harus dilakukan sebelum memasuki tahap pemrosesan membuat data warehouse. Data yang digunakan seringkali bersifat noisy (data tidak jelas atau rusak), inclomplete (data kekurangan nilai atributnya atau hanya berisi data agregasi), dan
inconsistent (data tidak konsisten). Berikut adalah tahapan praproses data menurut Han dan Kamber (2006) :
1 Pembersihan Data
Proses ini merupakan tahapan pembersihan data, yaitu mengisi data yang hilang, mengatasi data yang kotor dan rusak, mengidentifikasi atau membuang data pencilan, memperbaiki data yang tidak konsisten. Permasalahan data kotor dan cara membersihkannya yaitu :
Nilai yang kosong (null)
Untuk mengisi nilai yang kosong dalam data dapat dilakukan dengan tidak menghiraukan data nilainya yang hilang, mengganti nilainya secara manual,
mengisi dengan konstanta “tidak diketahui” untuk data kategori dan
konstanta “0” untuk data numerik,
menggunakan nilai rataan dari atribut yang kosong, dan mengisinya dengan nilai rataan dari kelas yang sama.
Nilai yang mengandung noise
Data dengan nilai yang mengandung
noise dapat diganti menggunakan nilai hasil perhitungan dengan teknik binning
(melakukan pengisian dengan nilai sekitar), regresi, atau dengan cara
clustering.
Data tidak konsisten
Data tidak konsisten dapat diperbaiki secara manual dengan menyeragamkan data.
2 Integrasi data
Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data untuk menjadi satu kesatuan data yang koheren (Han & Kamber 2006). Menurut Kantardzic (2003), integrasi data merupakan proses mengambil data operasional dari satu sumber atau lebih dan memetakannya field
demi field ke dalam struktur data yang baru pada data warehouse.
Dalam proses mengintegrasikan data dari berbagai sumber terdapat beberapa masalah yang dihadapi, yaitu redudansi (terdapat lebih dari satu tuple untuk satu data unik), dan duplikasi suatu data.
3 Transformasi data
Transformasi data yaitu proses pengubahan data menjadi bentuk yang tepat. Proses ini dilakukan agar kondisi data tetap konsisten dan dapat digunakan untuk proses selanjutnya (Han & Kamber 2006).
Menurut Han dan Kamber (2006), tranformasi data mencakup hal-hal berikut :
Smoothing
Hal yang berhubungan dengan noise
pada data. Beberapa teknik yang dilakukan termasuk binning, regresi, dan
clustering.
Agregasi
Operasi agregat atau peringkasan yang diterapkan pada data.
Generalisasi data
Penggantian data berlevel rendah dengan data berlevel tinggi meng- gunakan konsep hirarki.
Normalisasi
Pembuatan skala atribut data dengan
range nilai yang kecil.
Konstruksi atribut
Pembuatan konstruksi atribut-atribut baru dan memasukkannya ke suatu set atribut.
4 Reduksi data
Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil.
Data Warehouse
Data warehouse dibangun untuk mengatasi masalah teknis dan bisnis, yang berkaitan dengan penggunaan data dan informasi untuk mengambil keputusan. Secara rinci dijelaskan oleh Han dan Kamber (2006) bahwa data warehouse mempunyai empat karateristik yaitu:
Berorientasi subjek, terorganisasi pada subjek utama sesuai topik bisnis atau berdasarkan subjek dari organisasi.
Terintegrasi, data dibangun dengan mengintegrasikan berbagai sumber data.
Time-variant, dimensi waktu secara eksplisit termasuk dalam data, jadi model dan perubahannya dapat diketahui setiap saat.
Non-volatile, data terpisah dari basis data operasional sehingga hanya memerlukan pemuatan dan akses data. Data tidak dapat berubah atau tetap.
Model Data Multidimensi
Model data multidimensi terdiri dari satu atau lebih tabel dimensi dan tabel fakta. Dimensi adalah perspektif atau entitas yang digunakan sebagai tempat menyimpan beberapa
record yang saling berhubungan. Sedangkan fakta adalah suatu pengukuran data numerik dan data historis yang terdiri dari facts, measures
dan keys dari tabel dimensi yang bersangkutan (Han & Kamber 2006).
Model tersebut dapat menampilkan data dalam bentuk kubus yang merupakan inti dari model ini dan dapat digambarkan dalam bentuk skema bintang, skema snowflake, dan skema galaksi (Han & Kamber 2006).
Skema galaksi merupakan kumpulan dari skema bintang. Skema ini terdiri dari berbagai tabel fakta yang berbagi beberapa tabel dimensi, sehingga membentuk seperti galaksi bintang. Bentuk skema galaksi dapat dilihat pada Gambar 1. Keuntungan menggunakan skema ini adalah menghemat memory dan mengurangi kesalahan yang mungkin terjadi.
3
Operasi-operasi pada Online Analytical Processing (OLAP)
Online analitycal Processing (OLAP) terdiri dari seperangkat tool untuk membantu proses