TINJAUAN PUSTAKA

Data Preprocessing

Hal yang lumrah terjadi pada basis data adalah data tidak lengkap (tidak ada atau kurang isi pada atributnya, atau hanya berisi data agregat), mengandung noise (terdapat

error, atau berisi nilai yang tidak semestinya), dan tidak konsisten. Pemrosesan data dengan teknik data preprocessing dapat memperbaiki kualitas data, dengan demikian membantu memperbaiki akurasi dan efisiensi proses

PENDAHULUAN

Latar Belakang

Teknologi basis data saat ini berkembang sangat pesat. Data disimpan dalam basis data, diolah kemudian disajikan sebagai informasi yang bernilai bagi pengguna. Penyimpanan data secara rutin dan terakumulasi dari waktu ke waktu akan menyebabkan terjadinya penumpukan data. Saat ini dari sisi perangkat keras media penyimpanan tidak menjadi masalah karena telah tersedia media yang mempunyai kapasitas hingga ukuran Terabyte. Namun penumpukan data tersebut menjadi masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik. Kondisi ini dikenal dengan istilah “rich of data but poor of information”.

Teknologi data warehouse dan On-Line Analytical Processing (OLAP) adalah satu solusi dari masalah penumpukan data yang kurang dimanfaatkan dengan baik. Teknologi tersebut dapat mengelola tumpukan data, dan mempresentasikannya untuk membantu proses pengambilan keputusan. Dengan bantuan aplikasi OLAP, pimpinan dari suatu organisasi dapat menganalisis sejumlah besar data yang dimiliki oleh organisasi tersebut. Hasil analisis dapat berupa pola, tren, dan kondisi tertentu yang dilakukan pada waktu nyata dengan tanggapan yang cepat terhadap pertanyaan yang diajukan hingga membantu dalam proses pengambilan keputusan.

Setiap tahun Institut Pertanian Bogor (IPB) menerima mahasiswa baru melalui satu proses seleksi. Data dari proses seleksi itu disimpan dalam basis data dan menumpuk tiap tahunnya. Informasi tersembunyi yang terkandung dalam basis data tersebut perlu dieksplorasi dan divisualisasikan ke dalam bentuk yang menarik.

Dalam penelitian ini dibangun sebuah data warehouse dan sebuah aplikasi OLAP untuk data Panitia Penerimaan Mahasiswa Baru (PPMB) IPB dengan menggunakan Palo sebagai OLAP server. Data tersebut meliputi data pelamar melalui jalur USMI dan data mahasiswa dari PPMB serta data IPK mahasiswa Tingkat Persiapan Bersama (TPB) IPB tahun masuk 2000 sampai 2004. Beberapa informasi yang dapat diperoleh dari aplikasi ini antara lain:

Pola sebaran pilihan pelamar (calon mahasiswa) jalur USMI terhadap fakultas dilihat dari asal pulau pelamar.

Jumlah pelamar yang program studi pilihan pertamanya ada di fakultas FMIPA tapi diterima di program studi selain fakultas FMIPA.

Tren perkembangan indeks prestasi mahasiswa di TPB dari program studi-program studi yang bersaing dengan program studi ilmu komputer.

Tren perkembangan indeks prestasi TPB program studi ilmu komputer yang menurun pada mahasiswa tahun masuk 2003.

Informasi lainnya dapat diperoleh dengan memilih ukuran dan dimensi tertentu yang tersedia dalam aplikasi.

Tujuan

Tujuan dari penelitian ini adalah:

1. Membangun data warehouse dan operasi-operasi OLAP untuk data PPMB IPB dan data IPK TPB IPB.

2. Membangun aplikasi untuk mem-visualisasikan hasil operasi-operasi OLAP.

Ruang Lingkup

Ruang lingkup penelitian dibatasi pada pembuatan data warehouse, implementasi operasi OLAP, dan presentasi informasi yang dapat diungkap dengan membangun aplikasi pendukung. Data yang digunakan adalah data pelamar jalur USMI dan data mahasiswa dari PPMB IPB serta data IPK mahasiswa TPB IPB tahun masuk 2000 sampai 2004.

Manfaat

Penelitian ini diharapkan bermanfaat bagi pihak-pihak yang memerlukan informasi konklusif, cepat, dan menarik dari agregat pelamar yang ikut seleksi penerimaan masuk jalur USMI dan informasi seputar agregat mahasiswa IPB sehingga dapat membantu dalam proses pengambilan keputusan.

Data Preprocessing

Hal yang lumrah terjadi pada basis data adalah data tidak lengkap (tidak ada atau kurang isi pada atributnya, atau hanya berisi data agregat), mengandung noise (terdapat

pengolahan data selanjutnya (Han & Kamber 2001).

Tahapan data preprocessing adalah (Han & Kamber 2001):

1. Pembersihan data (cleaning)

Pada proses pembersihan data kotor dihilangkan dan diperbaiki. Pembersihan dilakukan dengan mengisi nilai yang kosong, mengurangi noise dan memperbaiki ketidakkonsistenan dalam data. Permasalahan data kotor dan cara membersihkannya yaitu:

Nilai yang kosong (hilang)

Untuk mengatasi nilai yang kosong dalam data dapat dilakukan penghapusan tuple, mengganti nilainya secara manual, isi dengan konstanta global seperti ’tidak tahu’ atau ’∞’, menggunakan nilai rata-rata dari atribut yang kosong, isi dengan nilai rata-rata dari kelas yang sama, dan isi nilai yang mungkin melalui metode regresi, induksi pohon keputusan dan lain sebagainya.

Nilai mengandung noise

Data dengan nilai yang mengandung noise dapat diganti dengan nilai hasil perhitungan dengan metode binning (mengelompokkan nilai), metode regresi, atau dengan cara pengklusteran.

Data tidak konsisten

Data tidak konsisten diperbaiki dengan menyeragamkan data dengan menggunakan referensi eksternal. 2. Integrasi data

Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data. Proses integrasi mungkin akan menimbulkan beberapa masalah seperti masalah identifikasi entitas misalnya pada entitas yang sama terdapat nama yang berbeda. Redundancy juga menjadi salah satu masalah, terdapat lebih dari satu tuple

untuk satu data unik. Masalah lainnya yang timbul adalah konflik nilai data, disebabkan oleh perbedaan representasi nilai, misal pada satu data menggunakan satuan kilogram sedang pada data lain menggunakan satuan ton.

3. Transformasi data (transformation) Tahap transformasi data dilakukan agar data tetap konsisten dan dapat digunakan untuk proses selanjutnya dengan mengubah ke dalam bentuk yang tepat. Data dari bermacam sumber diberi format dan nama yang umum. Transformasi yang paling penting adalah transformasi nama agar tidak ada nama atribut yang sama atau atribut yang sama memiliki nama yang berbeda pada basis data yang berbeda.

Transformasi data mencakup hal berikut:

Smoothing

Dilakukan untuk menghilangkan

noise dari data. Tekniknya meliputi

binning, regresi, dan pengklusteran. Agregasi

Peringkasan dan agregasi diterapkan pada data. Misalnya data penjualan harian bisa diagregasi menjadi data penjualan bulanan.

Generalisasi

Data tingkat rendah digantikan dengan tingkat yang lebih tinggi menggunakan konsep hirarki. Misal kategori jalan bisa digeneralisasikan menjadi kategori tingkat lebih tinggi yaitu kota atau negara.

Normalisasi

Atribut data dibuat skala dengan

range yang lebih kecil. Konstruksi atribut

Atribut baru dibuat dan ditambah dari atribut-atribut yang ada untuk membantu proses pengolahan data selanjutnya.

4. Reduksi data

Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil.

Strategi mereduksi data meliputi: Agregasi kubus data

Operasi agregasi diterapkan pada data dalam konstruksi kubus data.

Reduksi dimensi

Penghilangan atribut atau dimensi yang tidak relevan, relevansinya tidak kuat, atau redundan.

Kompresi data

Mereduksi ukuran data dengan mekanisme encoding.

Numerosity reduction

Data diganti atau diestimasikan dengan alternatifnya.

Diskretisasi dan generasi konsep hirarki

Nilai-nilai data tingkat rendah diganti dengan tingkat konseptual yang lebih tinggi. Diskretisasi merupakan bentuk dari numerosity reduction yang berguna untuk generasi otomatis dari konsep hirarki.

Dijelaskan oleh Han & Kamber (2001) bahwa tahapan data preprocessing tidak terpisah sendiri-sendiri (not mutually exclusive). Mungkin saja saat proses pembersihan dilakukan, proses transformasi juga dilakukan di dalamnya.

Data Warehouse

Data warehouse menyediakan arsitektur dan alat bantu bagi pimpinan organisasi untuk mengorganisasikan secara sistematis, dipahami, dan digunakan data tersebut untuk membuat keputusan (Han & Kamber 2001).

Data warehouse adalah sekumpulan data berorientasi subjek, terintegrasi, time-variant,

dan non-volatile yang mendukung manajemen dalam proses pembuatan keputusan (Inmon 1996). Penjelasan rinci dari pengertian data warehouse adalah (Han & Kamber 2001): Berorientasi subjek

Data warehouse disusun berdasarkan subjek yang utama, seperti pelanggan, produk atau penjualan. Data warehouse

menyediakan tampilan yang sederhana dan ringkas dengan menghilangkan data yang tidak berguna dalam proses membuat keputusan.

Terintegrasi

Data warehouse biasanya dibangun dengan mengintegrasikan berbagai sumber data, seperti basis data relasional, flat file, dan data transaksi on-line. Teknik

pembersihan dan integrasi data diterapkan untuk memastikan data tetap konsisten. Time-variant

Data disimpan untuk menyediakan informasi berdasarkan perspektif waktu. Non-volatile

Data warehouse adalah tempat penyimpanan data yang terpisah dari basis data operasional sehingga hanya memerlukan pemuatan dan akses data.

Data warehouse merupakan ruang penyimpanan (atau arsip) informasi yang dikumpulkan dari berbagai sumber, disimpan dengan sebuah skema terintegrasi pada satu tempat. Data/infomasi tersebut tersimpan dalam jangka waktu yang lama, sehingga memungkinkan pengguna mengakses data historis. Data warehouse menyediakan satu tampilan data terkonsolidasi, sehingga menciptakan query untuk proses pengambilan keputusan menjadi lebih mudah. Dengan mengakses informasi dari data warehouse, proses traksaksi online tidak terganggu oleh beban kerja proses pengambilan keputusan (Silberschatz et al 2006).

Keuntungan yang didapat jika menggunakan data warehouse antara lain (Connolly & Begg 2002):

Menghasilkan keuntungan yang kompetitif dengan cara memperbolehkan pembuat keputusan mengakses data yang dapat memunculkan informasi yang sebelumnya tidak ada, tidak diketahui, dan tidak digunakan.

Meningkatkan produktivitas para pembuat keputusan dengan cara menciptakan basis data terintegrasi yang terdiri dari data historis yang konsisten dan berorientasi subjek.

Data warehousing adalah suatu infrastruktur perangkat lunak yang mendukung aplikasi OLAP dengan menyediakan sebuah koleksi alat bantu yang (i) mengumpulkan data dari sekumpulan sumber-sumber heterogen terdistribusi, (ii) membersihkan dan mengintegrasikan data tersebut ke dalam representasi yang seragam (iii) mengagregasi dan mengorganisasi data tersebut ke dalam struktur multidimensional yang tepat untuk pengambilan keputusan, dan (iv) memperbaharuinya secara periodik untuk menjaga agar data mutakhir dan akurat (Bouzeghoub & Kedad 2000).

Model Data Multidimensi

Pembuatan data warehouse didasarkan pada model data multidimensi. Model ini menampilkan data dalam bentuk kubus. Model data multidimensi terdiri dari dimensi (dimensions) dan fakta (facts) (Han & Kamber 2001).

Dimensi adalah perspektif atau entitas penting yang dimiliki oleh organisasi. Setiap dimensi mungkin memiliki satu tabel yang berasosiasi dengannya yang disebut dengan tabel dimensi yang mendeskripsikan dimensi itu sendiri. Dimensi akan berubah jika analisis kebutuhan pengguna berubah. Dimensi mendefinisikan label yang membentuk isi laporan. Tabel dimensi berukuran lebih kecil daripada tabel fakta dan berisi data tidak numerik. Pada data warehouse, kubus data merupakan kubus dengan n-dimensi (Han & Kamber 2001).

Fakta adalah ukuran-ukuran numerik, merupakan kuantitas yang akan dianalisis hubungan antar dimensinya. Tabel fakta berisi nama-nama fakta (ukuran) dan key dari tabel-tabel dimensi yang berelasi dengan tabel-tabel fakta itu. Data fakta diekstrak dari berbagai sumber. Data fakta cenderung stabil dan tidak berubah seiring waktu. Tabel fakta berukuran besar, memiliki jumlah baris sesuai dengan jumlah kombinasi nilai dimensi yang mungkin dan jumlah kolom sesuai dengan jumlah dimensi yang direpresentasikan (Han & Kamber 2001).

Gambar 1 Representasi kubus data dengan 3 dimensi (Han & Kamber 2001) Kubus data disebut juga cuboid, berasal dari banyak dimensi. Potongan cuboid yang lebih kecil dapat dibuat dengan mengambil sebagian dimensi dari sebuah cuboid besar. Potongan cuboid memiliki tingkat yang lebih tinggi (besar nilainya) dari cuboid asalnya, cuboid dengan tingkat terendah disebut base

cuboid (Han & Kamber 2001). Contoh kubus data dengan tiga dimensi ada pada Gambar 1. Kubus data tersebut memiliki dimensi time,

item, dan location, ukuran yang ditampilkan adalah dollar_sold (dalam ribuan).

Skema basis data berisi kumpulan entitas dan hubungan antarentitas. Sebuah data warehouse memerlukan skema yang ringkas dan berorientasi subjek yang dapat digunakan dalam analisis data on-line. Tipe-tipe skema model data multidimensi adalah (Han & Kamber 2001):

Skema bintang (star schema)

Skema bintang adalah skema data warehouse yang paling sederhana. Skema ini disebut skema bintang karena hubungan antara tabel dimensi dan tabel fakta menyerupai bintang, dimana satu tabel fakta dihubungkan dengan beberapa tabel dimensi. Titik tengah skema bintang adalah satu tabel fakta besar dan sudut-sudutnya adalah tabel-tabel dimensi. Bentuk skema bintang dapat dilihat pada Gambar 2. Keuntungan yang didapat jika menggunakan skema ini adalah peningkatan kinerja data warehouse, pemrosesan query yang lebih efisien, dan waktu respon yang cepat.

Gambar 2 Skema bintang (Han & Kamber 2001)

Skema snowflake (snowflake schema) Skema snowflake adalah variasi dari skema bintang dimana beberapa tabel dimensi dinormalisasi, jadi dihasilkan beberapa tabel tambahan. Bentuk skema

snowflake dapat dilihat pada Gambar 3 (halaman 5). Keuntungan yang didapat dengan menggunakan skema ini adalah penghematan memory, tapi waktu yang dibutuhkan untuk pemrosesan query

Gambar 3 Skema snowflake (Han & Kamber 2001)

Skema galaksi (fact constellation)

Pada skema galaksi, beberapa tabel fakta berbagi tabel dimensi. Bentuk skema galaksi dapat dilihat pada Gambar 4. Keuntungan menggunakan skema ini adalah menghemat memory dan mengurangi kesalahan yang mungkin terjadi.

Gambar 4 Skema galaksi (Han & Kamber 2001)

On-Line Analytical Processing (OLAP) On-Line Analytical Processing (OLAP) terdiri dari seperangkat tool untuk membantu proses analisis dan perbandingan data dalam basis data. Kegunaan utama OLAP tool adalah kemampuan interaktifnya untuk membantu pimpinan organisasi melihat data dari berbagai perspektif (Post 2005).

Tool dan metoda OLAP membantu pengguna menganalisis data pada sebuah data warehouse dengan menyediakan berbagai tampilan data, dan didukung dengan representasi grafik yang dinamis. Dalam tampilan tersebut dimensi-dimensi data berbeda menunjukkan karakteristik bisnis yang berbeda pula. OLAP tool sangat membantu untuk melihat data dimensional dari berbagai sudut pandang. OLAP tool tidak belajar dan tidak menciptakan pengetahuan baru dari data dengan sendirinya, tetapi merupakan alat bantu visualisasi khusus untuk membantu end-user menarik kesimpulan dan

keputusan. OLAP tool sangat berguna untuk proses data mining, OLAP dapat menjadi bagian dari data mining tetapi keduanya tidak bersifat substitusi (Kantardzic 2003).

Tipe-tipe operasi OLAP antara lain (Han & Kamber 2001):

Roll-up

Operasi ini melakukan agregasi pada kubus data dengan cara menaikkan tingkat suatu hirarki konsep atau mengurangi dimensi. Misalkan pada kubus data dari kelompok kota di-roll up menjadi kelompok propinsi atau negara. Contoh lainnya kubus data menampilkan agregasi total penjualan berdasarkan lokasi dan waktu, roll up mereduksi dimensi dapat dilakukan dengan menurunkan tingkat suatu hirarki konsep atau menambahkan dimensi menghilangkan waktu sehingga hanya menampilkan agregasi total penjualan berdasarkan lokasi.

Drill-down

Drill-down adalah kebalikan dari roll-up. Operasi ini mempresentasikan data menjadi lebih detil. Drill-down dilakukan dengan cara menurunkan tingkat suatu hirarki konsep atau menambahkan dimensi. Misalkan dari kelompok tahun

di-drill down menjadi kelompok triwulan, bulan, atau hari.

Slice dan dice

Operasi slice melakukan pemilihan satu dimensi dari kubus data sehingga menghasilkan bagian kubus (subcube). Operasi dice menghasilkan bagian kubus (subcube) dengan melakukan pemilihan dua atau lebih dimensi.

Pivot (rotate)

Pivot adalah operasi visualisasi dengan memutar koordinat data pada tampilan yang bertujuan untuk menyediakan presentasi alternatif dari data.

Satu kategori dari OLAP yang mulai muncul pada tahun 1997 adalah Web-based

OLAP (WOLAP). Dengan produk ini pengguna web browser atau komputer dalam jaringan dapat mengakses dan menganalisis data dalam data warehouse. WOLAP dapat diterapkan dalam internet atau intranet, namun banyak organisasi lebih memilih

intranet karena alasan keamanan dan kerahasiaan data. WOLAP dapat digunakan selama klien memiliki perangkat lunak web

yang diperlukan dan terhubung dengan jaringan komputer yang benar. Teknologi ini juga mengeliminasi kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna (Mallach 2000).

Arsitektur Three-TierData Warehouse

Data warehouse sering kali mengadopsi arsitektur three-tier, seperti dipresentasikan pada Gambar 5. Lapisan-lapisan arsitektur

data warehousing tersebut adalah (Han & Kamber 2001):

1. Lapis bawah (bottom tier)

Pada lapis bawah adalah server data warehouse yang biasanya sebuah sistem basis data relasional. Pada lapis ini data diambil dari basis data operasional dan sumber eksternal lainnya, diekstrak, dibersihkan, dan ditransformasi. Data disimpan sebagai data warehouse.

Gambar 5 Arsitektur three-tier data warehousing (Han & Kamber 2001)

2. Lapis tengah (middle tier)

Lapis tengah adalah OLAP server yang biasanya diimplementasikan dengan OLAP Relasional (ROLAP) atau OLAP Multidimensional (MOLAP).

3. Lapis atas (top tier)

Pada lapis atas adalah lapisan front-end client, berisi query dan perangkat pelaporan, perangkat analisis, dan/atau perangkat data mining (seperti: analisis tren, prediksi, dan lainnya).

METODE PENELITIAN

Dalam dokumen Pembangunan Data Warehouse dan Aplikasi Olap Berbasis Web Menggunakan Palo (Studi Kasus: Data PPMB IPB) (Halaman 48-54)