PEMBANGUNAN DATA WAREHOUSE DAN
APLIKASI OLAP BERBASIS WEB MENGGUNAKAN PALO
(STUDI KASUS: DATA PPMB IPB)
ABI HERLAMBANG
G64101047
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
ABSTRAK
ABI HERLAMBANG. Pembangunan Data Warehouse dan Aplikasi OLAP Berbasis Web
Menggunakan Palo (Studi Kasus: Data PPMB IPB). Dibimbing oleh IMAS SUKAESIH SITANGGANG dan HARI AGUNG ADRIANTO.
Panitia Penerimaan Mahasiswa Baru (PPMB) IPB menerima mahasiswa baru. Data penerimaan tersebut menumpuk setiap tahunnya, dan menjadi masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik. Teknologi data warehouse dan On-Line Analytical Processing
(OLAP) dapat mengelola tumpukan data tersebut dan mempresentasikannya untuk membantu proses pengambilan keputusan. Tujuan penelitian ini adalah membangun data warehouse dan operasi-operasi
OLAP, serta membangun aplikasi untuk memvisualisasikan hasil operasi-operasi OLAP. Data yang digunakan adalah data PPMB IPB dan IPK TPB IPB tahun masuk 2000 sampai 2004.
Data warehouse membentuk skema galaksi dengan dua kubus data, yaitu kubus data Pelamar
dengan tujuh dimensi dan Mahasiswa dengan enam dimensi. Data dari data warehouse dianalisis
dengan operasi-operasi OLAP. Aplikasi OLAP dibangun dengan bahasa pemrograman PHP, OLAP
server Palo, dan pembangkit grafik JpGraph. Fasilitas yang dimiliki aplikasi adalah menu OLAP,
penyaringan dimensi, visualisasi crosstab dan grafik, dan disain cetakan. Aplikasi ini berbasis web
dan dilengkapi dengan versi portable.
Aplikasi OLAP menggunakan kubus data Palo sehingga akses data menjadi lebih cepat. Hasil ekplorasi data PPMB IPB melalui aplikasi disajikan dalam bentuk informasi yang konklusif, cepat, dan menarik dengan crosstab dan grafik dinamis. Analisis data PPMB menghasilkan beberapa
informasi konklusif, misal: bahwa pelamar USMI paling banyak berasal dari Jawa dan Sumatera; dan mayoritas pelamar USMI memilih fakultas FAPERTA, FMIPA, dan FATETA.
PEMBANGUNAN DATA WAREHOUSE DAN
APLIKASI OLAP BERBASIS WEB MENGGUNAKAN PALO
(STUDI KASUS: DATA PPMB IPB)
ABI HERLAMBANG
G64101047
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Judul : Pembangunan
Data Warehouse
dan
Aplikasi OLAP Berbasis
Web
Menggunakan Palo
(Studi Kasus: Data PPMB IPB)
Nama : Abi Herlambang
NRP :
G64101047
Menyetujui:
Pembimbing I,
Imas S. Sitanggang, S.Si, M.Kom.
NIP 132206235
Pembimbing II,
Hari Agung Adrianto, S.Kom, M.Si.
NIP 132311918
Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Prof. Dr. Ir. Yonny Koesmaryono, M.S.
NIP 131473999
PRAKATA
Puji syukurPenulis panjatkan ke hadirat Allah SWT atas segala curahan rahmat dan karunia-Nya sehingga skripsi ini dapat diselesaikan. Skripsi ini merupakan hasil penelitian yang dilakukan dari Desember 2006 sampai Mei 2007 dengan bidang kajian Pembangunan Data Warehouse dan Aplikasi
OLAP Berbasis Web Menggunakan Palo (Studi Kasus: Data PPMB IPB).
Penulis mengucapkan terima kasih kepada Ibu Imas S. Sitanggang, S.Si, M.Kom selaku pembimbing I yang telah memberi saran, masukan, dan ide-ide kepada Penulis dalam menyusun skripsi ini. Terima kasih juga Penulis ucapkan kepada Bapak Hari Agung Adrianto, S.Kom, M.Si selaku pembimbing II yang telah memberi saran dan masukan kepada Penulis. Ucapan terima kasih juga kepada Ibu Shelvie Nidya Neyman, S.Kom, M.Si selaku penguji yang telah membantu Penulis. Penulis juga mengucapkan terima kasih kepada:
1 Ibu dan Bapak yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada Penulis sehingga Penulis dapat menyelesaikan tugas akhir ini. Kak Yuyun, Kak Yuli, Kak Indah, Kak Rani, Kak Putri, Sunan, Pramu, dan Sisi yang tidak pernah bosan memberikan perhatian dan dukungan setiap saat dibutuhkan.
2 Kang Asep dan Bang Tomo yang menjadi tempat bertukar pikiran di tengah-tengah kesibukan Penulis mengerjakan tugas dan pekerjaan.
3 Erwin yang memberikan motivasi kepada Penulis untuk memulai mengerjakan tugas akhir.
4 Liesca, Rosy, Robi, Khamam, Didik, Nawi, dan Ifnu, teman-teman mahasiswa kadaluarsa di Lab.02 yang menemani Penulis selama mengerjakan tugas akhir.
5 Nando dan Ucup yang membantu Penulis menghilangkan rasa suntuk selama di IPB.
6 Aditama, Wulan, Bejo, May, Sue, dan Meilani, teman milis sekoetoe_98 yang memberikan semangat kepada Penulis untuk menyelesaikan tugas akhir.
7 Kawan-kawan Ilkom angkatan 38 yang telah banyak membantu Penulis selama menjalani waktu di IPB.
8 Departemen Ilmu Komputer, staf, dan dosen yang telah banyak membantu baik selama penelitian maupun pada masa perkuliahan.
Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak.
Semoga penelitian ini dapat memberikan manfaat.
Bogor, Mei 2007
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 28 Desember 1982 dari ayah Edi Sunaryo Yatim dan ibu Rojenah. Penulis merupakan anak keenam dari sembilan bersaudara.
Tahun 2001 Penulis lulus dari SMU Negeri 99 Jakarta dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Ujian Masuk Perguruan Tinggi Negeri. Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam IPB.
Tahun 2005 bulan Januari sampai Maret, Penulis melakukan kegiatan praktik lapang di PT Bank Bukopin Kantor Pusat, terlibat dalam tim pembangunan sistem inventaris untuk kantor cabang syariah. Pada Maret 2005 sampai Mei 2005, Penulis membangun aplikasi pencatatan dan validasi transaksi keuangan untuk back office Departemen Telex Bank Bukopin Cabang Melawai Syariah. Di
akhir tahun 2005 selama satu bulan, Penulis mengembangkan disain laporan aplikasi Courier Information System untuk Hansha Logistic. Tahun 2006 dari April sampai September, Penulis bersama tim dari PT Fajar Buana Pratama membangun Sistem Informasi Diklat Pusbang Aparatur KP untuk Pusat Pelatihan Badan Pengembangan SDM Departemen Kelautan dan Perikanan RI.
DAFTAR ISI
Halaman
DAFTAR TABEL ... vii
DAFTAR GAMBAR... vii
DAFTAR LAMPIRAN... viii
PENDAHULUAN Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup... 1 Manfaat ... 1 TINJAUAN PUSTAKA Data Preprocessing... 1 Data Warehouse... 3
Model Data Multidimensi ... 4
On-Line Analytical Processing (OLAP) ... 5
Arsitektur Three-TierData Warehouse... 6
METODE PENELITIAN Analisis ... 6
Data Preprocessing... 6
Aplikasi OLAP... 7
Lingkungan Pengembangan... 7
HASIL DAN PEMBAHASAN Analisis Data... 8
Integrasi dan Reduksi Data ... 9
Pembersihan Data ... 9
Transformasi Data... 10
Pemuatan Data ... 10
Gambaran Umum Aplikasi ... 11
Kelebihan dan Kekurangan Sistem ... 12
Presentasi Hasil... 13
KESIMPULAN DAN SARAN Kesimpulan ... 15
Saran ... 16
DAFTAR PUSTAKA... 17
LAMPIRAN ... 18
DAFTAR TABEL
Halaman
1 Nama dan deskripsi atribut tabel pre_pelamar hasil integrasi dan reduksi... 9
2 Nama dan deskripsi atribut tabel pre_mahasiswa hasil integrasi dan reduksi... 9
3 Nama dan deskripsi dimensi dari kubus data Pelamar ... 10
4 Nama dan deskripsi dimensi dari kubus data Mahasiswa ... 11
DAFTAR GAMBAR
Halaman 1 Representasi kubus data dengan 3 dimensi (Han & Kamber 2001) ... 42 Skema bintang (Han & Kamber 2001)... 4
3 Skema snowflake (Han & Kamber 2001)... 5
4 Skema galaksi (Han & Kamber 2001) ... 5
5 Arsitektur three-tierdata warehousing (Han & Kamber 2001)... 6
6 Skema galaksi data warehouse pelamar dan mahasiswa ... 8
7 Arsitektur data warehousing dan aplikasi OLAP ... 11
8 Contoh tampilan aplikasi OLAP ... 12
9 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk ... 13
10 Crosstab ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk Fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk ... 13
11 Crosstab sepuluh program studi dengan rataan IPK TPB terbesar ... 14
12 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Waktu tingkat Tahun Masuk ... 15
13 Crosstab ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer... 15
14 Crosstab ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB... 15
DAFTAR LAMPIRAN
Halaman
1 Daftar file data sumber ... 19
2 Rincian proses pembersihan data ... 19
3 Data tabel dimensi data warehouse... 21
4 Grafik ukuran Jumlah Pelamar USMI dan dimensi Studi Pilihan1 tingkat Fakultas ... 23
5 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Sumatera dan Jawa ... 24
6 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Nusa Tenggara, Kalimantan, Sulawesi, Irian, dan Luar Negeri ... 24
7 Crosstab dengan operasi OLAP drill-down sampai tingkat dua, ukuran Jumlah Pelamar USMI, dimensi Studi Putusan1, dan dimensi Asal... 25
8 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk 10 program studi dengan rataan IPK TPB terbesar, dan dimensi Waktu tingkat Tahun Masuk... 25
9 Grafik ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer... 26
10 Grafik ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB... 26
1
PENDAHULUAN
Latar Belakang
Teknologi basis data saat ini berkembang sangat pesat. Data disimpan dalam basis data, diolah kemudian disajikan sebagai informasi yang bernilai bagi pengguna. Penyimpanan data secara rutin dan terakumulasi dari waktu ke waktu akan menyebabkan terjadinya penumpukan data. Saat ini dari sisi perangkat keras media penyimpanan tidak menjadi masalah karena telah tersedia media yang mempunyai kapasitas hingga ukuran Terabyte.
Namun penumpukan data tersebut menjadi masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik. Kondisi ini dikenal dengan istilah “rich of data but poor of information”.
Teknologi data warehouse dan On-Line Analytical Processing (OLAP) adalah satu
solusi dari masalah penumpukan data yang kurang dimanfaatkan dengan baik. Teknologi tersebut dapat mengelola tumpukan data, dan mempresentasikannya untuk membantu proses pengambilan keputusan. Dengan bantuan aplikasi OLAP, pimpinan dari suatu organisasi dapat menganalisis sejumlah besar data yang dimiliki oleh organisasi tersebut. Hasil analisis dapat berupa pola, tren, dan kondisi tertentu yang dilakukan pada waktu nyata dengan tanggapan yang cepat terhadap pertanyaan yang diajukan hingga membantu dalam proses pengambilan keputusan.
Setiap tahun Institut Pertanian Bogor (IPB) menerima mahasiswa baru melalui satu proses seleksi. Data dari proses seleksi itu disimpan dalam basis data dan menumpuk tiap tahunnya. Informasi tersembunyi yang terkandung dalam basis data tersebut perlu dieksplorasi dan divisualisasikan ke dalam bentuk yang menarik.
Dalam penelitian ini dibangun sebuah data warehouse dan sebuah aplikasi OLAP untuk
data Panitia Penerimaan Mahasiswa Baru (PPMB) IPB dengan menggunakan Palo sebagai OLAP server. Data tersebut meliputi
data pelamar melalui jalur USMI dan data mahasiswa dari PPMB serta data IPK mahasiswa Tingkat Persiapan Bersama (TPB) IPB tahun masuk 2000 sampai 2004. Beberapa informasi yang dapat diperoleh dari aplikasi ini antara lain:
Pola sebaran pilihan pelamar (calon mahasiswa) jalur USMI terhadap fakultas dilihat dari asal pulau pelamar.
Jumlah pelamar yang program studi pilihan pertamanya ada di fakultas FMIPA tapi diterima di program studi selain fakultas FMIPA.
Tren perkembangan indeks prestasi mahasiswa di TPB dari program studi-program studi yang bersaing dengan program studi ilmu komputer.
Tren perkembangan indeks prestasi TPB program studi ilmu komputer yang menurun pada mahasiswa tahun masuk 2003.
Informasi lainnya dapat diperoleh dengan memilih ukuran dan dimensi tertentu yang tersedia dalam aplikasi.
Tujuan
Tujuan dari penelitian ini adalah:
1. Membangun data warehouse dan
operasi-operasi OLAP untuk data PPMB IPB dan data IPK TPB IPB.
2. Membangun aplikasi untuk mem-visualisasikan hasil operasi-operasi OLAP.
Ruang Lingkup
Ruang lingkup penelitian dibatasi pada pembuatan data warehouse, implementasi
operasi OLAP, dan presentasi informasi yang dapat diungkap dengan membangun aplikasi pendukung. Data yang digunakan adalah data pelamar jalur USMI dan data mahasiswa dari PPMB IPB serta data IPK mahasiswa TPB IPB tahun masuk 2000 sampai 2004.
Manfaat
Penelitian ini diharapkan bermanfaat bagi pihak-pihak yang memerlukan informasi konklusif, cepat, dan menarik dari agregat pelamar yang ikut seleksi penerimaan masuk jalur USMI dan informasi seputar agregat mahasiswa IPB sehingga dapat membantu dalam proses pengambilan keputusan.
TINJAUAN PUSTAKA
Data PreprocessingHal yang lumrah terjadi pada basis data adalah data tidak lengkap (tidak ada atau kurang isi pada atributnya, atau hanya berisi data agregat), mengandung noise (terdapat error, atau berisi nilai yang tidak semestinya),
dan tidak konsisten. Pemrosesan data dengan teknik data preprocessing dapat memperbaiki
kualitas data, dengan demikian membantu memperbaiki akurasi dan efisiensi proses
2
pengolahan data selanjutnya (Han & Kamber 2001).
Tahapan data preprocessing adalah (Han
& Kamber 2001):
1. Pembersihan data (cleaning)
Pada proses pembersihan data kotor dihilangkan dan diperbaiki. Pembersihan dilakukan dengan mengisi nilai yang kosong, mengurangi noise dan
memperbaiki ketidakkonsistenan dalam data. Permasalahan data kotor dan cara membersihkannya yaitu:
Nilai yang kosong (hilang)
Untuk mengatasi nilai yang kosong dalam data dapat dilakukan penghapusan tuple, mengganti nilainya
secara manual, isi dengan konstanta global seperti ’tidak tahu’ atau ’∞’, menggunakan nilai rata-rata dari atribut yang kosong, isi dengan nilai rata-rata dari kelas yang sama, dan isi nilai yang mungkin melalui metode regresi, induksi pohon keputusan dan lain sebagainya.
Nilai mengandung noise
Data dengan nilai yang mengandung noise dapat diganti
dengan nilai hasil perhitungan dengan metode binning (mengelompokkan
nilai), metode regresi, atau dengan cara pengklusteran.
Data tidak konsisten
Data tidak konsisten diperbaiki dengan menyeragamkan data dengan menggunakan referensi eksternal. 2. Integrasi data
Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data. Proses integrasi mungkin akan menimbulkan beberapa masalah seperti masalah identifikasi entitas misalnya pada entitas yang sama terdapat nama yang berbeda. Redundancy juga menjadi salah
satu masalah, terdapat lebih dari satu tuple
untuk satu data unik. Masalah lainnya yang timbul adalah konflik nilai data, disebabkan oleh perbedaan representasi nilai, misal pada satu data menggunakan satuan kilogram sedang pada data lain menggunakan satuan ton.
3. Transformasi data (transformation)
Tahap transformasi data dilakukan agar data tetap konsisten dan dapat digunakan untuk proses selanjutnya dengan mengubah ke dalam bentuk yang tepat. Data dari bermacam sumber diberi format dan nama yang umum. Transformasi yang paling penting adalah transformasi nama agar tidak ada nama atribut yang sama atau atribut yang sama memiliki nama yang berbeda pada basis data yang berbeda.
Transformasi data mencakup hal berikut:
Smoothing
Dilakukan untuk menghilangkan
noise dari data. Tekniknya meliputi binning, regresi, dan pengklusteran.
Agregasi
Peringkasan dan agregasi diterapkan pada data. Misalnya data penjualan harian bisa diagregasi menjadi data penjualan bulanan.
Generalisasi
Data tingkat rendah digantikan dengan tingkat yang lebih tinggi menggunakan konsep hirarki. Misal kategori jalan bisa digeneralisasikan menjadi kategori tingkat lebih tinggi yaitu kota atau negara.
Normalisasi
Atribut data dibuat skala dengan
range yang lebih kecil.
Konstruksi atribut
Atribut baru dibuat dan ditambah dari atribut-atribut yang ada untuk membantu proses pengolahan data selanjutnya.
4. Reduksi data
Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil.
Strategi mereduksi data meliputi: Agregasi kubus data
Operasi agregasi diterapkan pada data dalam konstruksi kubus data.
3
Reduksi dimensi
Penghilangan atribut atau dimensi yang tidak relevan, relevansinya tidak kuat, atau redundan.
Kompresi data
Mereduksi ukuran data dengan mekanisme encoding.
Numerosity reduction
Data diganti atau diestimasikan dengan alternatifnya.
Diskretisasi dan generasi konsep hirarki
Nilai-nilai data tingkat rendah diganti dengan tingkat konseptual yang lebih tinggi. Diskretisasi merupakan bentuk dari numerosity reduction yang
berguna untuk generasi otomatis dari konsep hirarki.
Dijelaskan oleh Han & Kamber (2001) bahwa tahapan data preprocessing tidak
terpisah sendiri-sendiri (not mutually exclusive). Mungkin saja saat proses
pembersihan dilakukan, proses transformasi juga dilakukan di dalamnya.
Data Warehouse
Data warehouse menyediakan arsitektur
dan alat bantu bagi pimpinan organisasi untuk mengorganisasikan secara sistematis, dipahami, dan digunakan data tersebut untuk membuat keputusan (Han & Kamber 2001).
Data warehouse adalah sekumpulan data
berorientasi subjek, terintegrasi, time-variant,
dan non-volatile yang mendukung manajemen
dalam proses pembuatan keputusan (Inmon 1996). Penjelasan rinci dari pengertian data warehouse adalah (Han & Kamber 2001):
Berorientasi subjek
Data warehouse disusun berdasarkan
subjek yang utama, seperti pelanggan, produk atau penjualan. Data warehouse
menyediakan tampilan yang sederhana dan ringkas dengan menghilangkan data yang tidak berguna dalam proses membuat keputusan.
Terintegrasi
Data warehouse biasanya dibangun
dengan mengintegrasikan berbagai sumber data, seperti basis data relasional, flat file,
dan data transaksi on-line. Teknik
pembersihan dan integrasi data diterapkan untuk memastikan data tetap konsisten. Time-variant
Data disimpan untuk menyediakan informasi berdasarkan perspektif waktu. Non-volatile
Data warehouse adalah tempat
penyimpanan data yang terpisah dari basis data operasional sehingga hanya memerlukan pemuatan dan akses data.
Data warehouse merupakan ruang
penyimpanan (atau arsip) informasi yang dikumpulkan dari berbagai sumber, disimpan dengan sebuah skema terintegrasi pada satu tempat. Data/infomasi tersebut tersimpan dalam jangka waktu yang lama, sehingga memungkinkan pengguna mengakses data historis. Data warehouse menyediakan satu
tampilan data terkonsolidasi, sehingga menciptakan query untuk proses pengambilan
keputusan menjadi lebih mudah. Dengan mengakses informasi dari data warehouse,
proses traksaksi online tidak terganggu oleh
beban kerja proses pengambilan keputusan (Silberschatz et al 2006).
Keuntungan yang didapat jika menggunakan data warehouse antara lain
(Connolly & Begg 2002):
Menghasilkan keuntungan yang kompetitif dengan cara memperbolehkan pembuat keputusan mengakses data yang dapat memunculkan informasi yang sebelumnya tidak ada, tidak diketahui, dan tidak digunakan.
Meningkatkan produktivitas para pembuat keputusan dengan cara menciptakan basis data terintegrasi yang terdiri dari data historis yang konsisten dan berorientasi subjek.
Data warehousing adalah suatu
infrastruktur perangkat lunak yang mendukung aplikasi OLAP dengan menyediakan sebuah koleksi alat bantu yang (i) mengumpulkan data dari sekumpulan sumber-sumber heterogen terdistribusi, (ii) membersihkan dan mengintegrasikan data tersebut ke dalam representasi yang seragam (iii) mengagregasi dan mengorganisasi data tersebut ke dalam struktur multidimensional yang tepat untuk pengambilan keputusan, dan (iv) memperbaharuinya secara periodik untuk menjaga agar data mutakhir dan akurat (Bouzeghoub & Kedad 2000).
4
Model Data Multidimensi
Pembuatan data warehouse didasarkan
pada model data multidimensi. Model ini menampilkan data dalam bentuk kubus. Model data multidimensi terdiri dari dimensi (dimensions) dan fakta (facts) (Han & Kamber
2001).
Dimensi adalah perspektif atau entitas penting yang dimiliki oleh organisasi. Setiap dimensi mungkin memiliki satu tabel yang berasosiasi dengannya yang disebut dengan tabel dimensi yang mendeskripsikan dimensi itu sendiri. Dimensi akan berubah jika analisis kebutuhan pengguna berubah. Dimensi mendefinisikan label yang membentuk isi laporan. Tabel dimensi berukuran lebih kecil daripada tabel fakta dan berisi data tidak numerik. Pada data warehouse, kubus data
merupakan kubus dengan n-dimensi (Han & Kamber 2001).
Fakta adalah ukuran-ukuran numerik, merupakan kuantitas yang akan dianalisis hubungan antar dimensinya. Tabel fakta berisi nama-nama fakta (ukuran) dan key dari
tabel-tabel dimensi yang berelasi dengan tabel-tabel fakta itu. Data fakta diekstrak dari berbagai sumber. Data fakta cenderung stabil dan tidak berubah seiring waktu. Tabel fakta berukuran besar, memiliki jumlah baris sesuai dengan jumlah kombinasi nilai dimensi yang mungkin dan jumlah kolom sesuai dengan jumlah dimensi yang direpresentasikan (Han & Kamber 2001).
Gambar 1 Representasi kubus data dengan 3 dimensi (Han & Kamber 2001) Kubus data disebut juga cuboid, berasal
dari banyak dimensi. Potongan cuboid yang
lebih kecil dapat dibuat dengan mengambil sebagian dimensi dari sebuah cuboid besar.
Potongan cuboid memiliki tingkat yang lebih
tinggi (besar nilainya) dari cuboid asalnya,
cuboid dengan tingkat terendah disebut base
cuboid (Han & Kamber 2001). Contoh kubus
data dengan tiga dimensi ada pada Gambar 1. Kubus data tersebut memiliki dimensi time, item, dan location, ukuran yang ditampilkan
adalah dollar_sold (dalam ribuan).
Skema basis data berisi kumpulan entitas dan hubungan antarentitas. Sebuah data warehouse memerlukan skema yang ringkas
dan berorientasi subjek yang dapat digunakan dalam analisis data on-line. Tipe-tipe skema
model data multidimensi adalah (Han & Kamber 2001):
Skema bintang (star schema)
Skema bintang adalah skema data warehouse yang paling sederhana. Skema
ini disebut skema bintang karena hubungan antara tabel dimensi dan tabel fakta menyerupai bintang, dimana satu tabel fakta dihubungkan dengan beberapa tabel dimensi. Titik tengah skema bintang adalah satu tabel fakta besar dan sudut-sudutnya adalah tabel-tabel dimensi. Bentuk skema bintang dapat dilihat pada Gambar 2. Keuntungan yang didapat jika menggunakan skema ini adalah peningkatan kinerja data warehouse,
pemrosesan query yang lebih efisien, dan
waktu respon yang cepat.
Gambar 2 Skema bintang (Han & Kamber 2001)
Skema snowflake (snowflake schema)
Skema snowflake adalah variasi dari
skema bintang dimana beberapa tabel dimensi dinormalisasi, jadi dihasilkan beberapa tabel tambahan. Bentuk skema
snowflake dapat dilihat pada Gambar 3
(halaman 5). Keuntungan yang didapat dengan menggunakan skema ini adalah penghematan memory, tapi waktu yang
dibutuhkan untuk pemrosesan query
5
Gambar 3 Skema snowflake (Han &
Kamber 2001) Skema galaksi (fact constellation)
Pada skema galaksi, beberapa tabel fakta berbagi tabel dimensi. Bentuk skema galaksi dapat dilihat pada Gambar 4. Keuntungan menggunakan skema ini adalah menghemat memory dan
mengurangi kesalahan yang mungkin terjadi.
Gambar 4 Skema galaksi (Han & Kamber 2001)
On-Line Analytical Processing (OLAP)
On-Line Analytical Processing (OLAP)
terdiri dari seperangkat tool untuk membantu
proses analisis dan perbandingan data dalam basis data. Kegunaan utama OLAP tool adalah
kemampuan interaktifnya untuk membantu pimpinan organisasi melihat data dari berbagai perspektif (Post 2005).
Tool dan metoda OLAP membantu
pengguna menganalisis data pada sebuah data warehouse dengan menyediakan berbagai
tampilan data, dan didukung dengan representasi grafik yang dinamis. Dalam tampilan tersebut dimensi-dimensi data berbeda menunjukkan karakteristik bisnis yang berbeda pula. OLAP tool sangat
membantu untuk melihat data dimensional dari berbagai sudut pandang. OLAP tool tidak
belajar dan tidak menciptakan pengetahuan baru dari data dengan sendirinya, tetapi merupakan alat bantu visualisasi khusus untuk membantu end-user menarik kesimpulan dan
keputusan. OLAP tool sangat berguna untuk
proses data mining, OLAP dapat menjadi
bagian dari data mining tetapi keduanya tidak
bersifat substitusi (Kantardzic 2003).
Tipe-tipe operasi OLAP antara lain (Han & Kamber 2001):
Roll-up
Operasi ini melakukan agregasi pada kubus data dengan cara menaikkan tingkat suatu hirarki konsep atau mengurangi dimensi. Misalkan pada kubus data dari kelompok kota di-roll up menjadi
kelompok propinsi atau negara. Contoh lainnya kubus data menampilkan agregasi total penjualan berdasarkan lokasi dan waktu, roll up mereduksi dimensi dapat
dilakukan dengan menurunkan tingkat suatu hirarki konsep atau menambahkan dimensi menghilangkan waktu sehingga hanya menampilkan agregasi total penjualan berdasarkan lokasi.
Drill-down
Drill-down adalah kebalikan dari roll-up. Operasi ini mempresentasikan data
menjadi lebih detil. Drill-down dilakukan
dengan cara menurunkan tingkat suatu hirarki konsep atau menambahkan dimensi. Misalkan dari kelompok tahun
di-drill down menjadi kelompok triwulan,
bulan, atau hari. Slice dan dice
Operasi slice melakukan pemilihan
satu dimensi dari kubus data sehingga menghasilkan bagian kubus (subcube).
Operasi dice menghasilkan bagian kubus
(subcube) dengan melakukan pemilihan
dua atau lebih dimensi. Pivot (rotate)
Pivot adalah operasi visualisasi dengan
memutar koordinat data pada tampilan yang bertujuan untuk menyediakan presentasi alternatif dari data.
Satu kategori dari OLAP yang mulai muncul pada tahun 1997 adalah Web-based
OLAP (WOLAP). Dengan produk ini pengguna web browser atau komputer dalam
jaringan dapat mengakses dan menganalisis data dalam data warehouse. WOLAP dapat
diterapkan dalam internet atau intranet,
namun banyak organisasi lebih memilih
intranet karena alasan keamanan dan
kerahasiaan data. WOLAP dapat digunakan selama klien memiliki perangkat lunak web
6
yang diperlukan dan terhubung dengan jaringan komputer yang benar. Teknologi ini juga mengeliminasi kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna (Mallach 2000).
Arsitektur Three-Tier Data Warehouse
Data warehouse sering kali mengadopsi
arsitektur three-tier, seperti dipresentasikan
pada Gambar 5. Lapisan-lapisan arsitektur
data warehousing tersebut adalah (Han &
Kamber 2001):
1. Lapis bawah (bottom tier)
Pada lapis bawah adalah server data warehouse yang biasanya sebuah sistem
basis data relasional. Pada lapis ini data diambil dari basis data operasional dan sumber eksternal lainnya, diekstrak, dibersihkan, dan ditransformasi. Data disimpan sebagai data warehouse.
Gambar 5 Arsitektur three-tier data warehousing (Han & Kamber
2001)
2. Lapis tengah (middle tier)
Lapis tengah adalah OLAP server yang
biasanya diimplementasikan dengan OLAP Relasional (ROLAP) atau OLAP Multidimensional (MOLAP).
3. Lapis atas (top tier)
Pada lapis atas adalah lapisan front-end client, berisi query dan perangkat
pelaporan, perangkat analisis, dan/atau perangkat data mining (seperti: analisis
tren, prediksi, dan lainnya).
METODE PENELITIAN
Analisis
Data dikumpulkan dan dianalisis nilai dan atributnya untuk mendapatkan atribut-atribut yang tepat untuk membuat data warehouse.
Dari hasil analisis ini ditentukan fakta dan dimensi dan dibuat skema model data multidimensi, kemudian melalui proses data preprocessing dibuat data warehouse-nya.
Aplikasi OLAP dibangun menggunakan Palo PHP API (Application Program Interface) dan terhubung ke OLAP server
Palo yang melakukan fungsi agregasi dan terdapat kubus data di dalamnya. Palo merupakan basis data berbasis sel yang multidimensional, hirarkis, dan berbasis memori. Query dalam Palo menghasilkan satu
nilai sel tunggal, bukan baris data seperti basis data relasional. Palo merupakan OLAP multidimensional, menyimpan data dalam kubus data. Dengan dimensi yang hirarkis, kubus data Palo mampu melakukan agregasi multidimensional. Palo berbasis memori yang berimplikasi pada kecepatan. Akses data berbasis sel dilakukan pada waktu nyata (www.palo.net 2006).
Palo menyediakan Palo Excel Add-In yang terintegrasi dengan Microsoft Office Excel. Palo Excel Add-In memiliki fasilitas untuk menampilkan data dari kubus data Palo, membentuk struktur kubus data Palo, dan memuat data dari sumber eksternal ke kubus data Palo.
Aplikasi OLAP dibangun untuk mempresentasikan hasil operasi-operasi OLAP. Kelebihan aplikasi ini dibanding Palo Excel Add-In adalah berbasis web, terdapat
operasi roll-up dan drill-down dalam tabel,
dan grafik dinamis. Pengguna dapat mengevaluasi pola dengan menentukan kubus, ukuran, dimensi-dimensi, dan elemen-elemen dimensi, kemudian aplikasi akan memvisualisasikan ke bentuk yang mudah dipahami.
Data Preprocessing
Data dari berbagai sumber dikumpulkan dan dilakukan data preprocessing. Tahapan data preprocessing dalam penelitian ini
adalah:
1. Integrasi dan reduksi
Dilakukan penggabungan data dari berbagai sumber ke satu basis data. Data
7
direduksi dengan membuang atribut yang tidak menarik dan tidak relevan.
2. Pembersihan
Data dibersihkan untuk memperbaiki data yang kosong, mengandung noise, dan
tidak konsisten. Pada tahapan ini juga terdapat transformasi untuk menjaga konsistensi data.
3. Transformasi
Tranformasi ke bentuk data yang tepat agar dapat digunakan untuk proses selanjutnya. Di dalamnya meliputi penyeragaman nama atribut, generalisasi, agregasi, dan konstruksi atribut/dimensi. Akhir dari tahapan transformasi ini adalah terbentuknya sebuah data warehouse.
Dalam penelitian ini, modul program untuk membantu pemrosesan data dibuat dengan bahasa pemrograman PHP. Modul ini terdiri dari modul transfer.php dan clean.php. Modul-modul tersebut menggunakan library
ADOdb sebagai jembatan untuk mengakses basis data. Modul transfer.php dibuat karena keterbatasan fasilitas konversi dalam DBMS MsSQL Server 2000, yaitu beberapa tipe data dari data sumber tidak dapat dipetakan ke tipe data MsSQL. Modul transfer.php memiliki fungsi untuk mengkonversi data dari basis data Foxpro ke DBMS MsSQL, dan memuat data dari tabel atau view SQL ke tabel baru.
Modul clean.php memiliki fungsi untuk membersihkan data.
Aplikasi OLAP
Langkah awal pembangunan aplikasi adalah membentuk struktur kubus data dalam OLAP server Palo. Pembentukan struktur
kubus data dilakukan di Palo Excel Add-In. Namun untuk mempercepat proses pembentukan ini, dibuat suatu modul program dengan nama palo_modeller.php. Modul ini menggunakan library ADOdb sebagai
jembatan ke basis data. Modul palo_modeller.php memiliki fungsi untuk memetakan dimensi dan elemen-elemennya dari tabel dimensi data warehouse menjadi
dimensi kubus data Palo. Struktur kubus data yang sudah terbentuk kemudian diisi dengan data dari data warehouse melalui fasilitas
Data Import di Palo Excel Add-In.
Selanjutnya dilakukan perancangan aplikasi yang terdiri dari rancangan antarmuka, fungsi, class, dan modul.
Antarmuka terdiri dari dua rancangan tampilan, yaitu untuk tampilan screen dengan
resolusi 1024 × 768 pixel dan untuk tampilan
hasil cetakan. Fungsi aplikasi dirancang untuk operasi-operasi OLAP dan visualisasi hasil operasi OLAP dengan crosstab dan grafik.
Implementasi aplikasi menggunakan bahasa pemrograman PHP, Palo PHP API,
library JpGraph, dan JavaScript. Tampilan
aplikasi menggunakan kode HTML (HyperText Markup Language) dan CSS
(Cascade Style Sheets).
Nama dan fungsi dari class dan modul
utama dalam aplikasi OLAP adalah:
app: merupakan class induk yang
menjalankan aplikasi.
content: mengatur isi dari aplikasi. olap_function: menjalankan
operasi-operasi OLAP. Class ini merupakan hasil
modifikasi dari modul program palo_demo.php yang terdapat dalam Palo SDK (Software Development Kit) 1.0c.
Dalam modul palo_demo.php terdapat fungsi untuk membentuk struktur data
crosstab dan fungsi operasi roll-up dan drill-down. Palo_demo.php dimodifikasi
dengan mengubah pemrogramannya dari prosedural menjadi berorientasi objek, dan ditambah fungsi operasi slice dan dice.
olap_render: menampilkan aplikasi dalam sintaksis HTML.
olap_graph_generator: menggambar grafik hasil operasi OLAP. Class ini
menggunakan library JpGraph untuk
menghasilkan grafik.
Lingkungan Pengembangan
Aplikasi dibangun dengan menggunakan perangkat sebagai berikut:
Perangkat keras berupa komputer personal dengan spesifikasi:
Prosesor Intel Pentium 4 CPU 1.7 GHz Memori 512 MB DDR RAM
Harddisk 120 GB
Monitor 15” dengan resolusi 1024 × 768
Mouse dan Keyboard
Perangkat lunak:
Sistem Operasi Microsoft Windows XP Professional SP2
Microsoft SQL Server 2000 (perangkat lunak bantu untuk pemrosesan data dan pembuatan skema data warehouse)
8
Palo Server 1.0c (berfungsi sebagai OLAP
server yang melakukan fungsi agregasi
dan tempat penyimpanan struktur dan data kubus data multidimensi)
Palo Excel Add-In 1.0c (tempat pembuatan/pemodelan struktur kubus data dan proses pemuatan data dari data warehouse ke kubus data)
Web Server Apache 2.0.52
Bahasa pemrograman PHP 5.1.6
ADOdb 4.68 library for PHP (digunakan dalam tahapan data preprocessing dan
menghubungkan basis data MsSQL dan ODBC Foxpro dengan modul program) JpGraph 1.20 (library PHP untuk
menghasilkan grafik)
Maguma Studio Free 1.3.3 (IDE PHP) Web browser Mozilla Firefox 2.0 dan
Microsoft Internet Explorer 6.
HASIL DAN PEMBAHASAN
Analisis Data
Dari data sumber diperoleh 14 tabel dengan format Foxpro (.dbf) dan 5 tabel dengan format Excel (.xls). Analisis dilakukan terhadap data sumber tersebut untuk mendapatkan atribut-atribut yang tepat untuk
data warehouse. Daftar file data sumber ada
pada Lampiran 1.
Pada studi kasus data pelamar PPMB, semua tuple dan atribut dalam tabel data
pelamar terpilih telah tercakup dalam tabel
data pelamar, sehingga tabel data pelamar terpilih (terpilih00, terpilih01, terpilih02, terpilih03, dan terpilih04) tidak diikutsertakan dalam tabel fakta. Tabel data jumlah pelamar yang datang (dataptd2) dibuang karena sama dengan data pelamar yang sudah diagregasi. Tabel data pelamar yang dipanggil tahun 2005 (sla05ipb) juga dibuang karena datanya tidak lengkap, data yang tersedia hanya untuk tahun 2005.
Pemilihan atribut diprioritaskan berdasarkan ketentuan-ketentuan, yaitu:
1. Atribut menarik untuk dianalisis,
2. Atribut berkaitan dengan atribut atau tabel data yang lain,
3. Kombinasi nilai yang mungkin muncul tidak didominasi oleh satu nilai dan tidak terlalu banyak nilai bedanya,
4. Nilai null tidak melebihi 10%, dan
5. Pertimbangan kinerja sistem dengan mengurangi atribut.
Dari atribut-atribut yang dipilih kemudian ditentukan atribut-atribut yang dapat dijadikan ukuran dan dimensi. Hasil analisis data ditentukan empat fakta dalam dua tabel fakta dan sepuluh dimensi. Fakta terdiri dari ukuran jumlah pelamar USMI (dalam tabel fakta Pelamar), rataan pendapatan ayah, rataan IPK TPB, dan jumlah mahasiswa (dalam tabel fakta Mahasiswa). Selanjutnya dibuat skema model data multidimensi data warehouse.
Skema data warehouse yang dibangun dapat
dilihat pada Gambar 6.
Pelamar FK1 id_waktu FK2 id_asal FK3 id_kel FK4 studi_pilihan1 FK5 studi_pilihan2 FK6 studi_putusan FK7 id_listrik FK8 id_biaya FK9 id_kategori jumlah_pelamar_usmi Mahasiswa FK1 id_waktu FK2 id_jalur FK3 id_kel FK4 pendidikan_ayah FK5 pendidikan_ibu FK6 id_pek FK7 id_studi rataan_pendapatan_ayah rataan_ipk_tpb jumlah_mhs Listrik PK id_listrik listrik JenisKelamin PK id_kel lelaki_perempuan BiayaHidup PK id_biaya biaya_hidup Jalur PK id_jalur jalur Pendidikan PK id_pend pendidikan PekerjaanAyah PK id_pek pekerjaan_ayah Asal PK id_asal propinsi pulau Waktu PK id_waktu tahun_masuk KategoriSLA PK id_kategori kategori_sla Studi PK id_studi program_studi departemen fakultas
9
Integrasi dan Reduksi Data
Integrasi data dilakukan bersamaan dengan reduksi data. Integrasi dan reduksi data ini dilakukan pada awal proses data preprocessing untuk menyamakan format
basis data dan menyusutkan volume sehingga memudahkan proses-proses selanjutnya. Data diproses menjadi dua bagian besar yaitu data untuk tabel fakta Pelamar dan tabel fakta Mahasiswa.
Integrasi diawali dengan konversi seluruh data sumber (.dbf dan .xls) menjadi satu basis data dengan format Microsoft SQL Server (.mdf). Integrasi selanjutnya menggabungkan tabel-tabel menjadi satu tabel besar untuk dijadikan tabel fakta. Tabel-tabel yang akan digabungkan diidentifikasi nama atribut dan tipe datanya, kemudian dibuatkan tabel baru dengan nama atribut sesuai dengan hasil identifikasi. Penggabungan itu adalah menggabungkan tabel data pelamar (cal00ipb, cal01ipb, cal02ipb, cal03ipb, dan cal04ipb) dengan tabel data penilaian asal SMA (perak2). Penggabungan yang kedua adalah menggabungkan tabel data mahasiswa (pl_ilkom) dengan data IPK TPB mahasiswa (ipk00, ipk01, ipk02, ipk03, ipk04).
Reduksi data dilakukan dengan membuang atribut-atribut yang tidak terpilih berdasarkan hasil analisis data. Nilai-nilai atribut yang redundan dalam tabel-tabel sumber tidak disertakan dalam proses selanjutnya (dibuang).
Proses integrasi dan reduksi data membentuk tabel baru. Tabel tersebut adalah tabel pre_pelamar yang terdiri dari sepuluh atribut dan 44224 tuple. Tabel baru yang
kedua adalah tabel pre_mahasiswa yang terdiri dari sembilan atribut dan 14055 tuple.
Nama dan deskripsi atribut dari tabel-tabel tersebut dapat dilihat pada Tabel 1 dan Tabel 2.
Tabel 1 Nama dan deskripsi atribut tabel pre_pelamar hasil integrasi dan reduksi
Nama Atribut Deskripsi
tahunmasuk Tahun calon mahasiswa melamar
nosla Nomor kode asal SMU pelamar
nrp NRP pelamar yang diterima jeniskel Kode jenis kelamin
pilihan1 Kode program studi pilihan pertama
Nama Atribut Deskripsi
pilihan2 Kode program studi pilihan kedua
putusan1 Kode program studi pelamar yang diterima
listrik Kode daya listrik rumah orangtua/wali
biayahidup Perkiraan biaya hidup bulanan yang akan diperoleh pelamar
kategori Kategori penilaian IPB terhadap asal SMU pelamar Tabel 2 Nama dan deskripsi atribut tabel
pre_mahasiswa hasil integrasi dan reduksi
Nama Atribut Deskripsi
tahunmasuk Tahun mahasiswa masuk IPB jalur Kode jalur masuk mahasiswa jeniskel Kode jenis kelamin
pendayah Kode pendidikan terakhir ayah
pendibu Kode pendidikan terakhir ibu pekerjayah Kode pekerjaan ayah
nrp NRP mahasiswa
pendapatan Pendapatan ayah bulanan saat mahasiswa masuk IPK IPK TPB mahasiswa
Pembersihan Data
Pada proses pembersihan data dilakukan identifikasi terhadap data yang kosong (null),
mengandung noise, dan tidak konsisten karena
proses pengentrian data sumber maupun akibat proses integrasi data.
Noise pada atribut pendapatan di tabel
pre_mahasiswa di-update dengan nilai
pendapatan rata-rata orangtua berdasarkan kelas pekerjaan ayah. Sedangkan nilai kosong dan noise pada atribut IPK di-update menjadi
nilai rata-rata IPK dari seluruh mahasiswa. Pada proses pembersihan juga diselingi proses transformasi untuk membersihkan data yang tidak konsisten. Transformasi yang banyak terjadi di tabel pre_pelamar dan pre_mahasiswa adalah transformasi kode program studi lama menjadi kode program studi baru.
Setelah proses pembersihan, tabel pre_mahasiswa berkurang lima tuple karena
adanya penghapusan tuple menjadi 14045 tuple. Sedangkan pada tabel pre_pelamar tetap
44224 tuple. Rincian proses pembersihan data
10
Transformasi Data
Tranformasi data ke bentuk yang tepat dengan berpedoman pada skema data warehouse yang telah dibuat. Proses
transformasi ini meliputi penyeragaman nama atribut, generalisasi, agregasi, dan konstruksi atribut/dimensi.
Atribut-atribut dari tabel hasil pembersihan diubah namanya sesuai dengan nama-nama yang ada di skema. Data untuk atribut kode asal SMU pelamar (nosla) dari tabel pre_pelamar digeneralisasi dengan mengubah nilainya menjadi kode asal dengan mengambil dua digit awal dari nosla yang merepresentasikan asal propinsi pelamar. Atribut nrp dihilangkan karena mendeskripsikan hal yang sama dengan atribut putusan1, keduanya secara tidak langsung menjelaskan program studi bagi pelamar yang diterima. Data untuk atribut nomor mahasiswa (nrp) tabel pre_mahasiswa digeneralisasi menjadi kode program studi dengan mengambil empat digit awal dari nrp. Data untuk atribut pendapatan dibulatkan ke ribuan. Hasil transformasi ini dimasukkan ke dalam tabel baru, tabel pre_pelamar menjadi tabel pre2_pelamar dan tabel pre_mahasiswa menjadi tabel pre2_mahasiswa.
Langkah selanjutnya adalah menentukan nilai agregasi atribut-atribut yang menjadi ukuran. Data tabel pre2_pelamar ditentukan nilai agregasinya untuk mendapatkan ukuran jumlah pelamar dengan cara menghitung jumlah pelamar dikelompokkan berdasarkan atribut-atribut yang ada. Atribut baru dikonstruksi untuk menampung ukuran jumlah pelamar hasil agregasi. Begitu juga data tabel pre2_mahasiswa ditentukan nilai agregasinya untuk mendapatkan ukuran rataan pendapatan ayah, rataan IPK TPB, dan jumlah mahasiswa. OLAP server Palo belum
mendukung fungsi agregasi rataan. Oleh sebab itu nilai agregasi rataan ditentukan dengan menentukan nilai total dari ukuran, kemudian aplikasi membaginya dengan ukuran jumlah, hasilnya adalah rataan dari ukuran tersebut. Untuk data atribut pendapatan dan IPK dari tabel
pre2_mahasiswa ditentukan nilai totalnya dan dihitung ukuran jumlah mahasiswa, dikelompokkan berdasarkan atribut-atribut non-ukuran. Atribut baru dikonstruksi untuk ukuran jumlah mahasiswa. Hasil dari transformasi dengan operasi agregasi ini dipindahkan ke tabel baru yang merupakan tabel fakta data warehouse sesungguhnya.
Tabel-tabel baru tersebut adalah tabel dw_pelamar yang terdiri dari sembilan atribut dimensi dan satu atribut ukuran, dan dw_mahasiswa yang terdiri dari tujuh atribut dimensi dan tiga atribut ukuran.
Tahapan pemrosesan data yang terakhir adalah transformasi dengan mengkonstruksi tabel-tabel dimensi. Kesepuluh tabel dimensi itu dibuat dengan nama dw_asal, dw_listrik, dw_biayahidup, dw_kategorisla, dw_waktu, dw_jeniskelamin, dw_studi, dw_jalur, dw_pendidikan, dan dw_pekerjaanayah. Tabel dimensi Asal (dw_asal) dibuat dari generalisasi kode asal SMU, dua digit awal kode asal SMU menjelaskan asal propinsi dan digit pertama menjelaskan asal pulau. Tabel dimensi Studi (dw_studi) dibuat dari generalisasi kode NRP atau dari kode program studi, di dalamnya menjelaskan program studi, departemen, dan fakultas dari mahasiswa bersangkutan. Data dalam tabel dimensi data warehouse dapat dilihat pada Lampiran 3.
Pemuatan Data
Setelah data warehouse selesai dibuat,
langkah selanjutnya adalah pemuatan data (loading) dari data warehouse ke kubus data
OLAP server. Sebelum pemuatan data
dilakukan, skema data warehouse dimodelkan
dalam OLAP server Palo, proses ini
menentukan dimensi-dimensi, elemen-elemen dari dimensi, ukuran-ukuran, dan kubus data. Kubus data yang dibuat diberi nama Pelamar untuk tabel fakta dw_pelamar dan Mahasiswa untuk tabel fakta dw_mahasiswa. Ukuran pada struktur Palo dimasukkan dalam struktur dimensi. Selanjutnya data dimuat menggunakan fasilitas Data Import dari Excel Add-In Palo. Nama dan deskripsi dimensi dari kubus data dapat dilihat pada Tabel 3 dan Tabel 4 (halaman 11).
Tabel 3 Nama dan deskripsi dimensi dari kubus data Pelamar Nama Dimensi Deskripsi
Waktu Tahun melamar USMI (2000, 2001, 2002, 2003, dan 2004)
Asal Asal propinsi dan pulau pelamar (Jawa Barat, DKI Jakarta, Sumatera, dsb.) Jenis Kelamin Keterangan jenis kelamin pelamar (Perempuan dan Lelaki)
11
Nama Dimensi Deskripsi
Studi Pilihan2 Program studi, departemen, dan fakultas pilihan kedua pelamar Studi Putusan Program studi, departemen, dan fakultas pelamar yang diterima
Listrik Keterangan daya listrik rumah orangtua/wali (450 Watt, 900 Watt, dsb.) Biaya Hidup Keterangan perkiraan biaya hidup bulanan (< 100 Ribu, 100 – 200 Ribu, dsb.) Kategori SLA Kategori asal SMU pelamar (A+, A, A-, B+, dsb.)
Ukuran Pelamar Berisi nama-nama ukuran (Jumlah Pelamar USMI) Tabel 4 Nama dan deskripsi dimensi dari kubus data Mahasiswa Nama Dimensi Deskripsi
Waktu Tahun masuk mahasiswa (2000, 2001, 2002, 2003, dan 2004) Jalur Jalur masuk mahasiswa (USMI, UMPTN, dsb.)
Jenis Kelamin Keterangan jenis kelamin mahasiswa (Perempuan dan Lelaki) Pendidikan Ayah Keterangan pendidikan terakhir ayah
Pendidikan Ibu Keterangan pendidikan terakhir ibu
Pekerjaan Ayah Keterangan jenis pekerjaan ayah (PNS, Wiraswasta, dsb.) Program Studi Program studi, departemen, dan fakultas mahasiswa
Ukuran Mahasiswa Berisi nama-nama ukuran (Rataan Pendapatan Ayah, Rataan IPK TPB, dan Jumlah Mahasiswa)
Palo Excel Add-In Data Warehouse XLS DBF Laptop Grafik Analisa Line Plot Crosstab Workstation DBF DBF Apache PHP web server Data Pre-processing Presentasi OLAP tool Lapis bawah: Data Warehouse DBMS Lapis tengah: Web server OLAP server Lapis atas: Web browser Palo OLAP server ADOdb Palo API JpGraph MsSQL Server Data Sumber
Gambar 7 Arsitektur data warehousing dan aplikasi OLAP
Gambaran Umum Aplikasi
Arsitektur penelitian ini mengadopsi arsitektur three-tier. Pada lapisan bawah
adalah pemrosesan data dan pembuatan skema
data warehouse dengan DBMS Microsoft
SQL Server 2000. Pembentukan dan pemuatan kubus data menggunakan Palo Excel Add-In.
Di lapisan tengah aplikasi OLAP yang dibuat dengan bahasa pemrograman PHP berjalan pada web server Apache. Pada
lapisan ini terdapat OLAP server Palo yang
menyimpan data dalam kubus data. Web server mengakses kubus data Palo server
melalui Palo PHP API. Modul program untuk membantu pemrosesan data dan pembentukan kubus data menggunakan library ADOdb
sebagai jembatan ke basis data. Aplikasi OLAP menggunakan library JpGraph untuk
membangkitkan grafik.
Di lapisan atas visualisasi dari aplikasi OLAP dilakukan oleh web browser. Di
lapisan ini pengguna dapat melakukan pencarian data, mengevaluasi pola, dan mendapatkan representasi informasi dalam bentuk yang mudah dipahami yaitu crosstab
dan grafik. Arsitektur three-tier data warehousing penelitian ini dapat dilihat pada
Gambar 7.
Aplikasi OLAP menyediakan fasilitas-fasilitas berikut :
1. Menu OLAP, dimana pengguna dapat menentukan kubus data, ukuran, dan
12
2. Aplikasi OLAP dilengkapi dengan versi
portable. Versi portable ini ditujukan
untuk komputer stand-alone dan
dijalankan dalam media hard-disk atau flash-disk sehingga tidak memerlukan
instalasi dan konfigurasi web server dan
OLAP server. Pada versi ini, web server
Apache dan OLAP server Palo dijalankan
sebagai console bukan sebagai service.
Aplikasi portable sukses berjalan dalam
sistem operasi Windows XP, namun belum diuji pada sistem operasi lain.
dimensi-dimensi yang akan ditampilkan untuk dianalisis.
2. Filter dimensi, fungsi ini dapat menyaring
dimensi yang ditampilkan pada x-axis dan y-axis untuk menampilkan elemen-elemen tertentu dari dimensi. Dimensi lainnya dapat dipilih satu elemen dari tiap-tiap dimensi.
3. Visualisasi Crosstab dan Graph, dimana
data hasil operasi OLAP yang dilakukan pengguna dapat ditampilkan ke dalam bentuk tabel (crosstab) dan/atau grafik.
Grafik yang ditampilkan berupa bar plot
atau line plot.
3. Aplikasi yang dibangun dan perangkat lunak bantu yang digunakan berbasis open source dan freeware, sehingga
memudahkan pengembangan aplikasi selanjutnya.
4. Disain cetakan, dengan fitur ini aplikasi membuang tampilan yang tidak perlu pada hasil cetakan. Aplikasi hanya mencetak judul, crosstab dan/atau grafik, sedangkan
menu OLAP tidak ikut tercetak. Hasil visualisasi dapat dicetak melalui fasilitas Print pada web browser.
4. Aplikasi OLAP dirancang agar dapat digunakan untuk bermacam data warehouse, bukan hanya data warehouse
data PPMB IPB. Untuk menggunakan data warehouse lain, beberapa file konfigurasi
harus dikonfigurasi ulang. Tampilan aplikasi OLAP dapat dilihat
pada Gambar 8. Terdapat beberapa kekurangan utama pada
aplikasi, yaitu:
Kelebihan dan Kekurangan Sistem
1. Tidak ada fasilitas untuk memodelkan struktur kubus data dan memuat data baru ke dalam kubus data.
Aplikasi OLAP yang dibangun memiliki beberapa kelebihan, yaitu:
1. Aplikasi OLAP berbasis web, dapat
diterapkan dalam internet atau intranet.
Teknologi web ini mengeliminasi
kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna.
2. Crosstab hanya dapat menampilkan satu
dimensi untuk setiap axis-nya.
13
3. Tidak ada fungsi untuk melakukan operasi
pivot. Saat ini untuk melakukan operasi pivot pengguna harus menukarkan axis
dimensi dan menentukan kembali elemen-elemennya.
4. Saat ini visualisasi grafik hanya menampilkan tipe bar plot dan line plot.
Tidak ada tipe grafik pie dan lainnya.
Presentasi Hasil
Eksplorasi data dilakukan peneliti melalui aplikasi OLAP untuk menghasilkan beberapa informasi. Sebagai contoh untuk mencari pola sebaran pilihan fakultas pelamar jalur USMI berdasarkan asal pulau. Pada Lampiran 4, hasil grafik menunjukkan urutan mayoritas sebaran studi pilihan pertama pelamar dari keseluruhan asal pulau adalah fakultas FAPERTA, FMIPA, dan FATETA. Pola yang sama ditunjukkan pada Lampiran 5, untuk asal pulau dari Sumatera dan Jawa. Sedangkan presentasi grafik dengan asal pulau lainnya menunjukkan pola yang berbeda, dapat dilihat pada Lampiran 6. Untuk asal pulau Nusa Tenggara mayoritas pilihannya adalah FMIPA, FAPERTA, dan FPIK. Untuk pulau Kalimantan adalah FAPERTA, FATETA, dan FMIPA. Untuk pulau Sulawesi adalah
FAPERTA, FATETA, FMIPA, dan FPIK. Untuk pulau Irian mayoritas pilihan fakultas adalah FMIPA dan FAPERTA. Sedangkan untuk luar negeri lebih banyak memilih fakultas FMIPA. Tampilan crosstab untuk
dimensi Asal tingkatPulau dan dimensi Studi Pilihan1 tingkat Fakultas pada Lampiran 7. Dari hasil eksplorasi data sebelumnya yang menghasilkan fakultas pilihan mayoritas (FAPERTA, FMIPA, dan FATETA), analisis dilakukan lebih lanjut untuk melihat tren pilihan fakultas tiap tahun. Hasil presentasi tren pilihan tersebut dapat dilihat pada Gambar 9 dalam bentuk crosstab,dan Gambar
10 dalam bentuk grafik.
Gambar 9 Crosstab ukuran Jumlah Pelamar
USMI, dimensi Studi Pilihan1 untuk Fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk
Gambar 10 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk
14
Dilihat dari dimensi Waktu, pada tahun 2000, fakultas FMIPA dipilih oleh 1800 pelamar, hampir sama dengan FATETA dengan 1777 pelamar, sedangkan FAPERTA jauh di atas dengan 2714 siswa/siswi SMU memilihnya. Pada tahun setelah 2000 pilihan pelamar terhadap FAPERTA cenderung menurun, sedangkan FMIPA meningkat, dan FATETA cenderung stabil. Di tahun 2003 FMIPA mengalahkan FAPERTA sebagai fakultas dengan pemilih terbanyak. Pada tahun 2004 fakultas FMIPA masih menjadi fakultas pilihan terbanyak di IPB dengan 2261 pelamar, sementara FAPERTA 2129 pelamar dan FATETA 1639 pelamar.
Eksplorasi data melalui aplikasi OLAP lainnya adalah menganalisis tren perkembangan indeks prestasi mahasiswa di TPB dari program studi-program studi yang bersaing dengan program studi Ilmu Komputer. Untuk mencari program studi yang bersaing dengan Ilmu Komputer, data rataan IPK TPB setiap program studi disortir. Sepuluh program studi dengan rataan IPK mahasiswa TPB terbesar tahun masuk 2000 sampai 2004 dapat dilihat pada Gambar 11.
Gambar 11 Crosstab sepuluh program studi
dengan rataan IPK TPB terbesar Program studi Ilmu Komputer di urutan 6 dan 7 sama dengan Matematika dengan rataan IPK 2,79. Bersaing dengan Teknologi Industri Pertanian di urutan 4 (2,97), Gizi Masyarakat ke-5 (2,81), Teknik Pertanian ke-8 (2,78), Program studi Hasil Perikanan dan Biokimia
di urutan 9 dan 10 dengan rataan IPK TPB sama (2,77).
Mahasiswa Ilmu Komputer tahun masuk 2000 memiliki rataan IPK TPB dengan peringkat 5 besar (2,80) namun tahun masuk 2004 turun satu peringkat ke urutan 6 (2,84). Hal ini bukan disebabkan merosotnya rataan IPK pada tahun tersebut tetapi karena program studi Gizi Masyarakat berhasil mengangkat rataan indeks prestasinya menjadi 2,86 dan melewati rataan IPK Ilmu Komputer. Grafik garis tren rataan IPK TPB sepuluh program studi terbesar tahun masuk 2000 sampai 2004 ditunjukkan dalam Lampiran 8.
Tren perkembangan indeks prestasi TPB program studi Ilmu Komputer menurun pada mahasiswa tahun masuk 2003, hal ini menjadi bahan pencarian informasi selanjutnya. Tren tersebut dapat dilihat dalam grafik pada Gambar 12 (halaman 15). Pada tahun masuk 2001 IPK TPB rata-rata mahasiswa Ilmu Komputer adalah 2,80, pada 2001 IPK 2,82, pada 2002 IPK 2,81, pada 2003 menurun drastis menjadi 2,67, pada 2004 naik kembali ke IPK 2,84. Peneliti selanjutnya mencari lebih jauh faktor apa yang mempengaruhi penurunan IPK tersebut dengan mengevaluasi dimensi Jalur dan Jenis Kelamin. Dengan pilihan dimensi Program Studi elemen Ilmu Komputer, elemen-elemen dimensi Waktu, dan elemen-elemen dimensi Jalur, didapat hasil rataan IPK mahasiswa TPB Ilmu Komputer tahun masuk 2003 jalur USMI adalah 2,81, sedangkan jalur UMPTN/SPMB adalah 2,45. Hasil tersebut dapat dilihat dalam
crosstab pada Gambar 13 (halaman 15), dan
dalam grafik pada Lampiran 9. Karena IPK yang kecil ada pada mahasiswa jalur UMPTN/SMPB, selanjutnya dipilih dimensi Jalur elemen UMPTN/SPMB dengan tambahan elemen-elemen jenis kelamin. Hasil pilihan tersebut sebagai berikut: rataan IPK TPB mahasiswa Ilmu Komputer tahun masuk 2003 jalur UMPTN/SPMB jenis kelamin perempuan adalah IPK 2,96, sedangkan IPK TPB lelakinya 2,35. Rataan IPK tersebut dapat dilihat dalam crosstab pada Gambar 14
15
Gambar 12 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Waktu tingkat Tahun Masuk
Gambar 13 Crosstab ukuran Rataan IPK
TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer
Gambar 14 Crosstab ukuran Rataan IPK
TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB
KESIMPULAN DAN SARAN
Kesimpulan
Penelitian ini menghasilkan data warehouse data PPMB yang terdiri dari dua
kubus data. Kubus data yang pertama adalah Pelamar, berisi nilai-nilai agregasi siswa/siswi SMU yang melamar ke IPB melalui jalur USMI. Kubus data yang kedua adalah Mahasiswa, berisi nilai-nilai agregasi mahasiswa IPB.
Aplikasi OLAP mengakses data dari OLAP server Palo. Data tersebut tersimpan
dalam kubus data sehingga pengguna dapat menganalisis data multidimensional dan mendapatkan informasi dengan cepat untuk membantu proses pengambilan keputusan. Aplikasi OLAP yang dibangun dapat digunakan untuk operasi-operasi OLAP seperti roll-up, drill-down, slice, dice, dan pivot. Aplikasi ini menyediakan fasilitas menu
untuk memilih kubus data, ukuran, dan dimensi dari data warehouse data PPMB.
Dimensi yang dipilih dapat disaring untuk menentukan elemen-elemen yang diinginkan. Hasil operasi OLAP divisualisasikan dalam bentuk crosstab dan grafik yang dinamis.
16
Aplikasi OLAP memudahkan pengguna untuk mengekplorasi data PPMB IPB, tanpa harus memasukan query-query SQL yang
rumit. Hasil ekplorasi disajikan dalam bentuk informasi yang konklusif, cepat, dan menarik. Berdasarkan contoh presentasi informasi yang dihasilkan dapat dinyatakan bahwa jumlah pelamar jalur USMI didominasi oleh pelamar dari pulau Jawa dan Sumatera, dan mayoritas pelamar memilih fakultas FAPERTA, FMIPA, dan FATETA. Dapat dinyatakan juga bahwa fakultas FMIPA menjadi fakultas di IPB yang favorit berdasarkan pilihan siswa/siswi SMU, selain itu juga FMIPA mengalami perkembangan yang baik dengan jumlah pelamar terbanyak di tahun 2003 dan 2004 melebihi FAPERTA, dan jauh meninggalkan FATETA dan fakultas-fakultas lainnya.
Dari hasil contoh presentasi juga dapat dinyatakan bahwa antara tahun masuk 2000 sampai 2004 telah terjadi penurunan rataan IPK TPB yang mencolok pada mahasiswa Ilmu Komputer tahun masuk 2003. Penurunan tersebut dipengaruhi oleh mahasiswa Ilmu Komputer tahun masuk 2003 dari jalur UMPTN/SPMB dan jenis kelamin laki-laki.
Saran
Saran untuk penelitian data warehousing
dan OLAP selanjutnya adalah:
1. Dibangun modul program baru atau dikembangkan modul yang ada untuk melengkapi aplikasi OLAP. Modul yang ada terdiri dari transfer.php dan clean.php untuk tahapan data preprocessing, dan
palo_modeller.php untuk memodelkan struktur kubus data di dalam Palo. Selain itu perlu dibangun modul program untuk pemasukan data baru. Modul-modul tersebut nantinya diintegrasikan ke dalam aplikasi OLAP.
2. Dikembangkan operasi-operasi OLAP dalam aplikasi. Untuk operasi slice dan dice disempurnakan, sehingga setiap axis
dari crosstab dapat diisi dengan dua atau
lebih dimensi. Untuk operasi pivot
dibuatkan fasilitas khusus, sehingga pengguna cukup menekan satu tombol/link
untuk melakukan operasi ini.
3. Dikembangkan visualisasi hasil operasi OLAP dalam aplikasi. Pada crosstab dapat
ditambah fungsi pengurutan untuk mengurutkan data. Grafik dalam aplikasi OLAP dapat ditambah dengan tipe grafik
baru selain bar plot dan line plot. Library
JpGraph versi 1.20 dapat membangkitkan grafik dengan tipe bar, line, error, scatter, field, box and stock charts, radar, pie, polar, dan gantt chart.
4. Aplikasi OLAP dikembangkan dengan menambah fasilitas login. Dengan fasilitas
tersebut hak akses pengguna diatur sehingga aplikasi hanya diakses oleh pihak-pihak yang berkepentingan dan kerahasiaan data terjaga.
5. Dikembangkan aplikasi dengan menggunakan Palo versi terbaru. Saat penelitian ini dilakukan Palo versi 1.5 sedang dikembangkan. Rilis akhir dari Palo versi 1.5 ini lebih baik kinerja dan stabilitasnya, dan memiliki fitur-fitur baru.
17
DAFTAR PUSTAKA
Bouzeghoub M & Kedad Z. 2000. A Quality-Based Framework for Physical Data Warehouse Design. Laboratoire PRiSM,
Université de Versailles. Versailles Cedex, France.
Connolly T & Begg C. 2002. Database Systems: A Practical Approach to Design, Implementation, and Management. USA:
Addison Wesley.
Han J & Kamber M. 2001. Data Mining Concepts & Techniques. Simon Fraser
University. USA: Morgan Kaufman.
Inmon WH. 1996. Building the Data warehouse. New York, USA: John Wiley
& Sons.
Kantardzic M. 2003. Data Mining Concept, Models, Methods, dan Algorithms. New
Jersey, USA: A John Wiley & Sons. Mallach EG. 2000. Decision Support and
Data Warehouse Systems, International Edition. Singapore: McGraw-Hill.
Post GV. 2005. Database Management Systems: Designing and Building Business Applications. Ed ke-3. New York, USA:
McGraw Hill.
Silberschatz A, Korth HF, & Sudarshan S. 2006. Database System Concepts. Ed ke-5.
19
Lampiran 1 Daftar file data sumber
Nama file Jumlah
kolom Jumlah baris Keterangan
cal00ipb.dbf 116 8456 Data pelamar (USMI) tahun 2000 cal01ipb.dbf 128 9280 Data pelamar (USMI) tahun 2001 cal02ipb.dbf 129 9362 Data pelamar (USMI) tahun 2002 cal03ipb.dbf 128 8887 Data pelamar (USMI) tahun 2003 cal04ipb.dbf 133 8201 Data pelamar (USMI) tahun 2004
terpilih00.dbf 22 2221 Data pelamar yang terpilih / diterima (USMI) tahun 2000 terpilih01.dbf 127 2212 Data pelamar yang terpilih / diterima (USMI) tahun 2001 terpilih02.dbf 141 2220 Data pelamar yang terpilih / diterima (USMI) tahun 2002 terpilih03.dbf 131 2287 Data pelamar yang terpilih / diterima (USMI) tahun 2003 terpilih04.dbf 28 2370 Data pelamar yang terpilih / diterima (USMI) tahun 2004 perak2.dbf 18 4221 Data penilaian asal SMA tahun 2000 - 2004
dataptd2.dbf 9 8258 Data jumlah pelamar yang datang dan nem per asal SMA tahun 2000 - 2004 sla05ipb.dbf 57 1593 Data pelamar yang dipanggil (USMI) tahun 2005
pl_ilkom.dbf 88 14055 Data mahasiswa yang masuk (USMI & SPMB) tahun 2000 - 2004 ipk 00-04.xls 3 13870 Data IPK TPB mahasiswa tahun 2000 - 2004 (terdiri dari 5 sheet)
Lampiran 2 Rincian proses pembersihan data a. Pembersihan tabel pre_pelamar
Atribut Jumlah tuple kosong Jumlah tuple mengandung noise Jumlah tuple tidak konsisten Keterangan Aksi
tahunmasuk 0 0 0 sudah bersih, ditentukan
dari asal tabel (cal00ipb
→ 2000, cal01ipb →
2001, dst)
nosla 0 0 0 sudah bersih
nrp a) 32917 b) 1 c) 2219 b) nrp kurang 1 digit →
C0440047
c) 4 digit awal masih kode ps lama pada tahun 2000
a) update jadi 0 (tidak diterima)
b) update jadi C04400047 c) update jadi kodepsbaru
jeniskel 0 0 0 sudah bersih
pilhan1
a) 90 0 b) 17713 c) 26421 b) masih kode ps lama pada tahun 2000 dan 2001 c) kode ps kurang 1 digit pada tahun 2002, 2003, dan 2004
a) update jadi 0 (tidak memilih)
b) dan c) transformasi jadi kodepsbaru
pilihan2
a) 1107 0 b) 17397 c) 25720 b) masih kode ps lama c) kode ps kurang 1 digit a) update jadi 0 (tidak memilih) b) dan c) transformasi jadi kodepsbaru putusan1 a) 270 b) 32662 0 c) 4407 d) 6885
a) nrp ada tetapi putusan1 tidak ada pada tahun 2000 c) masih kode ps lama d) kode ps kurang 1 digit
a) isi dengan 4 digit nrp b) update jadi 0 (tidak diterima)
c) dan d) transformasi jadi kodepsbaru
20 Lampiran 2 lanjutan Atribut Jumlah tuple kosong Jumlah tuple mengandung noise Jumlah tuple tidak konsisten Keterangan Aksi
listrik 0 317 0 atribut bernilai 0 direpresentasikan sebagai pelamar tidak mengisi keterangan listrik biayahidup 0 519 0 atribut bernilai 0 direpresentasikan sebagai
pelamar tidak mengisi keterangan biaya hidup
kategori 8632 0 0 update jadi 0 (tidak
terkategori) b. Pembersihan tabel pre_mahasiswa
Atribut Jumlah tuple kosong Jumlah tuple mengandung noise Jumlah tuple tidak konsisten Keterangan Aksi
tahunmasuk 0 0 0 sudah bersih
jalur 0 0 0 sudah bersih
jeniskel 0 0 0 sudah bersih
pendayah 0 145 0 atribut bernilai 0 direpresentasikan sebagai mahasiswa tidak mengisi keterangan pendidikan ayah
pendibu 0 157 0 atribut bernilai 0 direpresentasikan sebagai mahasiswa tidak mengisi keterangan pendidikan ibu pekerjayah 0 606 0 atribut bernilai 0 direpresentasikan sebagai
mahasiswa tidak mengisi keterangan pekerjaan ayah
nrp
0 0 a) 20 b) 2916 a) terdapat 10 pasang tuple redundan
b) 4 digit awal masih kode ps lama pada tahun 2000
a) hapus tuple
redundannya
b) update jadi kodepsbaru pendapatan 0 a) 1 b) 144 0 a) pendapatan = 4 b) atribut bernilai 0
a) dan b) update jadi nilai rataan pendapatan orangtua berdasarkan kelas pekerjayah
IPK a) 185 b) 119 0 b) atribut bernilai 0 a) dan b) update jadi nilai rataan IPK dari seluruh mahasiswa
21
Lampiran 3 Data tabel dimensi data warehouse
a. Data tabel dw_asal (dimensi Asal) id_asal propinsi pulau
11 Nangroe Aceh
Darussalam Sumatera 12 Sumatera Utara Sumatera 13 Sumatera Barat Sumatera
14 Riau Sumatera
15 Jambi Sumatera
16 Sumatera Selatan Sumatera
17 Bengkulu Sumatera
18 Lampung Sumatera
31 DKI Jakarta Jawa
32 Jawa Barat Jawa
33 Jawa Tengah Jawa
34 DI Yogyakarta Jawa
35 Jawa Timur Jawa
51 Bali Nusa
Tenggara
52 Nusa Tenggara
Barat Nusa Tenggara
53 Nusa Tenggara
Timur
Nusa Tenggara
61 Kalimantan Barat Kalimantan 62 Kalimantan Tengah Kalimantan 63 Kalimantan Selatan Kalimantan 64 Kalimantan Timur Kalimantan 71 Sulawesi Utara Sulawesi 72 Sulawesi Tengah Sulawesi 73 Sulawesi Selatan Sulawesi 74 Sulawesi Tenggara Sulawesi
81 Maluku Irian
82 Papua Irian
99 Luar Negeri Luar Negeri b. Data tabel dw_biayahidup (dimensi Biaya
Hidup) id_biaya biaya_hidup 0 Tidak Tahu 1 < 100 Ribu 2 100 - 200 Ribu 3 200 - 300 Ribu 4 300 - 400 Ribu 5 400 - 500 Ribu 6 > 500 Ribu
c. Data tabel dw_jalur (dimensi Jalur) id_jalur Jalur
1 USMI
2 UMPTN/SPMB 3 PIN
6 Beasiswa/BUD
d. Data tabel dw_jeniskelamin (dimensi Jenis Kelamin)
id_kel lelaki_perempuan 0 Perempuan 1 Lelaki
e. Data tabel dw_kategorisla (dimensi Kategori SLA) id_kategori kategori_sla 0 Tidak Tahu A+ A+ A A A- A- B+ B+ B B B- B- C+ C+ C C C- C- D D
f. Data tabel dw_listrik (dimensi Listrik) id_listrik listrik 0 Tidak Tahu 1 Tidak Ada 2 450 Watt 3 900 Watt 4 1300 Watt 5 2200 Watt 6 > 2200 Watt