ABSTRAK
ABI HERLAMBANG. Pembangunan Data Warehouse dan Aplikasi OLAP Berbasis Web
Menggunakan Palo (Studi Kasus: Data PPMB IPB). Dibimbing oleh IMAS SUKAESIH SITANGGANG dan HARI AGUNG ADRIANTO.
Panitia Penerimaan Mahasiswa Baru (PPMB) IPB menerima mahasiswa baru. Data penerimaan tersebut menumpuk setiap tahunnya, dan menjadi masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik. Teknologi data warehouse dan On-Line Analytical Processing
(OLAP) dapat mengelola tumpukan data tersebut dan mempresentasikannya untuk membantu proses pengambilan keputusan. Tujuan penelitian ini adalah membangun data warehouse dan operasi-operasi OLAP, serta membangun aplikasi untuk memvisualisasikan hasil operasi-operasi OLAP. Data yang digunakan adalah data PPMB IPB dan IPK TPB IPB tahun masuk 2000 sampai 2004.
Data warehouse membentuk skema galaksi dengan dua kubus data, yaitu kubus data Pelamar dengan tujuh dimensi dan Mahasiswa dengan enam dimensi. Data dari data warehouse dianalisis dengan operasi-operasi OLAP. Aplikasi OLAP dibangun dengan bahasa pemrograman PHP, OLAP
server Palo, dan pembangkit grafik JpGraph. Fasilitas yang dimiliki aplikasi adalah menu OLAP, penyaringan dimensi, visualisasi crosstab dan grafik, dan disain cetakan. Aplikasi ini berbasis web
dan dilengkapi dengan versi portable.
Aplikasi OLAP menggunakan kubus data Palo sehingga akses data menjadi lebih cepat. Hasil ekplorasi data PPMB IPB melalui aplikasi disajikan dalam bentuk informasi yang konklusif, cepat, dan menarik dengan crosstab dan grafik dinamis. Analisis data PPMB menghasilkan beberapa informasi konklusif, misal: bahwa pelamar USMI paling banyak berasal dari Jawa dan Sumatera; dan mayoritas pelamar USMI memilih fakultas FAPERTA, FMIPA, dan FATETA.
PEMBANGUNAN
DATA WAREHOUSE
DAN
APLIKASI OLAP BERBASIS
WEB
MENGGUNAKAN PALO
(STUDI KASUS: DATA PPMB IPB)
ABI HERLAMBANG
G64101047
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
DAFTAR PUSTAKA
Bouzeghoub M & Kedad Z. 2000. A Quality-Based Framework for Physical Data Warehouse Design. Laboratoire PRiSM, Université de Versailles. Versailles Cedex, France.
Connolly T & Begg C. 2002. Database Systems: A Practical Approach to Design, Implementation, and Management. USA: Addison Wesley.
Han J & Kamber M. 2001. Data Mining Concepts & Techniques. Simon Fraser University. USA: Morgan Kaufman.
Inmon WH. 1996. Building the Data warehouse. New York, USA: John Wiley & Sons.
Kantardzic M. 2003. Data Mining Concept, Models, Methods, dan Algorithms. New Jersey, USA: A John Wiley & Sons. Mallach EG. 2000. Decision Support and
Data Warehouse Systems, International Edition. Singapore: McGraw-Hill.
Post GV. 2005. Database Management Systems: Designing and Building Business Applications. Ed ke-3. New York, USA: McGraw Hill.
PEMBANGUNAN
DATA WAREHOUSE
DAN
APLIKASI OLAP BERBASIS
WEB
MENGGUNAKAN PALO
(STUDI KASUS: DATA PPMB IPB)
ABI HERLAMBANG
G64101047
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
ABSTRAK
ABI HERLAMBANG. Pembangunan Data Warehouse dan Aplikasi OLAP Berbasis Web
Menggunakan Palo (Studi Kasus: Data PPMB IPB). Dibimbing oleh IMAS SUKAESIH SITANGGANG dan HARI AGUNG ADRIANTO.
Panitia Penerimaan Mahasiswa Baru (PPMB) IPB menerima mahasiswa baru. Data penerimaan tersebut menumpuk setiap tahunnya, dan menjadi masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik. Teknologi data warehouse dan On-Line Analytical Processing
(OLAP) dapat mengelola tumpukan data tersebut dan mempresentasikannya untuk membantu proses pengambilan keputusan. Tujuan penelitian ini adalah membangun data warehouse dan operasi-operasi OLAP, serta membangun aplikasi untuk memvisualisasikan hasil operasi-operasi OLAP. Data yang digunakan adalah data PPMB IPB dan IPK TPB IPB tahun masuk 2000 sampai 2004.
Data warehouse membentuk skema galaksi dengan dua kubus data, yaitu kubus data Pelamar dengan tujuh dimensi dan Mahasiswa dengan enam dimensi. Data dari data warehouse dianalisis dengan operasi-operasi OLAP. Aplikasi OLAP dibangun dengan bahasa pemrograman PHP, OLAP
server Palo, dan pembangkit grafik JpGraph. Fasilitas yang dimiliki aplikasi adalah menu OLAP, penyaringan dimensi, visualisasi crosstab dan grafik, dan disain cetakan. Aplikasi ini berbasis web
dan dilengkapi dengan versi portable.
Aplikasi OLAP menggunakan kubus data Palo sehingga akses data menjadi lebih cepat. Hasil ekplorasi data PPMB IPB melalui aplikasi disajikan dalam bentuk informasi yang konklusif, cepat, dan menarik dengan crosstab dan grafik dinamis. Analisis data PPMB menghasilkan beberapa informasi konklusif, misal: bahwa pelamar USMI paling banyak berasal dari Jawa dan Sumatera; dan mayoritas pelamar USMI memilih fakultas FAPERTA, FMIPA, dan FATETA.
PEMBANGUNAN
DATA WAREHOUSE
DAN
APLIKASI OLAP BERBASIS
WEB
MENGGUNAKAN PALO
(STUDI KASUS: DATA PPMB IPB)
ABI HERLAMBANG
G64101047
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Judul : Pembangunan
Data Warehouse
dan
Aplikasi OLAP Berbasis
Web
Menggunakan Palo
(Studi Kasus: Data PPMB IPB)
Nama : Abi Herlambang
NRP :
G64101047
Menyetujui:
Pembimbing I,
Imas S. Sitanggang, S.Si, M.Kom.
NIP 132206235
Pembimbing II,
Hari Agung Adrianto, S.Kom, M.Si.
NIP 132311918
Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Prof. Dr. Ir. Yonny Koesmaryono, M.S.
NIP 131473999
PRAKATA
Puji syukurPenulis panjatkan ke hadirat Allah SWT atas segala curahan rahmat dan karunia-Nya sehingga skripsi ini dapat diselesaikan. Skripsi ini merupakan hasil penelitian yang dilakukan dari Desember 2006 sampai Mei 2007 dengan bidang kajian Pembangunan Data Warehouse dan Aplikasi OLAP Berbasis Web Menggunakan Palo (Studi Kasus: Data PPMB IPB).
Penulis mengucapkan terima kasih kepada Ibu Imas S. Sitanggang, S.Si, M.Kom selaku pembimbing I yang telah memberi saran, masukan, dan ide-ide kepada Penulis dalam menyusun skripsi ini. Terima kasih juga Penulis ucapkan kepada Bapak Hari Agung Adrianto, S.Kom, M.Si selaku pembimbing II yang telah memberi saran dan masukan kepada Penulis. Ucapan terima kasih juga kepada Ibu Shelvie Nidya Neyman, S.Kom, M.Si selaku penguji yang telah membantu Penulis. Penulis juga mengucapkan terima kasih kepada:
1 Ibu dan Bapak yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada Penulis sehingga Penulis dapat menyelesaikan tugas akhir ini. Kak Yuyun, Kak Yuli, Kak Indah, Kak Rani, Kak Putri, Sunan, Pramu, dan Sisi yang tidak pernah bosan memberikan perhatian dan dukungan setiap saat dibutuhkan.
2 Kang Asep dan Bang Tomo yang menjadi tempat bertukar pikiran di tengah-tengah kesibukan Penulis mengerjakan tugas dan pekerjaan.
3 Erwin yang memberikan motivasi kepada Penulis untuk memulai mengerjakan tugas akhir.
4 Liesca, Rosy, Robi, Khamam, Didik, Nawi, dan Ifnu, teman-teman mahasiswa kadaluarsa di Lab.02 yang menemani Penulis selama mengerjakan tugas akhir.
5 Nando dan Ucup yang membantu Penulis menghilangkan rasa suntuk selama di IPB.
6 Aditama, Wulan, Bejo, May, Sue, dan Meilani, teman milis sekoetoe_98 yang memberikan semangat kepada Penulis untuk menyelesaikan tugas akhir.
7 Kawan-kawan Ilkom angkatan 38 yang telah banyak membantu Penulis selama menjalani waktu di IPB.
8 Departemen Ilmu Komputer, staf, dan dosen yang telah banyak membantu baik selama penelitian maupun pada masa perkuliahan.
Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak.
Semoga penelitian ini dapat memberikan manfaat.
Bogor, Mei 2007
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 28 Desember 1982 dari ayah Edi Sunaryo Yatim dan ibu Rojenah. Penulis merupakan anak keenam dari sembilan bersaudara.
Tahun 2001 Penulis lulus dari SMU Negeri 99 Jakarta dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Ujian Masuk Perguruan Tinggi Negeri. Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam IPB.
DAFTAR ISI
Halaman
DAFTAR TABEL ... vii
DAFTAR GAMBAR... vii
DAFTAR LAMPIRAN... viii
PENDAHULUAN Latar Belakang ... 1
Tujuan ... 1
Ruang Lingkup... 1
Manfaat ... 1
TINJAUAN PUSTAKA Data Preprocessing... 1
Data Warehouse... 3
Model Data Multidimensi ... 4
On-Line Analytical Processing (OLAP) ... 5
Arsitektur Three-TierData Warehouse... 6
METODE PENELITIAN Analisis ... 6
Data Preprocessing... 6
Aplikasi OLAP... 7
Lingkungan Pengembangan ... 7
HASIL DAN PEMBAHASAN Analisis Data... 8
Integrasi dan Reduksi Data ... 9
Pembersihan Data ... 9
Transformasi Data... 10
Pemuatan Data ... 10
Gambaran Umum Aplikasi ... 11
Kelebihan dan Kekurangan Sistem ... 12
Presentasi Hasil ... 13
KESIMPULAN DAN SARAN Kesimpulan ... 15
Saran ... 16
DAFTAR PUSTAKA ... 17
LAMPIRAN ... 18
DAFTAR TABEL
Halaman
1 Nama dan deskripsi atribut tabel pre_pelamar hasil integrasi dan reduksi... 9
2 Nama dan deskripsi atribut tabel pre_mahasiswa hasil integrasi dan reduksi ... 9
3 Nama dan deskripsi dimensi dari kubus data Pelamar ... 10
4 Nama dan deskripsi dimensi dari kubus data Mahasiswa ... 11
DAFTAR GAMBAR
Halaman 1 Representasi kubus data dengan 3 dimensi (Han & Kamber 2001) ... 42 Skema bintang (Han & Kamber 2001)... 4
3 Skema snowflake (Han & Kamber 2001)... 5
4 Skema galaksi (Han & Kamber 2001) ... 5
5 Arsitektur three-tierdata warehousing (Han & Kamber 2001)... 6
6 Skema galaksi data warehouse pelamar dan mahasiswa ... 8
7 Arsitektur data warehousing dan aplikasi OLAP ... 11
8 Contoh tampilan aplikasi OLAP ... 12
9 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk ... 13
10 Crosstab ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk Fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk ... 13
11 Crosstab sepuluh program studi dengan rataan IPK TPB terbesar ... 14
12 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Waktu tingkat Tahun Masuk ... 15
13 Crosstab ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer... 15
14 Crosstab ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB... 15
DAFTAR LAMPIRAN
Halaman
1 Daftar file data sumber ... 19
2 Rincian proses pembersihan data ... 19
3 Data tabel dimensi data warehouse... 21
4 Grafik ukuran Jumlah Pelamar USMI dan dimensi Studi Pilihan1 tingkat Fakultas ... 23
5 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Sumatera dan Jawa ... 24
6 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Nusa Tenggara, Kalimantan, Sulawesi, Irian, dan Luar Negeri ... 24
7 Crosstab dengan operasi OLAP drill-down sampai tingkat dua, ukuran Jumlah Pelamar USMI, dimensi Studi Putusan1, dan dimensi Asal... 25
8 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk 10 program studi dengan rataan IPK TPB terbesar, dan dimensi Waktu tingkat Tahun Masuk... 25
9 Grafik ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer... 26
10 Grafik ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB... 26
PENDAHULUAN
Latar Belakang
Teknologi basis data saat ini berkembang sangat pesat. Data disimpan dalam basis data, diolah kemudian disajikan sebagai informasi yang bernilai bagi pengguna. Penyimpanan data secara rutin dan terakumulasi dari waktu ke waktu akan menyebabkan terjadinya penumpukan data. Saat ini dari sisi perangkat keras media penyimpanan tidak menjadi masalah karena telah tersedia media yang mempunyai kapasitas hingga ukuran Terabyte. Namun penumpukan data tersebut menjadi masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik. Kondisi ini dikenal dengan istilah “rich of data but poor of information”.
Teknologi data warehouse dan On-Line Analytical Processing (OLAP) adalah satu solusi dari masalah penumpukan data yang kurang dimanfaatkan dengan baik. Teknologi tersebut dapat mengelola tumpukan data, dan mempresentasikannya untuk membantu proses pengambilan keputusan. Dengan bantuan aplikasi OLAP, pimpinan dari suatu organisasi dapat menganalisis sejumlah besar data yang dimiliki oleh organisasi tersebut. Hasil analisis dapat berupa pola, tren, dan kondisi tertentu yang dilakukan pada waktu nyata dengan tanggapan yang cepat terhadap pertanyaan yang diajukan hingga membantu dalam proses pengambilan keputusan.
Setiap tahun Institut Pertanian Bogor (IPB) menerima mahasiswa baru melalui satu proses seleksi. Data dari proses seleksi itu disimpan dalam basis data dan menumpuk tiap tahunnya. Informasi tersembunyi yang terkandung dalam basis data tersebut perlu dieksplorasi dan divisualisasikan ke dalam bentuk yang menarik.
Dalam penelitian ini dibangun sebuah data warehouse dan sebuah aplikasi OLAP untuk data Panitia Penerimaan Mahasiswa Baru (PPMB) IPB dengan menggunakan Palo sebagai OLAP server. Data tersebut meliputi data pelamar melalui jalur USMI dan data mahasiswa dari PPMB serta data IPK mahasiswa Tingkat Persiapan Bersama (TPB) IPB tahun masuk 2000 sampai 2004. Beberapa informasi yang dapat diperoleh dari aplikasi ini antara lain:
 Pola sebaran pilihan pelamar (calon mahasiswa) jalur USMI terhadap fakultas dilihat dari asal pulau pelamar.
 Jumlah pelamar yang program studi pilihan pertamanya ada di fakultas FMIPA tapi diterima di program studi selain fakultas FMIPA.
 Tren perkembangan indeks prestasi mahasiswa di TPB dari program studi-program studi yang bersaing dengan program studi ilmu komputer.
 Tren perkembangan indeks prestasi TPB program studi ilmu komputer yang menurun pada mahasiswa tahun masuk 2003.
Informasi lainnya dapat diperoleh dengan memilih ukuran dan dimensi tertentu yang tersedia dalam aplikasi.
Tujuan
Tujuan dari penelitian ini adalah:
1. Membangun data warehouse dan operasi-operasi OLAP untuk data PPMB IPB dan data IPK TPB IPB.
2. Membangun aplikasi untuk mem-visualisasikan hasil operasi-operasi OLAP.
Ruang Lingkup
Ruang lingkup penelitian dibatasi pada pembuatan data warehouse, implementasi operasi OLAP, dan presentasi informasi yang dapat diungkap dengan membangun aplikasi pendukung. Data yang digunakan adalah data pelamar jalur USMI dan data mahasiswa dari PPMB IPB serta data IPK mahasiswa TPB IPB tahun masuk 2000 sampai 2004.
Manfaat
Penelitian ini diharapkan bermanfaat bagi pihak-pihak yang memerlukan informasi konklusif, cepat, dan menarik dari agregat pelamar yang ikut seleksi penerimaan masuk jalur USMI dan informasi seputar agregat mahasiswa IPB sehingga dapat membantu dalam proses pengambilan keputusan.
TINJAUAN PUSTAKA
Data Preprocessing
Hal yang lumrah terjadi pada basis data adalah data tidak lengkap (tidak ada atau kurang isi pada atributnya, atau hanya berisi data agregat), mengandung noise (terdapat
pengolahan data selanjutnya (Han & Kamber 2001).
Tahapan data preprocessing adalah (Han & Kamber 2001):
1. Pembersihan data (cleaning)
Pada proses pembersihan data kotor dihilangkan dan diperbaiki. Pembersihan dilakukan dengan mengisi nilai yang kosong, mengurangi noise dan memperbaiki ketidakkonsistenan dalam data. Permasalahan data kotor dan cara membersihkannya yaitu:
 Nilai yang kosong (hilang)
Untuk mengatasi nilai yang kosong dalam data dapat dilakukan penghapusan tuple, mengganti nilainya secara manual, isi dengan konstanta global seperti ’tidak tahu’ atau ’∞’, menggunakan nilai rata-rata dari atribut yang kosong, isi dengan nilai rata-rata dari kelas yang sama, dan isi nilai yang mungkin melalui metode regresi, induksi pohon keputusan dan lain sebagainya.
 Nilai mengandung noise
Data dengan nilai yang mengandung noise dapat diganti dengan nilai hasil perhitungan dengan metode binning (mengelompokkan nilai), metode regresi, atau dengan cara pengklusteran.
 Data tidak konsisten
Data tidak konsisten diperbaiki dengan menyeragamkan data dengan menggunakan referensi eksternal. 2. Integrasi data
Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data. Proses integrasi mungkin akan menimbulkan beberapa masalah seperti masalah identifikasi entitas misalnya pada entitas yang sama terdapat nama yang berbeda. Redundancy juga menjadi salah satu masalah, terdapat lebih dari satu tuple
untuk satu data unik. Masalah lainnya yang timbul adalah konflik nilai data, disebabkan oleh perbedaan representasi nilai, misal pada satu data menggunakan satuan kilogram sedang pada data lain menggunakan satuan ton.
3. Transformasi data (transformation) Tahap transformasi data dilakukan agar data tetap konsisten dan dapat digunakan untuk proses selanjutnya dengan mengubah ke dalam bentuk yang tepat. Data dari bermacam sumber diberi format dan nama yang umum. Transformasi yang paling penting adalah transformasi nama agar tidak ada nama atribut yang sama atau atribut yang sama memiliki nama yang berbeda pada basis data yang berbeda.
Transformasi data mencakup hal berikut:
 Smoothing
Dilakukan untuk menghilangkan
noise dari data. Tekniknya meliputi
binning, regresi, dan pengklusteran.  Agregasi
Peringkasan dan agregasi diterapkan pada data. Misalnya data penjualan harian bisa diagregasi menjadi data penjualan bulanan.
 Generalisasi
Data tingkat rendah digantikan dengan tingkat yang lebih tinggi menggunakan konsep hirarki. Misal kategori jalan bisa digeneralisasikan menjadi kategori tingkat lebih tinggi yaitu kota atau negara.
 Normalisasi
Atribut data dibuat skala dengan
range yang lebih kecil.  Konstruksi atribut
Atribut baru dibuat dan ditambah dari atribut-atribut yang ada untuk membantu proses pengolahan data selanjutnya.
4. Reduksi data
Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil.
Strategi mereduksi data meliputi:  Agregasi kubus data
 Reduksi dimensi
Penghilangan atribut atau dimensi yang tidak relevan, relevansinya tidak kuat, atau redundan.
 Kompresi data
Mereduksi ukuran data dengan mekanisme encoding.
 Numerosity reduction
Data diganti atau diestimasikan dengan alternatifnya.
 Diskretisasi dan generasi konsep hirarki
Nilai-nilai data tingkat rendah diganti dengan tingkat konseptual yang lebih tinggi. Diskretisasi merupakan bentuk dari numerosity reduction yang berguna untuk generasi otomatis dari konsep hirarki.
Dijelaskan oleh Han & Kamber (2001) bahwa tahapan data preprocessing tidak terpisah sendiri-sendiri (not mutually exclusive). Mungkin saja saat proses pembersihan dilakukan, proses transformasi juga dilakukan di dalamnya.
Data Warehouse
Data warehouse menyediakan arsitektur dan alat bantu bagi pimpinan organisasi untuk mengorganisasikan secara sistematis, dipahami, dan digunakan data tersebut untuk membuat keputusan (Han & Kamber 2001).
Data warehouse adalah sekumpulan data berorientasi subjek, terintegrasi, time-variant,
dan non-volatile yang mendukung manajemen dalam proses pembuatan keputusan (Inmon 1996). Penjelasan rinci dari pengertian data warehouse adalah (Han & Kamber 2001):  Berorientasi subjek
Data warehouse disusun berdasarkan subjek yang utama, seperti pelanggan, produk atau penjualan. Data warehouse
menyediakan tampilan yang sederhana dan ringkas dengan menghilangkan data yang tidak berguna dalam proses membuat keputusan.
 Terintegrasi
Data warehouse biasanya dibangun dengan mengintegrasikan berbagai sumber data, seperti basis data relasional, flat file, dan data transaksi on-line. Teknik
pembersihan dan integrasi data diterapkan untuk memastikan data tetap konsisten.  Time-variant
Data disimpan untuk menyediakan informasi berdasarkan perspektif waktu.  Non-volatile
Data warehouse adalah tempat penyimpanan data yang terpisah dari basis data operasional sehingga hanya memerlukan pemuatan dan akses data.
Data warehouse merupakan ruang penyimpanan (atau arsip) informasi yang dikumpulkan dari berbagai sumber, disimpan dengan sebuah skema terintegrasi pada satu tempat. Data/infomasi tersebut tersimpan dalam jangka waktu yang lama, sehingga memungkinkan pengguna mengakses data historis. Data warehouse menyediakan satu tampilan data terkonsolidasi, sehingga menciptakan query untuk proses pengambilan keputusan menjadi lebih mudah. Dengan mengakses informasi dari data warehouse, proses traksaksi online tidak terganggu oleh beban kerja proses pengambilan keputusan (Silberschatz et al 2006).
Keuntungan yang didapat jika menggunakan data warehouse antara lain (Connolly & Begg 2002):
 Menghasilkan keuntungan yang kompetitif dengan cara memperbolehkan pembuat keputusan mengakses data yang dapat memunculkan informasi yang sebelumnya tidak ada, tidak diketahui, dan tidak digunakan.
 Meningkatkan produktivitas para pembuat keputusan dengan cara menciptakan basis data terintegrasi yang terdiri dari data historis yang konsisten dan berorientasi subjek.
Model Data Multidimensi
Pembuatan data warehouse didasarkan pada model data multidimensi. Model ini menampilkan data dalam bentuk kubus. Model data multidimensi terdiri dari dimensi (dimensions) dan fakta (facts) (Han & Kamber 2001).
Dimensi adalah perspektif atau entitas penting yang dimiliki oleh organisasi. Setiap dimensi mungkin memiliki satu tabel yang berasosiasi dengannya yang disebut dengan tabel dimensi yang mendeskripsikan dimensi itu sendiri. Dimensi akan berubah jika analisis kebutuhan pengguna berubah. Dimensi mendefinisikan label yang membentuk isi laporan. Tabel dimensi berukuran lebih kecil daripada tabel fakta dan berisi data tidak numerik. Pada data warehouse, kubus data merupakan kubus dengan n-dimensi (Han & Kamber 2001).
Fakta adalah ukuran-ukuran numerik, merupakan kuantitas yang akan dianalisis hubungan antar dimensinya. Tabel fakta berisi nama-nama fakta (ukuran) dan key dari tabel-tabel dimensi yang berelasi dengan tabel-tabel fakta itu. Data fakta diekstrak dari berbagai sumber. Data fakta cenderung stabil dan tidak berubah seiring waktu. Tabel fakta berukuran besar, memiliki jumlah baris sesuai dengan jumlah kombinasi nilai dimensi yang mungkin dan jumlah kolom sesuai dengan jumlah dimensi yang direpresentasikan (Han & Kamber 2001).
Gambar 1 Representasi kubus data dengan 3 dimensi (Han & Kamber 2001) Kubus data disebut juga cuboid, berasal dari banyak dimensi. Potongan cuboid yang lebih kecil dapat dibuat dengan mengambil sebagian dimensi dari sebuah cuboid besar. Potongan cuboid memiliki tingkat yang lebih tinggi (besar nilainya) dari cuboid asalnya, cuboid dengan tingkat terendah disebut base
cuboid (Han & Kamber 2001). Contoh kubus data dengan tiga dimensi ada pada Gambar 1. Kubus data tersebut memiliki dimensi time,
item, dan location, ukuran yang ditampilkan adalah dollar_sold (dalam ribuan).
Skema basis data berisi kumpulan entitas dan hubungan antarentitas. Sebuah data warehouse memerlukan skema yang ringkas dan berorientasi subjek yang dapat digunakan dalam analisis data on-line. Tipe-tipe skema model data multidimensi adalah (Han & Kamber 2001):
 Skema bintang (star schema)
Skema bintang adalah skema data warehouse yang paling sederhana. Skema ini disebut skema bintang karena hubungan antara tabel dimensi dan tabel fakta menyerupai bintang, dimana satu tabel fakta dihubungkan dengan beberapa tabel dimensi. Titik tengah skema bintang adalah satu tabel fakta besar dan sudut-sudutnya adalah tabel-tabel dimensi. Bentuk skema bintang dapat dilihat pada Gambar 2. Keuntungan yang didapat jika menggunakan skema ini adalah peningkatan kinerja data warehouse, pemrosesan query yang lebih efisien, dan waktu respon yang cepat.
Gambar 2 Skema bintang (Han & Kamber 2001)
 Skema snowflake (snowflake schema) Skema snowflake adalah variasi dari skema bintang dimana beberapa tabel dimensi dinormalisasi, jadi dihasilkan beberapa tabel tambahan. Bentuk skema
snowflake dapat dilihat pada Gambar 3 (halaman 5). Keuntungan yang didapat dengan menggunakan skema ini adalah penghematan memory, tapi waktu yang dibutuhkan untuk pemrosesan query
Gambar 3 Skema snowflake (Han & Kamber 2001)
 Skema galaksi (fact constellation)
Pada skema galaksi, beberapa tabel fakta berbagi tabel dimensi. Bentuk skema galaksi dapat dilihat pada Gambar 4. Keuntungan menggunakan skema ini adalah menghemat memory dan mengurangi kesalahan yang mungkin terjadi.
Gambar 4 Skema galaksi (Han & Kamber 2001)
On-Line Analytical Processing (OLAP)
On-Line Analytical Processing (OLAP) terdiri dari seperangkat tool untuk membantu proses analisis dan perbandingan data dalam basis data. Kegunaan utama OLAP tool adalah kemampuan interaktifnya untuk membantu pimpinan organisasi melihat data dari berbagai perspektif (Post 2005).
Tool dan metoda OLAP membantu pengguna menganalisis data pada sebuah data warehouse dengan menyediakan berbagai tampilan data, dan didukung dengan representasi grafik yang dinamis. Dalam tampilan tersebut dimensi-dimensi data berbeda menunjukkan karakteristik bisnis yang berbeda pula. OLAP tool sangat membantu untuk melihat data dimensional dari berbagai sudut pandang. OLAP tool tidak belajar dan tidak menciptakan pengetahuan baru dari data dengan sendirinya, tetapi merupakan alat bantu visualisasi khusus untuk membantu end-user menarik kesimpulan dan
keputusan. OLAP tool sangat berguna untuk proses data mining, OLAP dapat menjadi bagian dari data mining tetapi keduanya tidak bersifat substitusi (Kantardzic 2003).
Tipe-tipe operasi OLAP antara lain (Han & Kamber 2001):
 Roll-up
Operasi ini melakukan agregasi pada kubus data dengan cara menaikkan tingkat suatu hirarki konsep atau mengurangi dimensi. Misalkan pada kubus data dari kelompok kota di-roll up menjadi kelompok propinsi atau negara. Contoh lainnya kubus data menampilkan agregasi total penjualan berdasarkan lokasi dan waktu, roll up mereduksi dimensi dapat dilakukan dengan menurunkan tingkat suatu hirarki konsep atau menambahkan dimensi menghilangkan waktu sehingga hanya menampilkan agregasi total penjualan berdasarkan lokasi.
 Drill-down
Drill-down adalah kebalikan dari roll-up. Operasi ini mempresentasikan data menjadi lebih detil. Drill-down dilakukan dengan cara menurunkan tingkat suatu hirarki konsep atau menambahkan dimensi. Misalkan dari kelompok tahun
di-drill down menjadi kelompok triwulan, bulan, atau hari.
 Slice dan dice
Operasi slice melakukan pemilihan satu dimensi dari kubus data sehingga menghasilkan bagian kubus (subcube). Operasi dice menghasilkan bagian kubus (subcube) dengan melakukan pemilihan dua atau lebih dimensi.
 Pivot (rotate)
Pivot adalah operasi visualisasi dengan memutar koordinat data pada tampilan yang bertujuan untuk menyediakan presentasi alternatif dari data.
Satu kategori dari OLAP yang mulai muncul pada tahun 1997 adalah Web-based
OLAP (WOLAP). Dengan produk ini pengguna web browser atau komputer dalam jaringan dapat mengakses dan menganalisis data dalam data warehouse. WOLAP dapat diterapkan dalam internet atau intranet, namun banyak organisasi lebih memilih
yang diperlukan dan terhubung dengan jaringan komputer yang benar. Teknologi ini juga mengeliminasi kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna (Mallach 2000).
Arsitektur Three-TierData Warehouse
Data warehouse sering kali mengadopsi arsitektur three-tier, seperti dipresentasikan pada Gambar 5. Lapisan-lapisan arsitektur
data warehousing tersebut adalah (Han & Kamber 2001):
1. Lapis bawah (bottom tier)
Pada lapis bawah adalah server data warehouse yang biasanya sebuah sistem basis data relasional. Pada lapis ini data diambil dari basis data operasional dan sumber eksternal lainnya, diekstrak, dibersihkan, dan ditransformasi. Data disimpan sebagai data warehouse.
Gambar 5 Arsitektur three-tier data warehousing (Han & Kamber 2001)
2. Lapis tengah (middle tier)
Lapis tengah adalah OLAP server yang biasanya diimplementasikan dengan OLAP Relasional (ROLAP) atau OLAP Multidimensional (MOLAP).
3. Lapis atas (top tier)
Pada lapis atas adalah lapisan front-end client, berisi query dan perangkat pelaporan, perangkat analisis, dan/atau perangkat data mining (seperti: analisis tren, prediksi, dan lainnya).
METODE PENELITIAN
Analisis
Data dikumpulkan dan dianalisis nilai dan atributnya untuk mendapatkan atribut-atribut yang tepat untuk membuat data warehouse. Dari hasil analisis ini ditentukan fakta dan dimensi dan dibuat skema model data multidimensi, kemudian melalui proses data preprocessing dibuat data warehouse-nya. Aplikasi OLAP dibangun menggunakan Palo PHP API (Application Program Interface) dan terhubung ke OLAP server
Palo yang melakukan fungsi agregasi dan terdapat kubus data di dalamnya. Palo merupakan basis data berbasis sel yang multidimensional, hirarkis, dan berbasis memori. Query dalam Palo menghasilkan satu nilai sel tunggal, bukan baris data seperti basis data relasional. Palo merupakan OLAP multidimensional, menyimpan data dalam kubus data. Dengan dimensi yang hirarkis, kubus data Palo mampu melakukan agregasi multidimensional. Palo berbasis memori yang berimplikasi pada kecepatan. Akses data berbasis sel dilakukan pada waktu nyata (www.palo.net 2006).
Palo menyediakan Palo Excel Add-In yang terintegrasi dengan Microsoft Office Excel. Palo Excel Add-In memiliki fasilitas untuk menampilkan data dari kubus data Palo, membentuk struktur kubus data Palo, dan memuat data dari sumber eksternal ke kubus data Palo.
Aplikasi OLAP dibangun untuk mempresentasikan hasil operasi-operasi OLAP. Kelebihan aplikasi ini dibanding Palo Excel Add-In adalah berbasis web, terdapat operasi roll-up dan drill-down dalam tabel, dan grafik dinamis. Pengguna dapat mengevaluasi pola dengan menentukan kubus, ukuran, dimensi-dimensi, dan elemen-elemen dimensi, kemudian aplikasi akan memvisualisasikan ke bentuk yang mudah dipahami.
Data Preprocessing
Data dari berbagai sumber dikumpulkan dan dilakukan data preprocessing. Tahapan
data preprocessing dalam penelitian ini adalah:
1. Integrasi dan reduksi
direduksi dengan membuang atribut yang tidak menarik dan tidak relevan.
2. Pembersihan
Data dibersihkan untuk memperbaiki data yang kosong, mengandung noise, dan tidak konsisten. Pada tahapan ini juga terdapat transformasi untuk menjaga konsistensi data.
3. Transformasi
Tranformasi ke bentuk data yang tepat agar dapat digunakan untuk proses selanjutnya. Di dalamnya meliputi penyeragaman nama atribut, generalisasi, agregasi, dan konstruksi atribut/dimensi. Akhir dari tahapan transformasi ini adalah terbentuknya sebuah data warehouse. Dalam penelitian ini, modul program untuk membantu pemrosesan data dibuat dengan bahasa pemrograman PHP. Modul ini terdiri dari modul transfer.php dan clean.php. Modul-modul tersebut menggunakan library
ADOdb sebagai jembatan untuk mengakses basis data. Modul transfer.php dibuat karena keterbatasan fasilitas konversi dalam DBMS MsSQL Server 2000, yaitu beberapa tipe data dari data sumber tidak dapat dipetakan ke tipe data MsSQL. Modul transfer.php memiliki fungsi untuk mengkonversi data dari basis data Foxpro ke DBMS MsSQL, dan memuat data dari tabel atau view SQL ke tabel baru. Modul clean.php memiliki fungsi untuk membersihkan data.
Aplikasi OLAP
Langkah awal pembangunan aplikasi adalah membentuk struktur kubus data dalam OLAP server Palo. Pembentukan struktur kubus data dilakukan di Palo Excel Add-In. Namun untuk mempercepat proses pembentukan ini, dibuat suatu modul program dengan nama palo_modeller.php. Modul ini menggunakan library ADOdb sebagai jembatan ke basis data. Modul palo_modeller.php memiliki fungsi untuk memetakan dimensi dan elemen-elemennya dari tabel dimensi data warehouse menjadi dimensi kubus data Palo. Struktur kubus data yang sudah terbentuk kemudian diisi dengan data dari data warehouse melalui fasilitas Data Import di Palo Excel Add-In.
Selanjutnya dilakukan perancangan aplikasi yang terdiri dari rancangan antarmuka, fungsi, class, dan modul. Antarmuka terdiri dari dua rancangan tampilan, yaitu untuk tampilan screen dengan
resolusi 1024 × 768 pixel dan untuk tampilan hasil cetakan. Fungsi aplikasi dirancang untuk operasi-operasi OLAP dan visualisasi hasil operasi OLAP dengan crosstab dan grafik. Implementasi aplikasi menggunakan bahasa pemrograman PHP, Palo PHP API,
library JpGraph, dan JavaScript. Tampilan aplikasi menggunakan kode HTML (HyperText Markup Language) dan CSS (Cascade Style Sheets).
Nama dan fungsi dari class dan modul utama dalam aplikasi OLAP adalah:
 app: merupakan class induk yang menjalankan aplikasi.
 content: mengatur isi dari aplikasi.  olap_function: menjalankan
operasi-operasi OLAP. Class ini merupakan hasil modifikasi dari modul program palo_demo.php yang terdapat dalam Palo SDK (Software Development Kit) 1.0c. Dalam modul palo_demo.php terdapat fungsi untuk membentuk struktur data
crosstab dan fungsi operasi roll-up dan
drill-down. Palo_demo.php dimodifikasi dengan mengubah pemrogramannya dari prosedural menjadi berorientasi objek, dan ditambah fungsi operasi slice dan dice.  olap_render: menampilkan aplikasi dalam
sintaksis HTML.
 olap_graph_generator: menggambar grafik hasil operasi OLAP. Class ini menggunakan library JpGraph untuk menghasilkan grafik.
Lingkungan Pengembangan
Aplikasi dibangun dengan menggunakan perangkat sebagai berikut:
Perangkat keras berupa komputer personal dengan spesifikasi:
 Prosesor Intel Pentium 4 CPU 1.7 GHz  Memori 512 MB DDR RAM
 Harddisk 120 GB
 Monitor 15” dengan resolusi 1024 × 768  Mouse dan Keyboard
Perangkat lunak:
 Sistem Operasi Microsoft Windows XP Professional SP2
 Palo Server 1.0c (berfungsi sebagai OLAP
server yang melakukan fungsi agregasi dan tempat penyimpanan struktur dan data kubus data multidimensi)
 Palo Excel Add-In 1.0c (tempat pembuatan/pemodelan struktur kubus data dan proses pemuatan data dari data warehouse ke kubus data)
 Web Server Apache 2.0.52  Bahasa pemrograman PHP 5.1.6
 ADOdb 4.68 library for PHP (digunakan dalam tahapan data preprocessing dan menghubungkan basis data MsSQL dan ODBC Foxpro dengan modul program)  JpGraph 1.20 (library PHP untuk
menghasilkan grafik)
 Maguma Studio Free 1.3.3 (IDE PHP)  Web browser Mozilla Firefox 2.0 dan
Microsoft Internet Explorer 6.
HASIL DAN PEMBAHASAN
Analisis Data
Dari data sumber diperoleh 14 tabel dengan format Foxpro (.dbf) dan 5 tabel dengan format Excel (.xls). Analisis dilakukan terhadap data sumber tersebut untuk mendapatkan atribut-atribut yang tepat untuk
data warehouse. Daftar file data sumber ada pada Lampiran 1.
Pada studi kasus data pelamar PPMB, semua tuple dan atribut dalam tabel data pelamar terpilih telah tercakup dalam tabel
data pelamar, sehingga tabel data pelamar terpilih (terpilih00, terpilih01, terpilih02, terpilih03, dan terpilih04) tidak diikutsertakan dalam tabel fakta. Tabel data jumlah pelamar yang datang (dataptd2) dibuang karena sama dengan data pelamar yang sudah diagregasi. Tabel data pelamar yang dipanggil tahun 2005 (sla05ipb) juga dibuang karena datanya tidak lengkap, data yang tersedia hanya untuk tahun 2005.
Pemilihan atribut diprioritaskan berdasarkan ketentuan-ketentuan, yaitu:
1. Atribut menarik untuk dianalisis,
2. Atribut berkaitan dengan atribut atau tabel data yang lain,
3. Kombinasi nilai yang mungkin muncul tidak didominasi oleh satu nilai dan tidak terlalu banyak nilai bedanya,
4. Nilai null tidak melebihi 10%, dan
5. Pertimbangan kinerja sistem dengan mengurangi atribut.
Dari atribut-atribut yang dipilih kemudian ditentukan atribut-atribut yang dapat dijadikan ukuran dan dimensi. Hasil analisis data ditentukan empat fakta dalam dua tabel fakta dan sepuluh dimensi. Fakta terdiri dari ukuran jumlah pelamar USMI (dalam tabel fakta Pelamar), rataan pendapatan ayah, rataan IPK TPB, dan jumlah mahasiswa (dalam tabel fakta Mahasiswa). Selanjutnya dibuat skema model data multidimensi data warehouse. Skema data warehouse yang dibangun dapat dilihat pada Gambar 6.
Pelamar FK1 id_waktu FK2 id_asal FK3 id_kel FK4 studi_pilihan1 FK5 studi_pilihan2 FK6 studi_putusan FK7 id_listrik FK8 id_biaya FK9 id_kategori jumlah_pelamar_usmi Mahasiswa FK1 id_waktu FK2 id_jalur FK3 id_kel FK4 pendidikan_ayah FK5 pendidikan_ibu FK6 id_pek FK7 id_studi rataan_pendapatan_ayah rataan_ipk_tpb jumlah_mhs Listrik PK id_listrik listrik JenisKelamin PK id_kel lelaki_perempuan BiayaHidup PK id_biaya biaya_hidup Jalur PK id_jalur jalur Pendidikan PK id_pend pendidikan PekerjaanAyah PK id_pek pekerjaan_ayah Asal PK id_asal propinsi pulau Waktu PK id_waktu tahun_masuk KategoriSLA PK id_kategori kategori_sla Studi PK id_studi program_studi departemen fakultas
Integrasi dan Reduksi Data
Integrasi data dilakukan bersamaan dengan reduksi data. Integrasi dan reduksi data ini dilakukan pada awal proses data preprocessing untuk menyamakan format basis data dan menyusutkan volume sehingga memudahkan proses-proses selanjutnya. Data diproses menjadi dua bagian besar yaitu data untuk tabel fakta Pelamar dan tabel fakta Mahasiswa.
Integrasi diawali dengan konversi seluruh data sumber (.dbf dan .xls) menjadi satu basis data dengan format Microsoft SQL Server (.mdf). Integrasi selanjutnya menggabungkan tabel-tabel menjadi satu tabel besar untuk dijadikan tabel fakta. Tabel-tabel yang akan digabungkan diidentifikasi nama atribut dan tipe datanya, kemudian dibuatkan tabel baru dengan nama atribut sesuai dengan hasil identifikasi. Penggabungan itu adalah menggabungkan tabel data pelamar (cal00ipb, cal01ipb, cal02ipb, cal03ipb, dan cal04ipb) dengan tabel data penilaian asal SMA (perak2). Penggabungan yang kedua adalah menggabungkan tabel data mahasiswa (pl_ilkom) dengan data IPK TPB mahasiswa (ipk00, ipk01, ipk02, ipk03, ipk04).
Reduksi data dilakukan dengan membuang atribut-atribut yang tidak terpilih berdasarkan hasil analisis data. Nilai-nilai atribut yang redundan dalam tabel-tabel sumber tidak disertakan dalam proses selanjutnya (dibuang).
Proses integrasi dan reduksi data membentuk tabel baru. Tabel tersebut adalah tabel pre_pelamar yang terdiri dari sepuluh atribut dan 44224 tuple. Tabel baru yang kedua adalah tabel pre_mahasiswa yang terdiri dari sembilan atribut dan 14055 tuple. Nama dan deskripsi atribut dari tabel-tabel tersebut dapat dilihat pada Tabel 1 dan Tabel 2.
Tabel 1 Nama dan deskripsi atribut tabel pre_pelamar hasil integrasi dan reduksi
Nama Atribut Deskripsi
tahunmasuk Tahun calon mahasiswa melamar
nosla Nomor kode asal SMU pelamar
nrp NRP pelamar yang diterima jeniskel Kode jenis kelamin
pilihan1 Kode program studi pilihan pertama
Nama Atribut Deskripsi
pilihan2 Kode program studi pilihan kedua
putusan1 Kode program studi pelamar yang diterima
listrik Kode daya listrik rumah orangtua/wali
biayahidup Perkiraan biaya hidup bulanan yang akan diperoleh pelamar
kategori Kategori penilaian IPB terhadap asal SMU pelamar
Tabel 2 Nama dan deskripsi atribut tabel pre_mahasiswa hasil integrasi dan reduksi
Nama Atribut Deskripsi
tahunmasuk Tahun mahasiswa masuk IPB jalur Kode jalur masuk mahasiswa jeniskel Kode jenis kelamin
pendayah Kode pendidikan terakhir ayah
pendibu Kode pendidikan terakhir ibu pekerjayah Kode pekerjaan ayah nrp NRP mahasiswa pendapatan Pendapatan ayah bulanan
saat mahasiswa masuk IPK IPK TPB mahasiswa
Pembersihan Data
Pada proses pembersihan data dilakukan identifikasi terhadap data yang kosong (null), mengandung noise, dan tidak konsisten karena proses pengentrian data sumber maupun akibat proses integrasi data.
Noise pada atribut pendapatan di tabel pre_mahasiswa di-update dengan nilai pendapatan rata-rata orangtua berdasarkan kelas pekerjaan ayah. Sedangkan nilai kosong dan noise pada atribut IPK di-update menjadi nilai rata-rata IPK dari seluruh mahasiswa. Pada proses pembersihan juga diselingi proses transformasi untuk membersihkan data yang tidak konsisten. Transformasi yang banyak terjadi di tabel pre_pelamar dan pre_mahasiswa adalah transformasi kode program studi lama menjadi kode program studi baru.
Setelah proses pembersihan, tabel pre_mahasiswa berkurang lima tuple karena adanya penghapusan tuple menjadi 14045
Transformasi Data
Tranformasi data ke bentuk yang tepat dengan berpedoman pada skema data warehouse yang telah dibuat. Proses transformasi ini meliputi penyeragaman nama atribut, generalisasi, agregasi, dan konstruksi atribut/dimensi.
Atribut-atribut dari tabel hasil pembersihan diubah namanya sesuai dengan nama-nama yang ada di skema. Data untuk atribut kode asal SMU pelamar (nosla) dari tabel pre_pelamar digeneralisasi dengan mengubah nilainya menjadi kode asal dengan mengambil dua digit awal dari nosla yang merepresentasikan asal propinsi pelamar. Atribut nrp dihilangkan karena mendeskripsikan hal yang sama dengan atribut putusan1, keduanya secara tidak langsung menjelaskan program studi bagi pelamar yang diterima. Data untuk atribut nomor mahasiswa (nrp) tabel pre_mahasiswa digeneralisasi menjadi kode program studi dengan mengambil empat digit awal dari nrp. Data untuk atribut pendapatan dibulatkan ke ribuan. Hasil transformasi ini dimasukkan ke dalam tabel baru, tabel pre_pelamar menjadi tabel pre2_pelamar dan tabel pre_mahasiswa menjadi tabel pre2_mahasiswa.
Langkah selanjutnya adalah menentukan nilai agregasi atribut-atribut yang menjadi ukuran. Data tabel pre2_pelamar ditentukan nilai agregasinya untuk mendapatkan ukuran jumlah pelamar dengan cara menghitung jumlah pelamar dikelompokkan berdasarkan atribut-atribut yang ada. Atribut baru dikonstruksi untuk menampung ukuran jumlah pelamar hasil agregasi. Begitu juga data tabel pre2_mahasiswa ditentukan nilai agregasinya untuk mendapatkan ukuran rataan pendapatan ayah, rataan IPK TPB, dan jumlah mahasiswa. OLAP server Palo belum mendukung fungsi agregasi rataan. Oleh sebab itu nilai agregasi rataan ditentukan dengan menentukan nilai total dari ukuran, kemudian aplikasi membaginya dengan ukuran jumlah, hasilnya adalah rataan dari ukuran tersebut. Untuk data atribut pendapatan dan IPK dari tabel
pre2_mahasiswa ditentukan nilai totalnya dan dihitung ukuran jumlah mahasiswa, dikelompokkan berdasarkan atribut-atribut non-ukuran. Atribut baru dikonstruksi untuk ukuran jumlah mahasiswa. Hasil dari transformasi dengan operasi agregasi ini dipindahkan ke tabel baru yang merupakan tabel fakta data warehouse sesungguhnya. Tabel-tabel baru tersebut adalah tabel dw_pelamar yang terdiri dari sembilan atribut dimensi dan satu atribut ukuran, dan dw_mahasiswa yang terdiri dari tujuh atribut dimensi dan tiga atribut ukuran.
Tahapan pemrosesan data yang terakhir adalah transformasi dengan mengkonstruksi tabel-tabel dimensi. Kesepuluh tabel dimensi itu dibuat dengan nama dw_asal, dw_listrik, dw_biayahidup, dw_kategorisla, dw_waktu, dw_jeniskelamin, dw_studi, dw_jalur, dw_pendidikan, dan dw_pekerjaanayah. Tabel dimensi Asal (dw_asal) dibuat dari generalisasi kode asal SMU, dua digit awal kode asal SMU menjelaskan asal propinsi dan digit pertama menjelaskan asal pulau. Tabel dimensi Studi (dw_studi) dibuat dari generalisasi kode NRP atau dari kode program studi, di dalamnya menjelaskan program studi, departemen, dan fakultas dari mahasiswa bersangkutan. Data dalam tabel dimensi data warehouse dapat dilihat pada Lampiran 3.
Pemuatan Data
Setelah data warehouse selesai dibuat, langkah selanjutnya adalah pemuatan data (loading) dari data warehouse ke kubus data OLAP server. Sebelum pemuatan data dilakukan, skema data warehouse dimodelkan dalam OLAP server Palo, proses ini menentukan dimensi-dimensi, elemen-elemen dari dimensi, ukuran-ukuran, dan kubus data. Kubus data yang dibuat diberi nama Pelamar untuk tabel fakta dw_pelamar dan Mahasiswa untuk tabel fakta dw_mahasiswa. Ukuran pada struktur Palo dimasukkan dalam struktur dimensi. Selanjutnya data dimuat menggunakan fasilitas Data Import dari Excel Add-In Palo. Nama dan deskripsi dimensi dari kubus data dapat dilihat pada Tabel 3 dan Tabel 4 (halaman 11).
Tabel 3 Nama dan deskripsi dimensi dari kubus data Pelamar Nama Dimensi Deskripsi
Waktu Tahun melamar USMI (2000, 2001, 2002, 2003, dan 2004)
Asal Asal propinsi dan pulau pelamar (Jawa Barat, DKI Jakarta, Sumatera, dsb.) Jenis Kelamin Keterangan jenis kelamin pelamar (Perempuan dan Lelaki)
Nama Dimensi Deskripsi
Studi Pilihan2 Program studi, departemen, dan fakultas pilihan kedua pelamar Studi Putusan Program studi, departemen, dan fakultas pelamar yang diterima
Listrik Keterangan daya listrik rumah orangtua/wali (450 Watt, 900 Watt, dsb.) Biaya Hidup Keterangan perkiraan biaya hidup bulanan (< 100 Ribu, 100 – 200 Ribu, dsb.) Kategori SLA Kategori asal SMU pelamar (A+, A, A-, B+, dsb.)
Ukuran Pelamar Berisi nama-nama ukuran (Jumlah Pelamar USMI)
Tabel 4 Nama dan deskripsi dimensi dari kubus data Mahasiswa Nama Dimensi Deskripsi
Waktu Tahun masuk mahasiswa (2000, 2001, 2002, 2003, dan 2004) Jalur Jalur masuk mahasiswa (USMI, UMPTN, dsb.)
Jenis Kelamin Keterangan jenis kelamin mahasiswa (Perempuan dan Lelaki) Pendidikan Ayah Keterangan pendidikan terakhir ayah
Pendidikan Ibu Keterangan pendidikan terakhir ibu
Pekerjaan Ayah Keterangan jenis pekerjaan ayah (PNS, Wiraswasta, dsb.) Program Studi Program studi, departemen, dan fakultas mahasiswa
Ukuran Mahasiswa Berisi nama-nama ukuran (Rataan Pendapatan Ayah, Rataan IPK TPB, dan Jumlah Mahasiswa)
Palo Excel Add-In Data
Warehouse XLS
DBF
Laptop
Grafik Analisa Line Plot
Crosstab Workstation
DBF DBF
Apache PHP web server
Data Pre-processing
Presentasi OLAP tool
Lapis bawah: Data Warehouse DBMS
Lapis tengah: Web server OLAP server
Lapis atas: Web browser Palo
OLAP server ADOdb
Palo API
JpGraph MsSQL Server
Data Sumber
Gambar 7 Arsitektur data warehousing dan aplikasi OLAP
Gambaran Umum Aplikasi
Arsitektur penelitian ini mengadopsi arsitektur three-tier. Pada lapisan bawah adalah pemrosesan data dan pembuatan skema
data warehouse dengan DBMS Microsoft SQL Server 2000. Pembentukan dan pemuatan kubus data menggunakan Palo Excel Add-In.
Di lapisan tengah aplikasi OLAP yang dibuat dengan bahasa pemrograman PHP berjalan pada web server Apache. Pada lapisan ini terdapat OLAP server Palo yang menyimpan data dalam kubus data. Web server mengakses kubus data Palo server
melalui Palo PHP API. Modul program untuk membantu pemrosesan data dan pembentukan kubus data menggunakan library ADOdb
sebagai jembatan ke basis data. Aplikasi OLAP menggunakan library JpGraph untuk membangkitkan grafik.
Di lapisan atas visualisasi dari aplikasi OLAP dilakukan oleh web browser. Di lapisan ini pengguna dapat melakukan pencarian data, mengevaluasi pola, dan mendapatkan representasi informasi dalam bentuk yang mudah dipahami yaitu crosstab
dan grafik. Arsitektur three-tier data warehousing penelitian ini dapat dilihat pada Gambar 7.
Aplikasi OLAP menyediakan fasilitas-fasilitas berikut :
2. Aplikasi OLAP dilengkapi dengan versi
portable. Versi portable ini ditujukan untuk komputer stand-alone dan dijalankan dalam media hard-disk atau
flash-disk sehingga tidak memerlukan instalasi dan konfigurasi web server dan OLAP server. Pada versi ini, web server
Apache dan OLAP server Palo dijalankan sebagai console bukan sebagai service. Aplikasi portable sukses berjalan dalam sistem operasi Windows XP, namun belum diuji pada sistem operasi lain.
dimensi-dimensi yang akan ditampilkan untuk dianalisis.
2. Filter dimensi, fungsi ini dapat menyaring dimensi yang ditampilkan pada x-axis dan y-axis untuk menampilkan elemen-elemen tertentu dari dimensi. Dimensi lainnya dapat dipilih satu elemen dari tiap-tiap dimensi.
3. Visualisasi Crosstab dan Graph, dimana data hasil operasi OLAP yang dilakukan pengguna dapat ditampilkan ke dalam bentuk tabel (crosstab) dan/atau grafik. Grafik yang ditampilkan berupa bar plot
atau line plot.
3. Aplikasi yang dibangun dan perangkat lunak bantu yang digunakan berbasis open source dan freeware, sehingga memudahkan pengembangan aplikasi selanjutnya.
4. Disain cetakan, dengan fitur ini aplikasi membuang tampilan yang tidak perlu pada hasil cetakan. Aplikasi hanya mencetak judul, crosstab dan/atau grafik, sedangkan menu OLAP tidak ikut tercetak. Hasil visualisasi dapat dicetak melalui fasilitas Print pada web browser.
4. Aplikasi OLAP dirancang agar dapat digunakan untuk bermacam data warehouse, bukan hanya data warehouse
data PPMB IPB. Untuk menggunakan data warehouse lain, beberapa file konfigurasi harus dikonfigurasi ulang.
Tampilan aplikasi OLAP dapat dilihat pada Gambar 8.
Terdapat beberapa kekurangan utama pada aplikasi, yaitu:
Kelebihan dan Kekurangan Sistem
1. Tidak ada fasilitas untuk memodelkan struktur kubus data dan memuat data baru ke dalam kubus data.
Aplikasi OLAP yang dibangun memiliki beberapa kelebihan, yaitu:
1. Aplikasi OLAP berbasis web, dapat diterapkan dalam internet atau intranet. Teknologi web ini mengeliminasi kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna.
2. Crosstab hanya dapat menampilkan satu dimensi untuk setiap axis-nya.
3. Tidak ada fungsi untuk melakukan operasi
pivot. Saat ini untuk melakukan operasi
pivot pengguna harus menukarkan axis
dimensi dan menentukan kembali elemen-elemennya.
4. Saat ini visualisasi grafik hanya menampilkan tipe bar plot dan line plot. Tidak ada tipe grafik pie dan lainnya.
Presentasi Hasil
Eksplorasi data dilakukan peneliti melalui aplikasi OLAP untuk menghasilkan beberapa informasi. Sebagai contoh untuk mencari pola sebaran pilihan fakultas pelamar jalur USMI berdasarkan asal pulau. Pada Lampiran 4, hasil grafik menunjukkan urutan mayoritas sebaran studi pilihan pertama pelamar dari keseluruhan asal pulau adalah fakultas FAPERTA, FMIPA, dan FATETA. Pola yang sama ditunjukkan pada Lampiran 5, untuk asal pulau dari Sumatera dan Jawa. Sedangkan presentasi grafik dengan asal pulau lainnya menunjukkan pola yang berbeda, dapat dilihat pada Lampiran 6. Untuk asal pulau Nusa Tenggara mayoritas pilihannya adalah FMIPA, FAPERTA, dan FPIK. Untuk pulau Kalimantan adalah FAPERTA, FATETA, dan FMIPA. Untuk pulau Sulawesi adalah
FAPERTA, FATETA, FMIPA, dan FPIK. Untuk pulau Irian mayoritas pilihan fakultas adalah FMIPA dan FAPERTA. Sedangkan untuk luar negeri lebih banyak memilih fakultas FMIPA. Tampilan crosstab untuk dimensi Asal tingkatPulau dan dimensi Studi Pilihan1 tingkat Fakultas pada Lampiran 7. Dari hasil eksplorasi data sebelumnya yang menghasilkan fakultas pilihan mayoritas (FAPERTA, FMIPA, dan FATETA), analisis dilakukan lebih lanjut untuk melihat tren pilihan fakultas tiap tahun. Hasil presentasi tren pilihan tersebut dapat dilihat pada Gambar 9 dalam bentuk crosstab,dan Gambar 10 dalam bentuk grafik.
Gambar 9 Crosstab ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk Fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk
Dilihat dari dimensi Waktu, pada tahun 2000, fakultas FMIPA dipilih oleh 1800 pelamar, hampir sama dengan FATETA dengan 1777 pelamar, sedangkan FAPERTA jauh di atas dengan 2714 siswa/siswi SMU memilihnya. Pada tahun setelah 2000 pilihan pelamar terhadap FAPERTA cenderung menurun, sedangkan FMIPA meningkat, dan FATETA cenderung stabil. Di tahun 2003 FMIPA mengalahkan FAPERTA sebagai fakultas dengan pemilih terbanyak. Pada tahun 2004 fakultas FMIPA masih menjadi fakultas pilihan terbanyak di IPB dengan 2261 pelamar, sementara FAPERTA 2129 pelamar dan FATETA 1639 pelamar.
Eksplorasi data melalui aplikasi OLAP lainnya adalah menganalisis tren perkembangan indeks prestasi mahasiswa di TPB dari program studi-program studi yang bersaing dengan program studi Ilmu Komputer. Untuk mencari program studi yang bersaing dengan Ilmu Komputer, data rataan IPK TPB setiap program studi disortir. Sepuluh program studi dengan rataan IPK mahasiswa TPB terbesar tahun masuk 2000 sampai 2004 dapat dilihat pada Gambar 11.
Gambar 11 Crosstab sepuluh program studi dengan rataan IPK TPB terbesar Program studi Ilmu Komputer di urutan 6 dan 7 sama dengan Matematika dengan rataan IPK 2,79. Bersaing dengan Teknologi Industri Pertanian di urutan 4 (2,97), Gizi Masyarakat ke-5 (2,81), Teknik Pertanian ke-8 (2,78), Program studi Hasil Perikanan dan Biokimia
di urutan 9 dan 10 dengan rataan IPK TPB sama (2,77).
Mahasiswa Ilmu Komputer tahun masuk 2000 memiliki rataan IPK TPB dengan peringkat 5 besar (2,80) namun tahun masuk 2004 turun satu peringkat ke urutan 6 (2,84). Hal ini bukan disebabkan merosotnya rataan IPK pada tahun tersebut tetapi karena program studi Gizi Masyarakat berhasil mengangkat rataan indeks prestasinya menjadi 2,86 dan melewati rataan IPK Ilmu Komputer. Grafik garis tren rataan IPK TPB sepuluh program studi terbesar tahun masuk 2000 sampai 2004 ditunjukkan dalam Lampiran 8.
Tren perkembangan indeks prestasi TPB program studi Ilmu Komputer menurun pada mahasiswa tahun masuk 2003, hal ini menjadi bahan pencarian informasi selanjutnya. Tren tersebut dapat dilihat dalam grafik pada Gambar 12 (halaman 15). Pada tahun masuk 2001 IPK TPB rata-rata mahasiswa Ilmu Komputer adalah 2,80, pada 2001 IPK 2,82, pada 2002 IPK 2,81, pada 2003 menurun drastis menjadi 2,67, pada 2004 naik kembali ke IPK 2,84. Peneliti selanjutnya mencari lebih jauh faktor apa yang mempengaruhi penurunan IPK tersebut dengan mengevaluasi dimensi Jalur dan Jenis Kelamin. Dengan pilihan dimensi Program Studi elemen Ilmu Komputer, elemen-elemen dimensi Waktu, dan elemen-elemen dimensi Jalur, didapat hasil rataan IPK mahasiswa TPB Ilmu Komputer tahun masuk 2003 jalur USMI adalah 2,81, sedangkan jalur UMPTN/SPMB adalah 2,45. Hasil tersebut dapat dilihat dalam
Gambar 12 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Waktu tingkat Tahun Masuk
Gambar 13 Crosstab ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer
Gambar 14 Crosstab ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB
KESIMPULAN DAN SARAN
Kesimpulan
Penelitian ini menghasilkan data warehouse data PPMB yang terdiri dari dua kubus data. Kubus data yang pertama adalah Pelamar, berisi nilai-nilai agregasi siswa/siswi SMU yang melamar ke IPB melalui jalur USMI. Kubus data yang kedua adalah Mahasiswa, berisi nilai-nilai agregasi mahasiswa IPB.
Aplikasi OLAP mengakses data dari OLAP server Palo. Data tersebut tersimpan dalam kubus data sehingga pengguna dapat menganalisis data multidimensional dan mendapatkan informasi dengan cepat untuk membantu proses pengambilan keputusan. Aplikasi OLAP yang dibangun dapat digunakan untuk operasi-operasi OLAP seperti roll-up, drill-down, slice, dice, dan
Aplikasi OLAP memudahkan pengguna untuk mengekplorasi data PPMB IPB, tanpa harus memasukan query-query SQL yang rumit. Hasil ekplorasi disajikan dalam bentuk informasi yang konklusif, cepat, dan menarik. Berdasarkan contoh presentasi informasi yang dihasilkan dapat dinyatakan bahwa jumlah pelamar jalur USMI didominasi oleh pelamar dari pulau Jawa dan Sumatera, dan mayoritas pelamar memilih fakultas FAPERTA, FMIPA, dan FATETA. Dapat dinyatakan juga bahwa fakultas FMIPA menjadi fakultas di IPB yang favorit berdasarkan pilihan siswa/siswi SMU, selain itu juga FMIPA mengalami perkembangan yang baik dengan jumlah pelamar terbanyak di tahun 2003 dan 2004 melebihi FAPERTA, dan jauh meninggalkan FATETA dan fakultas-fakultas lainnya.
Dari hasil contoh presentasi juga dapat dinyatakan bahwa antara tahun masuk 2000 sampai 2004 telah terjadi penurunan rataan IPK TPB yang mencolok pada mahasiswa Ilmu Komputer tahun masuk 2003. Penurunan tersebut dipengaruhi oleh mahasiswa Ilmu Komputer tahun masuk 2003 dari jalur UMPTN/SPMB dan jenis kelamin laki-laki.
Saran
Saran untuk penelitian data warehousing
dan OLAP selanjutnya adalah:
1. Dibangun modul program baru atau dikembangkan modul yang ada untuk melengkapi aplikasi OLAP. Modul yang ada terdiri dari transfer.php dan clean.php untuk tahapan data preprocessing, dan palo_modeller.php untuk memodelkan struktur kubus data di dalam Palo. Selain itu perlu dibangun modul program untuk pemasukan data baru. Modul-modul tersebut nantinya diintegrasikan ke dalam aplikasi OLAP.
2. Dikembangkan operasi-operasi OLAP dalam aplikasi. Untuk operasi slice dan
dice disempurnakan, sehingga setiap axis
dari crosstab dapat diisi dengan dua atau lebih dimensi. Untuk operasi pivot
dibuatkan fasilitas khusus, sehingga pengguna cukup menekan satu tombol/link
untuk melakukan operasi ini.
3. Dikembangkan visualisasi hasil operasi OLAP dalam aplikasi. Pada crosstab dapat ditambah fungsi pengurutan untuk mengurutkan data. Grafik dalam aplikasi OLAP dapat ditambah dengan tipe grafik
baru selain bar plot dan line plot. Library
JpGraph versi 1.20 dapat membangkitkan grafik dengan tipe bar, line, error, scatter, field, box and stock charts, radar, pie, polar, dan gantt chart.
4. Aplikasi OLAP dikembangkan dengan menambah fasilitas login. Dengan fasilitas tersebut hak akses pengguna diatur sehingga aplikasi hanya diakses oleh pihak-pihak yang berkepentingan dan kerahasiaan data terjaga.
DAFTAR PUSTAKA
Bouzeghoub M & Kedad Z. 2000. A Quality-Based Framework for Physical Data Warehouse Design. Laboratoire PRiSM, Université de Versailles. Versailles Cedex, France.
Connolly T & Begg C. 2002. Database Systems: A Practical Approach to Design, Implementation, and Management. USA: Addison Wesley.
Han J & Kamber M. 2001. Data Mining Concepts & Techniques. Simon Fraser University. USA: Morgan Kaufman.
Inmon WH. 1996. Building the Data warehouse. New York, USA: John Wiley & Sons.
Kantardzic M. 2003. Data Mining Concept, Models, Methods, dan Algorithms. New Jersey, USA: A John Wiley & Sons. Mallach EG. 2000. Decision Support and
Data Warehouse Systems, International Edition. Singapore: McGraw-Hill.
Post GV. 2005. Database Management Systems: Designing and Building Business Applications. Ed ke-3. New York, USA: McGraw Hill.
Lampiran 1 Daftar file data sumber Nama file Jumlah
kolom
Jumlah baris
Keterangan
cal00ipb.dbf 116 8456 Data pelamar (USMI) tahun 2000 cal01ipb.dbf 128 9280 Data pelamar (USMI) tahun 2001 cal02ipb.dbf 129 9362 Data pelamar (USMI) tahun 2002 cal03ipb.dbf 128 8887 Data pelamar (USMI) tahun 2003 cal04ipb.dbf 133 8201 Data pelamar (USMI) tahun 2004
terpilih00.dbf 22 2221 Data pelamar yang terpilih / diterima (USMI) tahun 2000 terpilih01.dbf 127 2212 Data pelamar yang terpilih / diterima (USMI) tahun 2001 terpilih02.dbf 141 2220 Data pelamar yang terpilih / diterima (USMI) tahun 2002 terpilih03.dbf 131 2287 Data pelamar yang terpilih / diterima (USMI) tahun 2003 terpilih04.dbf 28 2370 Data pelamar yang terpilih / diterima (USMI) tahun 2004 perak2.dbf 18 4221 Data penilaian asal SMA tahun 2000 - 2004
dataptd2.dbf 9 8258 Data jumlah pelamar yang datang dan nem per asal SMA tahun 2000 - 2004 sla05ipb.dbf 57 1593 Data pelamar yang dipanggil (USMI) tahun 2005
pl_ilkom.dbf 88 14055 Data mahasiswa yang masuk (USMI & SPMB) tahun 2000 - 2004 ipk 00-04.xls 3 13870 Data IPK TPB mahasiswa tahun 2000 - 2004 (terdiri dari 5 sheet)
Lampiran 2 Rincian proses pembersihan data a. Pembersihan tabel pre_pelamar
Atribut Jumlah
tuple
kosong
Jumlah tuple
mengandung
noise
Jumlah
tuple tidak konsisten
Keterangan Aksi
tahunmasuk 0 0 0 sudah bersih, ditentukan dari asal tabel (cal00ipb
→ 2000, cal01ipb → 2001, dst)
nosla 0 0 0 sudah bersih nrp a) 32917 b) 1 c) 2219 b) nrp kurang 1 digit →
C0440047
c) 4 digit awal masih kode ps lama pada tahun 2000
a) update jadi 0 (tidak diterima)
b) update jadi C04400047 c) update jadi kodepsbaru jeniskel 0 0 0 sudah bersih
pilhan1 a) 90 0 b) 17713 c) 26421
b) masih kode ps lama pada tahun 2000 dan 2001 c) kode ps kurang 1 digit pada tahun 2002, 2003, dan 2004
a) update jadi 0 (tidak memilih)
b) dan c) transformasi jadi kodepsbaru pilihan2 a) 1107 0 b) 17397 c) 25720
b) masih kode ps lama c) kode ps kurang 1 digit
a) update jadi 0 (tidak memilih)
b) dan c) transformasi jadi kodepsbaru putusan1 a) 270 b) 32662 0 c) 4407 d) 6885
a) nrp ada tetapi putusan1 tidak ada pada tahun 2000 c) masih kode ps lama d) kode ps kurang 1 digit
a) isi dengan 4 digit nrp b) update jadi 0 (tidak diterima)
Lampiran 2 lanjutan Atribut Jumlah
tuple
kosong
Jumlah tuple
mengandung
noise
Jumlah
tuple tidak konsisten
Keterangan Aksi
listrik 0 317 0 atribut bernilai 0 direpresentasikan sebagai pelamar tidak mengisi keterangan listrik biayahidup 0 519 0 atribut bernilai 0 direpresentasikan sebagai
pelamar tidak mengisi keterangan biaya hidup kategori 8632 0 0 update jadi 0 (tidak
terkategori)
b. Pembersihan tabel pre_mahasiswa Atribut Jumlah
tuple
kosong
Jumlah tuple
mengandung
noise
Jumlah
tuple tidak konsisten
Keterangan Aksi
tahunmasuk 0 0 0 sudah bersih jalur 0 0 0 sudah bersih jeniskel 0 0 0 sudah bersih
pendayah 0 145 0 atribut bernilai 0 direpresentasikan sebagai mahasiswa tidak mengisi keterangan pendidikan ayah
pendibu 0 157 0 atribut bernilai 0 direpresentasikan sebagai mahasiswa tidak mengisi keterangan pendidikan ibu pekerjayah 0 606 0 atribut bernilai 0 direpresentasikan sebagai
mahasiswa tidak mengisi keterangan pekerjaan ayah
nrp
0
0
a) 20 b) 2916
a) terdapat 10 pasang
tuple redundan
b) 4 digit awal masih kode ps lama pada tahun 2000
a) hapus tuple
redundannya
b) update jadi kodepsbaru
pendapatan
0
a) 1 b) 144
0
a) pendapatan = 4 b) atribut bernilai 0
a) dan b) update jadi nilai rataan pendapatan orangtua berdasarkan kelas pekerjayah
Lampiran 3 Data tabel dimensi data warehouse
a. Data tabel dw_asal (dimensi Asal) id_asal propinsi pulau 11 Nangroe Aceh
Darussalam
Sumatera
12 Sumatera Utara Sumatera 13 Sumatera Barat Sumatera
14 Riau Sumatera
15 Jambi Sumatera 16 Sumatera Selatan Sumatera 17 Bengkulu Sumatera 18 Lampung Sumatera 31 DKI Jakarta Jawa 32 Jawa Barat Jawa 33 Jawa Tengah Jawa 34 DI Yogyakarta Jawa 35 Jawa Timur Jawa
51 Bali Nusa
Tenggara 52 Nusa Tenggara
Barat
Nusa Tenggara 53 Nusa Tenggara
Timur
Nusa Tenggara
61 Kalimantan Barat Kalimantan 62 Kalimantan Tengah Kalimantan 63 Kalimantan Selatan Kalimantan 64 Kalimantan Timur Kalimantan 71 Sulawesi Utara Sulawesi 72 Sulawesi Tengah Sulawesi 73 Sulawesi Selatan Sulawesi 74 Sulawesi Tenggara Sulawesi 81 Maluku Irian
82 Papua Irian
99 Luar Negeri Luar Negeri
b. Data tabel dw_biayahidup (dimensi Biaya Hidup)
id_biaya biaya_hidup 0 Tidak Tahu 1 < 100 Ribu
2 100 - 200 Ribu 3 200 - 300 Ribu 4 300 - 400 Ribu 5 400 - 500 Ribu 6 > 500 Ribu
c. Data tabel dw_jalur (dimensi Jalur) id_jalur Jalur
1 USMI
2 UMPTN/SPMB 3 PIN
6 Beasiswa/BUD
d. Data tabel dw_jeniskelamin (dimensi Jenis Kelamin)
id_kel lelaki_perempuan 0 Perempuan 1 Lelaki
e. Data tabel dw_kategorisla (dimensi Kategori SLA)
id_kategori kategori_sla
0 Tidak Tahu A+ A+
A A A- A- B+ B+ B B B- B- C+ C+ C C C- C- D D
f. Data tabel dw_listrik (dimensi Listrik) id_listrik listrik
Lampiran 3 lanjutan
g. Data tabel dw_studi (dimensi Program Studi)
id_studi program_studi departemen fakultas
0 0 0 0
A141 A11. Manajemen Agribisnis Sosek Pertanian FAPERTA
A142 A12. Kombang Masyarakat Sosek Pertanian FAPERTA A143 A13. Ekonomi Pertanian & SD Sosek Pertanian FAPERTA
A241 A21. Ilmu Tanah Tanah FAPERTA A341 A31. Agronomi Budidaya Pertanian FAPERTA A342 A32. Arsitektur Lansekap Budidaya Pertanian FAPERTA A343 A33. Hortikultura Budidaya Pertanian FAPERTA A344 A34. Pem. Tanaman & Tek. Benih Budidaya Pertanian FAPERTA A441 A41. Hama & Penyakit Tumbuhan Hama & Penyakit Tumbuhan FAPERTA A541 A51. Gizi Masy. & SD Keluarga Gizi Masy. & SD Keluarga FAPERTA B041 B01. Kedokteran Hewan Kedokteran Hewan FKH C141 C11. Budidaya Perairan Budidaya Perairan FPIK C241 C21. Manajemen SD Perairan Manajemen SD Perairan FPIK C341 C31. Tek. Hasil Perikanan Tek. Hasil Perikanan FPIK C441 C41. Sosek Perikanan Sosek Perikanan FPIK C541 C51. Pemanfaatan SD Perikanan Pemanfaatan SD Perikanan FPIK C641 C61. Ilmu & Tek. Kelautan Ilmu Kelautan FPIK D141 D11. Tek. Prod. Ternak Ilmu Produksi Ternak FAPET D142 D12. Tek. Hasil Ternak Ilmu Produksi Ternak FAPET D241 D21. Ilmu Nutrisi & Mak. Ternak Ilmu Nutrisi & Mak. Ternak FAPET D341 D31. Sosek Peternakan Sosek Peternakan FAPET E141 E11. Manajemen Hutan Manajemen Hutan FAHUTAN E142 E12. Budidaya Hutan Manajemen Hutan FAHUTAN E241 E21. Tek. Hasil Hutan Tek. Hasil Hutan FAHUTAN E341 E31. Konservasi SD Hutan Konservasi SD Hutan FAHUTAN F141 F11. Teknik Pertanian Teknik Pertanian FATETA F241 F21. Tek. Pangan Tek. Pangan & Gizi FATETA F341 F31. Tek. Industri Pertanian Tek. Industri Pertanian FATETA G141 G11. Statistika Statistika FMIPA G241 G21. Meteorologi Geofisika & Meteorologi FMIPA
G341 G31. Biologi Biologi FMIPA
G441 G41. Biokimia Kimia FMIPA
G442 G42. Kimia Kimia FMIPA
G541 G51. Matematika Matematika FMIPA G641 G61. Ilmu Komputer Ilmu Komputer FMIPA
G741 G71. Fisika Fisika FMIPA
Lampiran 3 lanjutan
h. Data tabel dw_pekerjaanayah (dimensi Pekerjaan Ayah)
id_pek Pekerjaan_ayah 0 Tidak Tahu 1 PNS 2 TNI/POLRI 3 Pensiunan PNS 4 Wiraswasta 5 Veteran 6 Purnawirawan 7 Eksekutif 8 Profesional 9 Pegawai Swasta 10 Pegawai BUMN 11 Rohaniawan 12 Petani 13 Nelayan 14 dan lainnya
i. Data tabel dw_pendidikan (dimensi Pendidikan)
id_pend pendidikan 0 P0 1 P1 2 P2 3 P3 4 P4 5 P5 6 P6 7 P7 8 P8 9 P9
j. Data tabel dw_waktu (dimensi Waktu) id_waktu tahun
2000 2000 2001 2001 2002 2002 2003 2003 2004 2004
Lampiran 5 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Sumatera dan Jawa
Lampiran 7 Crosstab dengan operasi OLAP drill-down sampai tingkat dua, ukuran Jumlah Pelamar USMI, dimensi Studi Putusan1, dan dimensi