PEMBANGUNAN DATA WAREHOUSE DAN APLIKASI OLAP BERBASIS WEB MENGGUNAKAN PALO (STUDI KASUS: DATA PPMB IPB) ABI HERLAMBANG G

(1)

PEMBANGUNAN DATA WAREHOUSE DAN

APLIKASI OLAP BERBASIS WEB MENGGUNAKAN PALO

(STUDI KASUS: DATA PPMB IPB)

ABI HERLAMBANG

G64101047

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

ABSTRAK

ABI HERLAMBANG. Pembangunan Data Warehouse dan Aplikasi OLAP Berbasis Web

Menggunakan Palo (Studi Kasus: Data PPMB IPB). Dibimbing oleh IMAS SUKAESIH SITANGGANG dan HARI AGUNG ADRIANTO.

Panitia Penerimaan Mahasiswa Baru (PPMB) IPB menerima mahasiswa baru. Data penerimaan tersebut menumpuk setiap tahunnya, dan menjadi masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik. Teknologi data warehouse dan On-Line Analytical Processing

(OLAP) dapat mengelola tumpukan data tersebut dan mempresentasikannya untuk membantu proses pengambilan keputusan. Tujuan penelitian ini adalah membangun data warehouse dan operasi-operasi

OLAP, serta membangun aplikasi untuk memvisualisasikan hasil operasi-operasi OLAP. Data yang digunakan adalah data PPMB IPB dan IPK TPB IPB tahun masuk 2000 sampai 2004.

Data warehouse membentuk skema galaksi dengan dua kubus data, yaitu kubus data Pelamar

dengan tujuh dimensi dan Mahasiswa dengan enam dimensi. Data dari data warehouse dianalisis

dengan operasi-operasi OLAP. Aplikasi OLAP dibangun dengan bahasa pemrograman PHP, OLAP

server Palo, dan pembangkit grafik JpGraph. Fasilitas yang dimiliki aplikasi adalah menu OLAP,

penyaringan dimensi, visualisasi crosstab dan grafik, dan disain cetakan. Aplikasi ini berbasis web

dan dilengkapi dengan versi portable.

Aplikasi OLAP menggunakan kubus data Palo sehingga akses data menjadi lebih cepat. Hasil ekplorasi data PPMB IPB melalui aplikasi disajikan dalam bentuk informasi yang konklusif, cepat, dan menarik dengan crosstab dan grafik dinamis. Analisis data PPMB menghasilkan beberapa

informasi konklusif, misal: bahwa pelamar USMI paling banyak berasal dari Jawa dan Sumatera; dan mayoritas pelamar USMI memilih fakultas FAPERTA, FMIPA, dan FATETA.

(3)

PEMBANGUNAN DATA WAREHOUSE DAN

APLIKASI OLAP BERBASIS WEB MENGGUNAKAN PALO

(STUDI KASUS: DATA PPMB IPB)

ABI HERLAMBANG

G64101047

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(4)

Judul : Pembangunan

Data Warehouse

dan

Aplikasi OLAP Berbasis

Web

Menggunakan Palo

(Studi Kasus: Data PPMB IPB)

Nama : Abi Herlambang

NRP :

G64101047

Menyetujui:

Pembimbing I,

Imas S. Sitanggang, S.Si, M.Kom.

NIP 132206235

Pembimbing II,

Hari Agung Adrianto, S.Kom, M.Si.

NIP 132311918

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, M.S.

NIP 131473999

(5)

PRAKATA

Puji syukurPenulis panjatkan ke hadirat Allah SWT atas segala curahan rahmat dan karunia-Nya sehingga skripsi ini dapat diselesaikan. Skripsi ini merupakan hasil penelitian yang dilakukan dari Desember 2006 sampai Mei 2007 dengan bidang kajian Pembangunan Data Warehouse dan Aplikasi

OLAP Berbasis Web Menggunakan Palo (Studi Kasus: Data PPMB IPB).

Penulis mengucapkan terima kasih kepada Ibu Imas S. Sitanggang, S.Si, M.Kom selaku pembimbing I yang telah memberi saran, masukan, dan ide-ide kepada Penulis dalam menyusun skripsi ini. Terima kasih juga Penulis ucapkan kepada Bapak Hari Agung Adrianto, S.Kom, M.Si selaku pembimbing II yang telah memberi saran dan masukan kepada Penulis. Ucapan terima kasih juga kepada Ibu Shelvie Nidya Neyman, S.Kom, M.Si selaku penguji yang telah membantu Penulis. Penulis juga mengucapkan terima kasih kepada:

1 Ibu dan Bapak yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada Penulis sehingga Penulis dapat menyelesaikan tugas akhir ini. Kak Yuyun, Kak Yuli, Kak Indah, Kak Rani, Kak Putri, Sunan, Pramu, dan Sisi yang tidak pernah bosan memberikan perhatian dan dukungan setiap saat dibutuhkan.

2 Kang Asep dan Bang Tomo yang menjadi tempat bertukar pikiran di tengah-tengah kesibukan Penulis mengerjakan tugas dan pekerjaan.

3 Erwin yang memberikan motivasi kepada Penulis untuk memulai mengerjakan tugas akhir.

4 Liesca, Rosy, Robi, Khamam, Didik, Nawi, dan Ifnu, teman-teman mahasiswa kadaluarsa di Lab.02 yang menemani Penulis selama mengerjakan tugas akhir.

5 Nando dan Ucup yang membantu Penulis menghilangkan rasa suntuk selama di IPB.

6 Aditama, Wulan, Bejo, May, Sue, dan Meilani, teman milis sekoetoe_98 yang memberikan semangat kepada Penulis untuk menyelesaikan tugas akhir.

7 Kawan-kawan Ilkom angkatan 38 yang telah banyak membantu Penulis selama menjalani waktu di IPB.

8 Departemen Ilmu Komputer, staf, dan dosen yang telah banyak membantu baik selama penelitian maupun pada masa perkuliahan.

Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak.

Semoga penelitian ini dapat memberikan manfaat.

Bogor, Mei 2007

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 28 Desember 1982 dari ayah Edi Sunaryo Yatim dan ibu Rojenah. Penulis merupakan anak keenam dari sembilan bersaudara.

Tahun 2001 Penulis lulus dari SMU Negeri 99 Jakarta dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Ujian Masuk Perguruan Tinggi Negeri. Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam IPB.

Tahun 2005 bulan Januari sampai Maret, Penulis melakukan kegiatan praktik lapang di PT Bank Bukopin Kantor Pusat, terlibat dalam tim pembangunan sistem inventaris untuk kantor cabang syariah. Pada Maret 2005 sampai Mei 2005, Penulis membangun aplikasi pencatatan dan validasi transaksi keuangan untuk back office Departemen Telex Bank Bukopin Cabang Melawai Syariah. Di

akhir tahun 2005 selama satu bulan, Penulis mengembangkan disain laporan aplikasi Courier Information System untuk Hansha Logistic. Tahun 2006 dari April sampai September, Penulis bersama tim dari PT Fajar Buana Pratama membangun Sistem Informasi Diklat Pusbang Aparatur KP untuk Pusat Pelatihan Badan Pengembangan SDM Departemen Kelautan dan Perikanan RI.

(7)

DAFTAR ISI

Halaman

DAFTAR TABEL ... vii

DAFTAR GAMBAR... vii

DAFTAR LAMPIRAN... viii

PENDAHULUAN Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup... 1 Manfaat ... 1 TINJAUAN PUSTAKA Data Preprocessing... 1 Data Warehouse... 3

Model Data Multidimensi ... 4

On-Line Analytical Processing (OLAP) ... 5

Arsitektur Three-TierData Warehouse... 6

METODE PENELITIAN Analisis ... 6

Data Preprocessing... 6

Aplikasi OLAP... 7

Lingkungan Pengembangan... 7

HASIL DAN PEMBAHASAN Analisis Data... 8

Integrasi dan Reduksi Data ... 9

Pembersihan Data ... 9

Transformasi Data... 10

Pemuatan Data ... 10

Gambaran Umum Aplikasi ... 11

Kelebihan dan Kekurangan Sistem ... 12

Presentasi Hasil... 13

KESIMPULAN DAN SARAN Kesimpulan ... 15

Saran ... 16

DAFTAR PUSTAKA... 17

LAMPIRAN ... 18

(8)

DAFTAR TABEL

Halaman

1 Nama dan deskripsi atribut tabel pre_pelamar hasil integrasi dan reduksi... 9

2 Nama dan deskripsi atribut tabel pre_mahasiswa hasil integrasi dan reduksi... 9

3 Nama dan deskripsi dimensi dari kubus data Pelamar ... 10

4 Nama dan deskripsi dimensi dari kubus data Mahasiswa ... 11

DAFTAR GAMBAR

Halaman 1 Representasi kubus data dengan 3 dimensi (Han & Kamber 2001) ... 4

2 Skema bintang (Han & Kamber 2001)... 4

3 Skema snowflake (Han & Kamber 2001)... 5

4 Skema galaksi (Han & Kamber 2001) ... 5

5 Arsitektur three-tierdata warehousing (Han & Kamber 2001)... 6

6 Skema galaksi data warehouse pelamar dan mahasiswa ... 8

7 Arsitektur data warehousing dan aplikasi OLAP ... 11

8 Contoh tampilan aplikasi OLAP ... 12

9 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk ... 13

10 Crosstab ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk Fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk ... 13

11 Crosstab sepuluh program studi dengan rataan IPK TPB terbesar ... 14

12 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Waktu tingkat Tahun Masuk ... 15

13 Crosstab ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer... 15

14 Crosstab ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB... 15

(9)

DAFTAR LAMPIRAN

Halaman

1 Daftar file data sumber ... 19

2 Rincian proses pembersihan data ... 19

3 Data tabel dimensi data warehouse... 21

4 Grafik ukuran Jumlah Pelamar USMI dan dimensi Studi Pilihan1 tingkat Fakultas ... 23

5 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Sumatera dan Jawa ... 24

6 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Nusa Tenggara, Kalimantan, Sulawesi, Irian, dan Luar Negeri ... 24

7 Crosstab dengan operasi OLAP drill-down sampai tingkat dua, ukuran Jumlah Pelamar USMI, dimensi Studi Putusan1, dan dimensi Asal... 25

8 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk 10 program studi dengan rataan IPK TPB terbesar, dan dimensi Waktu tingkat Tahun Masuk... 25

9 Grafik ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer... 26

10 Grafik ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB... 26

(10)

1

PENDAHULUAN

Latar Belakang

Teknologi basis data saat ini berkembang sangat pesat. Data disimpan dalam basis data, diolah kemudian disajikan sebagai informasi yang bernilai bagi pengguna. Penyimpanan data secara rutin dan terakumulasi dari waktu ke waktu akan menyebabkan terjadinya penumpukan data. Saat ini dari sisi perangkat keras media penyimpanan tidak menjadi masalah karena telah tersedia media yang mempunyai kapasitas hingga ukuran Terabyte.

Namun penumpukan data tersebut menjadi masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik. Kondisi ini dikenal dengan istilah “rich of data but poor of information”.

Teknologi data warehouse dan On-Line Analytical Processing (OLAP) adalah satu

solusi dari masalah penumpukan data yang kurang dimanfaatkan dengan baik. Teknologi tersebut dapat mengelola tumpukan data, dan mempresentasikannya untuk membantu proses pengambilan keputusan. Dengan bantuan aplikasi OLAP, pimpinan dari suatu organisasi dapat menganalisis sejumlah besar data yang dimiliki oleh organisasi tersebut. Hasil analisis dapat berupa pola, tren, dan kondisi tertentu yang dilakukan pada waktu nyata dengan tanggapan yang cepat terhadap pertanyaan yang diajukan hingga membantu dalam proses pengambilan keputusan.

Setiap tahun Institut Pertanian Bogor (IPB) menerima mahasiswa baru melalui satu proses seleksi. Data dari proses seleksi itu disimpan dalam basis data dan menumpuk tiap tahunnya. Informasi tersembunyi yang terkandung dalam basis data tersebut perlu dieksplorasi dan divisualisasikan ke dalam bentuk yang menarik.

Dalam penelitian ini dibangun sebuah data warehouse dan sebuah aplikasi OLAP untuk

data Panitia Penerimaan Mahasiswa Baru (PPMB) IPB dengan menggunakan Palo sebagai OLAP server. Data tersebut meliputi

data pelamar melalui jalur USMI dan data mahasiswa dari PPMB serta data IPK mahasiswa Tingkat Persiapan Bersama (TPB) IPB tahun masuk 2000 sampai 2004. Beberapa informasi yang dapat diperoleh dari aplikasi ini antara lain:

Pola sebaran pilihan pelamar (calon mahasiswa) jalur USMI terhadap fakultas dilihat dari asal pulau pelamar.

Jumlah pelamar yang program studi pilihan pertamanya ada di fakultas FMIPA tapi diterima di program studi selain fakultas FMIPA.

Tren perkembangan indeks prestasi mahasiswa di TPB dari program studi-program studi yang bersaing dengan program studi ilmu komputer.

Tren perkembangan indeks prestasi TPB program studi ilmu komputer yang menurun pada mahasiswa tahun masuk 2003.

Informasi lainnya dapat diperoleh dengan memilih ukuran dan dimensi tertentu yang tersedia dalam aplikasi.

Tujuan

Tujuan dari penelitian ini adalah:

1. Membangun data warehouse dan

operasi-operasi OLAP untuk data PPMB IPB dan data IPK TPB IPB.

2. Membangun aplikasi untuk mem-visualisasikan hasil operasi-operasi OLAP.

Ruang Lingkup

Ruang lingkup penelitian dibatasi pada pembuatan data warehouse, implementasi

operasi OLAP, dan presentasi informasi yang dapat diungkap dengan membangun aplikasi pendukung. Data yang digunakan adalah data pelamar jalur USMI dan data mahasiswa dari PPMB IPB serta data IPK mahasiswa TPB IPB tahun masuk 2000 sampai 2004.

Manfaat

Penelitian ini diharapkan bermanfaat bagi pihak-pihak yang memerlukan informasi konklusif, cepat, dan menarik dari agregat pelamar yang ikut seleksi penerimaan masuk jalur USMI dan informasi seputar agregat mahasiswa IPB sehingga dapat membantu dalam proses pengambilan keputusan.

TINJAUAN PUSTAKA

Data Preprocessing

Hal yang lumrah terjadi pada basis data adalah data tidak lengkap (tidak ada atau kurang isi pada atributnya, atau hanya berisi data agregat), mengandung noise (terdapat error, atau berisi nilai yang tidak semestinya),

dan tidak konsisten. Pemrosesan data dengan teknik data preprocessing dapat memperbaiki

kualitas data, dengan demikian membantu memperbaiki akurasi dan efisiensi proses

(11)

2

pengolahan data selanjutnya (Han & Kamber 2001).

Tahapan data preprocessing adalah (Han

& Kamber 2001):

1. Pembersihan data (cleaning)

Pada proses pembersihan data kotor dihilangkan dan diperbaiki. Pembersihan dilakukan dengan mengisi nilai yang kosong, mengurangi noise dan

memperbaiki ketidakkonsistenan dalam data. Permasalahan data kotor dan cara membersihkannya yaitu:

Nilai yang kosong (hilang)

Untuk mengatasi nilai yang kosong dalam data dapat dilakukan penghapusan tuple, mengganti nilainya

secara manual, isi dengan konstanta global seperti ’tidak tahu’ atau ’∞’, menggunakan nilai rata-rata dari atribut yang kosong, isi dengan nilai rata-rata dari kelas yang sama, dan isi nilai yang mungkin melalui metode regresi, induksi pohon keputusan dan lain sebagainya.

Nilai mengandung noise

Data dengan nilai yang mengandung noise dapat diganti

dengan nilai hasil perhitungan dengan metode binning (mengelompokkan

nilai), metode regresi, atau dengan cara pengklusteran.

Data tidak konsisten

Data tidak konsisten diperbaiki dengan menyeragamkan data dengan menggunakan referensi eksternal. 2. Integrasi data

Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data. Proses integrasi mungkin akan menimbulkan beberapa masalah seperti masalah identifikasi entitas misalnya pada entitas yang sama terdapat nama yang berbeda. Redundancy juga menjadi salah

satu masalah, terdapat lebih dari satu tuple

untuk satu data unik. Masalah lainnya yang timbul adalah konflik nilai data, disebabkan oleh perbedaan representasi nilai, misal pada satu data menggunakan satuan kilogram sedang pada data lain menggunakan satuan ton.

3. Transformasi data (transformation)

Tahap transformasi data dilakukan agar data tetap konsisten dan dapat digunakan untuk proses selanjutnya dengan mengubah ke dalam bentuk yang tepat. Data dari bermacam sumber diberi format dan nama yang umum. Transformasi yang paling penting adalah transformasi nama agar tidak ada nama atribut yang sama atau atribut yang sama memiliki nama yang berbeda pada basis data yang berbeda.

Transformasi data mencakup hal berikut:

Smoothing

Dilakukan untuk menghilangkan

noise dari data. Tekniknya meliputi binning, regresi, dan pengklusteran.

Agregasi

Peringkasan dan agregasi diterapkan pada data. Misalnya data penjualan harian bisa diagregasi menjadi data penjualan bulanan.

Generalisasi

Data tingkat rendah digantikan dengan tingkat yang lebih tinggi menggunakan konsep hirarki. Misal kategori jalan bisa digeneralisasikan menjadi kategori tingkat lebih tinggi yaitu kota atau negara.

Normalisasi

Atribut data dibuat skala dengan

range yang lebih kecil.

Konstruksi atribut

Atribut baru dibuat dan ditambah dari atribut-atribut yang ada untuk membantu proses pengolahan data selanjutnya.

4. Reduksi data

Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil.

Strategi mereduksi data meliputi: Agregasi kubus data

Operasi agregasi diterapkan pada data dalam konstruksi kubus data.

(12)

3

Reduksi dimensi

Penghilangan atribut atau dimensi yang tidak relevan, relevansinya tidak kuat, atau redundan.

Kompresi data

Mereduksi ukuran data dengan mekanisme encoding.

Numerosity reduction

Data diganti atau diestimasikan dengan alternatifnya.

Diskretisasi dan generasi konsep hirarki

Nilai-nilai data tingkat rendah diganti dengan tingkat konseptual yang lebih tinggi. Diskretisasi merupakan bentuk dari numerosity reduction yang

berguna untuk generasi otomatis dari konsep hirarki.

Dijelaskan oleh Han & Kamber (2001) bahwa tahapan data preprocessing tidak

terpisah sendiri-sendiri (not mutually exclusive). Mungkin saja saat proses

pembersihan dilakukan, proses transformasi juga dilakukan di dalamnya.

Data Warehouse

Data warehouse menyediakan arsitektur

dan alat bantu bagi pimpinan organisasi untuk mengorganisasikan secara sistematis, dipahami, dan digunakan data tersebut untuk membuat keputusan (Han & Kamber 2001).

Data warehouse adalah sekumpulan data

berorientasi subjek, terintegrasi, time-variant,

dan non-volatile yang mendukung manajemen

dalam proses pembuatan keputusan (Inmon 1996). Penjelasan rinci dari pengertian data warehouse adalah (Han & Kamber 2001):

Berorientasi subjek

Data warehouse disusun berdasarkan

subjek yang utama, seperti pelanggan, produk atau penjualan. Data warehouse

menyediakan tampilan yang sederhana dan ringkas dengan menghilangkan data yang tidak berguna dalam proses membuat keputusan.

Terintegrasi

Data warehouse biasanya dibangun

dengan mengintegrasikan berbagai sumber data, seperti basis data relasional, flat file,

dan data transaksi on-line. Teknik

pembersihan dan integrasi data diterapkan untuk memastikan data tetap konsisten. Time-variant

Data disimpan untuk menyediakan informasi berdasarkan perspektif waktu. Non-volatile

Data warehouse adalah tempat

penyimpanan data yang terpisah dari basis data operasional sehingga hanya memerlukan pemuatan dan akses data.

Data warehouse merupakan ruang

penyimpanan (atau arsip) informasi yang dikumpulkan dari berbagai sumber, disimpan dengan sebuah skema terintegrasi pada satu tempat. Data/infomasi tersebut tersimpan dalam jangka waktu yang lama, sehingga memungkinkan pengguna mengakses data historis. Data warehouse menyediakan satu

tampilan data terkonsolidasi, sehingga menciptakan query untuk proses pengambilan

keputusan menjadi lebih mudah. Dengan mengakses informasi dari data warehouse,

proses traksaksi online tidak terganggu oleh

beban kerja proses pengambilan keputusan (Silberschatz et al 2006).

Keuntungan yang didapat jika menggunakan data warehouse antara lain

(Connolly & Begg 2002):

Menghasilkan keuntungan yang kompetitif dengan cara memperbolehkan pembuat keputusan mengakses data yang dapat memunculkan informasi yang sebelumnya tidak ada, tidak diketahui, dan tidak digunakan.

Meningkatkan produktivitas para pembuat keputusan dengan cara menciptakan basis data terintegrasi yang terdiri dari data historis yang konsisten dan berorientasi subjek.

Data warehousing adalah suatu

infrastruktur perangkat lunak yang mendukung aplikasi OLAP dengan menyediakan sebuah koleksi alat bantu yang (i) mengumpulkan data dari sekumpulan sumber-sumber heterogen terdistribusi, (ii) membersihkan dan mengintegrasikan data tersebut ke dalam representasi yang seragam (iii) mengagregasi dan mengorganisasi data tersebut ke dalam struktur multidimensional yang tepat untuk pengambilan keputusan, dan (iv) memperbaharuinya secara periodik untuk menjaga agar data mutakhir dan akurat (Bouzeghoub & Kedad 2000).

(13)

4

Model Data Multidimensi

Pembuatan data warehouse didasarkan

pada model data multidimensi. Model ini menampilkan data dalam bentuk kubus. Model data multidimensi terdiri dari dimensi (dimensions) dan fakta (facts) (Han & Kamber

2001).

Dimensi adalah perspektif atau entitas penting yang dimiliki oleh organisasi. Setiap dimensi mungkin memiliki satu tabel yang berasosiasi dengannya yang disebut dengan tabel dimensi yang mendeskripsikan dimensi itu sendiri. Dimensi akan berubah jika analisis kebutuhan pengguna berubah. Dimensi mendefinisikan label yang membentuk isi laporan. Tabel dimensi berukuran lebih kecil daripada tabel fakta dan berisi data tidak numerik. Pada data warehouse, kubus data

merupakan kubus dengan n-dimensi (Han & Kamber 2001).

Fakta adalah ukuran-ukuran numerik, merupakan kuantitas yang akan dianalisis hubungan antar dimensinya. Tabel fakta berisi nama-nama fakta (ukuran) dan key dari

tabel-tabel dimensi yang berelasi dengan tabel-tabel fakta itu. Data fakta diekstrak dari berbagai sumber. Data fakta cenderung stabil dan tidak berubah seiring waktu. Tabel fakta berukuran besar, memiliki jumlah baris sesuai dengan jumlah kombinasi nilai dimensi yang mungkin dan jumlah kolom sesuai dengan jumlah dimensi yang direpresentasikan (Han & Kamber 2001).

Gambar 1 Representasi kubus data dengan 3 dimensi (Han & Kamber 2001) Kubus data disebut juga cuboid, berasal

dari banyak dimensi. Potongan cuboid yang

lebih kecil dapat dibuat dengan mengambil sebagian dimensi dari sebuah cuboid besar.

Potongan cuboid memiliki tingkat yang lebih

tinggi (besar nilainya) dari cuboid asalnya,

cuboid dengan tingkat terendah disebut base

cuboid (Han & Kamber 2001). Contoh kubus

data dengan tiga dimensi ada pada Gambar 1. Kubus data tersebut memiliki dimensi time, item, dan location, ukuran yang ditampilkan

adalah dollar_sold (dalam ribuan).

Skema basis data berisi kumpulan entitas dan hubungan antarentitas. Sebuah data warehouse memerlukan skema yang ringkas

dan berorientasi subjek yang dapat digunakan dalam analisis data on-line. Tipe-tipe skema

model data multidimensi adalah (Han & Kamber 2001):

Skema bintang (star schema)

Skema bintang adalah skema data warehouse yang paling sederhana. Skema

ini disebut skema bintang karena hubungan antara tabel dimensi dan tabel fakta menyerupai bintang, dimana satu tabel fakta dihubungkan dengan beberapa tabel dimensi. Titik tengah skema bintang adalah satu tabel fakta besar dan sudut-sudutnya adalah tabel-tabel dimensi. Bentuk skema bintang dapat dilihat pada Gambar 2. Keuntungan yang didapat jika menggunakan skema ini adalah peningkatan kinerja data warehouse,

pemrosesan query yang lebih efisien, dan

waktu respon yang cepat.

Gambar 2 Skema bintang (Han & Kamber 2001)

Skema snowflake (snowflake schema)

Skema snowflake adalah variasi dari

skema bintang dimana beberapa tabel dimensi dinormalisasi, jadi dihasilkan beberapa tabel tambahan. Bentuk skema

snowflake dapat dilihat pada Gambar 3

(halaman 5). Keuntungan yang didapat dengan menggunakan skema ini adalah penghematan memory, tapi waktu yang

dibutuhkan untuk pemrosesan query

(14)

5

Gambar 3 Skema snowflake (Han &

Kamber 2001) Skema galaksi (fact constellation)

Pada skema galaksi, beberapa tabel fakta berbagi tabel dimensi. Bentuk skema galaksi dapat dilihat pada Gambar 4. Keuntungan menggunakan skema ini adalah menghemat memory dan

mengurangi kesalahan yang mungkin terjadi.

Gambar 4 Skema galaksi (Han & Kamber 2001)

On-Line Analytical Processing (OLAP)

On-Line Analytical Processing (OLAP)

terdiri dari seperangkat tool untuk membantu

proses analisis dan perbandingan data dalam basis data. Kegunaan utama OLAP tool adalah

kemampuan interaktifnya untuk membantu pimpinan organisasi melihat data dari berbagai perspektif (Post 2005).

Tool dan metoda OLAP membantu

pengguna menganalisis data pada sebuah data warehouse dengan menyediakan berbagai

tampilan data, dan didukung dengan representasi grafik yang dinamis. Dalam tampilan tersebut dimensi-dimensi data berbeda menunjukkan karakteristik bisnis yang berbeda pula. OLAP tool sangat

membantu untuk melihat data dimensional dari berbagai sudut pandang. OLAP tool tidak

belajar dan tidak menciptakan pengetahuan baru dari data dengan sendirinya, tetapi merupakan alat bantu visualisasi khusus untuk membantu end-user menarik kesimpulan dan

keputusan. OLAP tool sangat berguna untuk

proses data mining, OLAP dapat menjadi

bagian dari data mining tetapi keduanya tidak

bersifat substitusi (Kantardzic 2003).

Tipe-tipe operasi OLAP antara lain (Han & Kamber 2001):

Roll-up

Operasi ini melakukan agregasi pada kubus data dengan cara menaikkan tingkat suatu hirarki konsep atau mengurangi dimensi. Misalkan pada kubus data dari kelompok kota di-roll up menjadi

kelompok propinsi atau negara. Contoh lainnya kubus data menampilkan agregasi total penjualan berdasarkan lokasi dan waktu, roll up mereduksi dimensi dapat

dilakukan dengan menurunkan tingkat suatu hirarki konsep atau menambahkan dimensi menghilangkan waktu sehingga hanya menampilkan agregasi total penjualan berdasarkan lokasi.

Drill-down

Drill-down adalah kebalikan dari roll-up. Operasi ini mempresentasikan data

menjadi lebih detil. Drill-down dilakukan

dengan cara menurunkan tingkat suatu hirarki konsep atau menambahkan dimensi. Misalkan dari kelompok tahun

di-drill down menjadi kelompok triwulan,

bulan, atau hari. Slice dan dice

Operasi slice melakukan pemilihan

satu dimensi dari kubus data sehingga menghasilkan bagian kubus (subcube).

Operasi dice menghasilkan bagian kubus

(subcube) dengan melakukan pemilihan

dua atau lebih dimensi. Pivot (rotate)

Pivot adalah operasi visualisasi dengan

memutar koordinat data pada tampilan yang bertujuan untuk menyediakan presentasi alternatif dari data.

Satu kategori dari OLAP yang mulai muncul pada tahun 1997 adalah Web-based

OLAP (WOLAP). Dengan produk ini pengguna web browser atau komputer dalam

jaringan dapat mengakses dan menganalisis data dalam data warehouse. WOLAP dapat

diterapkan dalam internet atau intranet,

namun banyak organisasi lebih memilih

intranet karena alasan keamanan dan

kerahasiaan data. WOLAP dapat digunakan selama klien memiliki perangkat lunak web

(15)

6

yang diperlukan dan terhubung dengan jaringan komputer yang benar. Teknologi ini juga mengeliminasi kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna (Mallach 2000).

Arsitektur Three-Tier Data Warehouse

Data warehouse sering kali mengadopsi

arsitektur three-tier, seperti dipresentasikan

pada Gambar 5. Lapisan-lapisan arsitektur

data warehousing tersebut adalah (Han &

Kamber 2001):

1. Lapis bawah (bottom tier)

Pada lapis bawah adalah server data warehouse yang biasanya sebuah sistem

basis data relasional. Pada lapis ini data diambil dari basis data operasional dan sumber eksternal lainnya, diekstrak, dibersihkan, dan ditransformasi. Data disimpan sebagai data warehouse.

Gambar 5 Arsitektur three-tier data warehousing (Han & Kamber

2001)

2. Lapis tengah (middle tier)

Lapis tengah adalah OLAP server yang

biasanya diimplementasikan dengan OLAP Relasional (ROLAP) atau OLAP Multidimensional (MOLAP).

3. Lapis atas (top tier)

Pada lapis atas adalah lapisan front-end client, berisi query dan perangkat

pelaporan, perangkat analisis, dan/atau perangkat data mining (seperti: analisis

tren, prediksi, dan lainnya).

METODE PENELITIAN

Analisis

Data dikumpulkan dan dianalisis nilai dan atributnya untuk mendapatkan atribut-atribut yang tepat untuk membuat data warehouse.

Dari hasil analisis ini ditentukan fakta dan dimensi dan dibuat skema model data multidimensi, kemudian melalui proses data preprocessing dibuat data warehouse-nya.

Aplikasi OLAP dibangun menggunakan Palo PHP API (Application Program Interface) dan terhubung ke OLAP server

Palo yang melakukan fungsi agregasi dan terdapat kubus data di dalamnya. Palo merupakan basis data berbasis sel yang multidimensional, hirarkis, dan berbasis memori. Query dalam Palo menghasilkan satu

nilai sel tunggal, bukan baris data seperti basis data relasional. Palo merupakan OLAP multidimensional, menyimpan data dalam kubus data. Dengan dimensi yang hirarkis, kubus data Palo mampu melakukan agregasi multidimensional. Palo berbasis memori yang berimplikasi pada kecepatan. Akses data berbasis sel dilakukan pada waktu nyata (www.palo.net 2006).

Palo menyediakan Palo Excel Add-In yang terintegrasi dengan Microsoft Office Excel. Palo Excel Add-In memiliki fasilitas untuk menampilkan data dari kubus data Palo, membentuk struktur kubus data Palo, dan memuat data dari sumber eksternal ke kubus data Palo.

Aplikasi OLAP dibangun untuk mempresentasikan hasil operasi-operasi OLAP. Kelebihan aplikasi ini dibanding Palo Excel Add-In adalah berbasis web, terdapat

operasi roll-up dan drill-down dalam tabel,

dan grafik dinamis. Pengguna dapat mengevaluasi pola dengan menentukan kubus, ukuran, dimensi-dimensi, dan elemen-elemen dimensi, kemudian aplikasi akan memvisualisasikan ke bentuk yang mudah dipahami.

Data Preprocessing

Data dari berbagai sumber dikumpulkan dan dilakukan data preprocessing. Tahapan data preprocessing dalam penelitian ini

adalah:

1. Integrasi dan reduksi

Dilakukan penggabungan data dari berbagai sumber ke satu basis data. Data

(16)

7

direduksi dengan membuang atribut yang tidak menarik dan tidak relevan.

2. Pembersihan

Data dibersihkan untuk memperbaiki data yang kosong, mengandung noise, dan

tidak konsisten. Pada tahapan ini juga terdapat transformasi untuk menjaga konsistensi data.

3. Transformasi

Tranformasi ke bentuk data yang tepat agar dapat digunakan untuk proses selanjutnya. Di dalamnya meliputi penyeragaman nama atribut, generalisasi, agregasi, dan konstruksi atribut/dimensi. Akhir dari tahapan transformasi ini adalah terbentuknya sebuah data warehouse.

Dalam penelitian ini, modul program untuk membantu pemrosesan data dibuat dengan bahasa pemrograman PHP. Modul ini terdiri dari modul transfer.php dan clean.php. Modul-modul tersebut menggunakan library

ADOdb sebagai jembatan untuk mengakses basis data. Modul transfer.php dibuat karena keterbatasan fasilitas konversi dalam DBMS MsSQL Server 2000, yaitu beberapa tipe data dari data sumber tidak dapat dipetakan ke tipe data MsSQL. Modul transfer.php memiliki fungsi untuk mengkonversi data dari basis data Foxpro ke DBMS MsSQL, dan memuat data dari tabel atau view SQL ke tabel baru.

Modul clean.php memiliki fungsi untuk membersihkan data.

Aplikasi OLAP

Langkah awal pembangunan aplikasi adalah membentuk struktur kubus data dalam OLAP server Palo. Pembentukan struktur

kubus data dilakukan di Palo Excel Add-In. Namun untuk mempercepat proses pembentukan ini, dibuat suatu modul program dengan nama palo_modeller.php. Modul ini menggunakan library ADOdb sebagai

jembatan ke basis data. Modul palo_modeller.php memiliki fungsi untuk memetakan dimensi dan elemen-elemennya dari tabel dimensi data warehouse menjadi

dimensi kubus data Palo. Struktur kubus data yang sudah terbentuk kemudian diisi dengan data dari data warehouse melalui fasilitas

Data Import di Palo Excel Add-In.

Selanjutnya dilakukan perancangan aplikasi yang terdiri dari rancangan antarmuka, fungsi, class, dan modul.

Antarmuka terdiri dari dua rancangan tampilan, yaitu untuk tampilan screen dengan

resolusi 1024 × 768 pixel dan untuk tampilan

hasil cetakan. Fungsi aplikasi dirancang untuk operasi-operasi OLAP dan visualisasi hasil operasi OLAP dengan crosstab dan grafik.

Implementasi aplikasi menggunakan bahasa pemrograman PHP, Palo PHP API,

library JpGraph, dan JavaScript. Tampilan

aplikasi menggunakan kode HTML (HyperText Markup Language) dan CSS

(Cascade Style Sheets).

Nama dan fungsi dari class dan modul

utama dalam aplikasi OLAP adalah:

app: merupakan class induk yang

menjalankan aplikasi.

content: mengatur isi dari aplikasi. olap_function: menjalankan

operasi-operasi OLAP. Class ini merupakan hasil

modifikasi dari modul program palo_demo.php yang terdapat dalam Palo SDK (Software Development Kit) 1.0c.

Dalam modul palo_demo.php terdapat fungsi untuk membentuk struktur data

crosstab dan fungsi operasi roll-up dan drill-down. Palo_demo.php dimodifikasi

dengan mengubah pemrogramannya dari prosedural menjadi berorientasi objek, dan ditambah fungsi operasi slice dan dice.

olap_render: menampilkan aplikasi dalam sintaksis HTML.

olap_graph_generator: menggambar grafik hasil operasi OLAP. Class ini

menggunakan library JpGraph untuk

menghasilkan grafik.

Lingkungan Pengembangan

Aplikasi dibangun dengan menggunakan perangkat sebagai berikut:

Perangkat keras berupa komputer personal dengan spesifikasi:

Prosesor Intel Pentium 4 CPU 1.7 GHz Memori 512 MB DDR RAM

Harddisk 120 GB

Monitor 15” dengan resolusi 1024 × 768

Mouse dan Keyboard

Perangkat lunak:

Sistem Operasi Microsoft Windows XP Professional SP2

Microsoft SQL Server 2000 (perangkat lunak bantu untuk pemrosesan data dan pembuatan skema data warehouse)

(17)

8

Palo Server 1.0c (berfungsi sebagai OLAP

server yang melakukan fungsi agregasi

dan tempat penyimpanan struktur dan data kubus data multidimensi)

Palo Excel Add-In 1.0c (tempat pembuatan/pemodelan struktur kubus data dan proses pemuatan data dari data warehouse ke kubus data)

Web Server Apache 2.0.52

Bahasa pemrograman PHP 5.1.6

ADOdb 4.68 library for PHP (digunakan dalam tahapan data preprocessing dan

menghubungkan basis data MsSQL dan ODBC Foxpro dengan modul program) JpGraph 1.20 (library PHP untuk

menghasilkan grafik)

Maguma Studio Free 1.3.3 (IDE PHP) Web browser Mozilla Firefox 2.0 dan

Microsoft Internet Explorer 6.

HASIL DAN PEMBAHASAN

Analisis Data

Dari data sumber diperoleh 14 tabel dengan format Foxpro (.dbf) dan 5 tabel dengan format Excel (.xls). Analisis dilakukan terhadap data sumber tersebut untuk mendapatkan atribut-atribut yang tepat untuk

data warehouse. Daftar file data sumber ada

pada Lampiran 1.

Pada studi kasus data pelamar PPMB, semua tuple dan atribut dalam tabel data

pelamar terpilih telah tercakup dalam tabel

data pelamar, sehingga tabel data pelamar terpilih (terpilih00, terpilih01, terpilih02, terpilih03, dan terpilih04) tidak diikutsertakan dalam tabel fakta. Tabel data jumlah pelamar yang datang (dataptd2) dibuang karena sama dengan data pelamar yang sudah diagregasi. Tabel data pelamar yang dipanggil tahun 2005 (sla05ipb) juga dibuang karena datanya tidak lengkap, data yang tersedia hanya untuk tahun 2005.

Pemilihan atribut diprioritaskan berdasarkan ketentuan-ketentuan, yaitu:

1. Atribut menarik untuk dianalisis,

2. Atribut berkaitan dengan atribut atau tabel data yang lain,

3. Kombinasi nilai yang mungkin muncul tidak didominasi oleh satu nilai dan tidak terlalu banyak nilai bedanya,

4. Nilai null tidak melebihi 10%, dan

5. Pertimbangan kinerja sistem dengan mengurangi atribut.

Dari atribut-atribut yang dipilih kemudian ditentukan atribut-atribut yang dapat dijadikan ukuran dan dimensi. Hasil analisis data ditentukan empat fakta dalam dua tabel fakta dan sepuluh dimensi. Fakta terdiri dari ukuran jumlah pelamar USMI (dalam tabel fakta Pelamar), rataan pendapatan ayah, rataan IPK TPB, dan jumlah mahasiswa (dalam tabel fakta Mahasiswa). Selanjutnya dibuat skema model data multidimensi data warehouse.

Skema data warehouse yang dibangun dapat

dilihat pada Gambar 6.

Pelamar FK1 id_waktu FK2 id_asal FK3 id_kel FK4 studi_pilihan1 FK5 studi_pilihan2 FK6 studi_putusan FK7 id_listrik FK8 id_biaya FK9 id_kategori jumlah_pelamar_usmi Mahasiswa FK1 id_waktu FK2 id_jalur FK3 id_kel FK4 pendidikan_ayah FK5 pendidikan_ibu FK6 id_pek FK7 id_studi rataan_pendapatan_ayah rataan_ipk_tpb jumlah_mhs Listrik PK id_listrik listrik JenisKelamin PK id_kel lelaki_perempuan BiayaHidup PK id_biaya biaya_hidup Jalur PK id_jalur jalur Pendidikan PK id_pend pendidikan PekerjaanAyah PK id_pek pekerjaan_ayah Asal PK id_asal propinsi pulau Waktu PK id_waktu tahun_masuk KategoriSLA PK id_kategori kategori_sla Studi PK id_studi program_studi departemen fakultas

(18)

9

Integrasi dan Reduksi Data

Integrasi data dilakukan bersamaan dengan reduksi data. Integrasi dan reduksi data ini dilakukan pada awal proses data preprocessing untuk menyamakan format

basis data dan menyusutkan volume sehingga memudahkan proses-proses selanjutnya. Data diproses menjadi dua bagian besar yaitu data untuk tabel fakta Pelamar dan tabel fakta Mahasiswa.

Integrasi diawali dengan konversi seluruh data sumber (.dbf dan .xls) menjadi satu basis data dengan format Microsoft SQL Server (.mdf). Integrasi selanjutnya menggabungkan tabel-tabel menjadi satu tabel besar untuk dijadikan tabel fakta. Tabel-tabel yang akan digabungkan diidentifikasi nama atribut dan tipe datanya, kemudian dibuatkan tabel baru dengan nama atribut sesuai dengan hasil identifikasi. Penggabungan itu adalah menggabungkan tabel data pelamar (cal00ipb, cal01ipb, cal02ipb, cal03ipb, dan cal04ipb) dengan tabel data penilaian asal SMA (perak2). Penggabungan yang kedua adalah menggabungkan tabel data mahasiswa (pl_ilkom) dengan data IPK TPB mahasiswa (ipk00, ipk01, ipk02, ipk03, ipk04).

Reduksi data dilakukan dengan membuang atribut-atribut yang tidak terpilih berdasarkan hasil analisis data. Nilai-nilai atribut yang redundan dalam tabel-tabel sumber tidak disertakan dalam proses selanjutnya (dibuang).

Proses integrasi dan reduksi data membentuk tabel baru. Tabel tersebut adalah tabel pre_pelamar yang terdiri dari sepuluh atribut dan 44224 tuple. Tabel baru yang

kedua adalah tabel pre_mahasiswa yang terdiri dari sembilan atribut dan 14055 tuple.

Nama dan deskripsi atribut dari tabel-tabel tersebut dapat dilihat pada Tabel 1 dan Tabel 2.

Tabel 1 Nama dan deskripsi atribut tabel pre_pelamar hasil integrasi dan reduksi

Nama Atribut Deskripsi

tahunmasuk Tahun calon mahasiswa melamar

nosla Nomor kode asal SMU pelamar

nrp NRP pelamar yang diterima jeniskel Kode jenis kelamin

pilihan1 Kode program studi pilihan pertama

pilihan2 Kode program studi pilihan kedua

putusan1 Kode program studi pelamar yang diterima

listrik Kode daya listrik rumah orangtua/wali

biayahidup Perkiraan biaya hidup bulanan yang akan diperoleh pelamar

kategori Kategori penilaian IPB terhadap asal SMU pelamar Tabel 2 Nama dan deskripsi atribut tabel

pre_mahasiswa hasil integrasi dan reduksi

tahunmasuk Tahun mahasiswa masuk IPB jalur Kode jalur masuk mahasiswa jeniskel Kode jenis kelamin

pendayah Kode pendidikan terakhir ayah

pendibu Kode pendidikan terakhir ibu pekerjayah Kode pekerjaan ayah

nrp NRP mahasiswa

pendapatan Pendapatan ayah bulanan saat mahasiswa masuk IPK IPK TPB mahasiswa

Pembersihan Data

Pada proses pembersihan data dilakukan identifikasi terhadap data yang kosong (null),

mengandung noise, dan tidak konsisten karena

proses pengentrian data sumber maupun akibat proses integrasi data.

Noise pada atribut pendapatan di tabel

pre_mahasiswa di-update dengan nilai

pendapatan rata-rata orangtua berdasarkan kelas pekerjaan ayah. Sedangkan nilai kosong dan noise pada atribut IPK di-update menjadi

nilai rata-rata IPK dari seluruh mahasiswa. Pada proses pembersihan juga diselingi proses transformasi untuk membersihkan data yang tidak konsisten. Transformasi yang banyak terjadi di tabel pre_pelamar dan pre_mahasiswa adalah transformasi kode program studi lama menjadi kode program studi baru.

Setelah proses pembersihan, tabel pre_mahasiswa berkurang lima tuple karena

adanya penghapusan tuple menjadi 14045 tuple. Sedangkan pada tabel pre_pelamar tetap

44224 tuple. Rincian proses pembersihan data

(19)

10

Transformasi Data

Tranformasi data ke bentuk yang tepat dengan berpedoman pada skema data warehouse yang telah dibuat. Proses

transformasi ini meliputi penyeragaman nama atribut, generalisasi, agregasi, dan konstruksi atribut/dimensi.

Atribut-atribut dari tabel hasil pembersihan diubah namanya sesuai dengan nama-nama yang ada di skema. Data untuk atribut kode asal SMU pelamar (nosla) dari tabel pre_pelamar digeneralisasi dengan mengubah nilainya menjadi kode asal dengan mengambil dua digit awal dari nosla yang merepresentasikan asal propinsi pelamar. Atribut nrp dihilangkan karena mendeskripsikan hal yang sama dengan atribut putusan1, keduanya secara tidak langsung menjelaskan program studi bagi pelamar yang diterima. Data untuk atribut nomor mahasiswa (nrp) tabel pre_mahasiswa digeneralisasi menjadi kode program studi dengan mengambil empat digit awal dari nrp. Data untuk atribut pendapatan dibulatkan ke ribuan. Hasil transformasi ini dimasukkan ke dalam tabel baru, tabel pre_pelamar menjadi tabel pre2_pelamar dan tabel pre_mahasiswa menjadi tabel pre2_mahasiswa.

Langkah selanjutnya adalah menentukan nilai agregasi atribut-atribut yang menjadi ukuran. Data tabel pre2_pelamar ditentukan nilai agregasinya untuk mendapatkan ukuran jumlah pelamar dengan cara menghitung jumlah pelamar dikelompokkan berdasarkan atribut-atribut yang ada. Atribut baru dikonstruksi untuk menampung ukuran jumlah pelamar hasil agregasi. Begitu juga data tabel pre2_mahasiswa ditentukan nilai agregasinya untuk mendapatkan ukuran rataan pendapatan ayah, rataan IPK TPB, dan jumlah mahasiswa. OLAP server Palo belum

mendukung fungsi agregasi rataan. Oleh sebab itu nilai agregasi rataan ditentukan dengan menentukan nilai total dari ukuran, kemudian aplikasi membaginya dengan ukuran jumlah, hasilnya adalah rataan dari ukuran tersebut. Untuk data atribut pendapatan dan IPK dari tabel

pre2_mahasiswa ditentukan nilai totalnya dan dihitung ukuran jumlah mahasiswa, dikelompokkan berdasarkan atribut-atribut non-ukuran. Atribut baru dikonstruksi untuk ukuran jumlah mahasiswa. Hasil dari transformasi dengan operasi agregasi ini dipindahkan ke tabel baru yang merupakan tabel fakta data warehouse sesungguhnya.

Tabel-tabel baru tersebut adalah tabel dw_pelamar yang terdiri dari sembilan atribut dimensi dan satu atribut ukuran, dan dw_mahasiswa yang terdiri dari tujuh atribut dimensi dan tiga atribut ukuran.

Tahapan pemrosesan data yang terakhir adalah transformasi dengan mengkonstruksi tabel-tabel dimensi. Kesepuluh tabel dimensi itu dibuat dengan nama dw_asal, dw_listrik, dw_biayahidup, dw_kategorisla, dw_waktu, dw_jeniskelamin, dw_studi, dw_jalur, dw_pendidikan, dan dw_pekerjaanayah. Tabel dimensi Asal (dw_asal) dibuat dari generalisasi kode asal SMU, dua digit awal kode asal SMU menjelaskan asal propinsi dan digit pertama menjelaskan asal pulau. Tabel dimensi Studi (dw_studi) dibuat dari generalisasi kode NRP atau dari kode program studi, di dalamnya menjelaskan program studi, departemen, dan fakultas dari mahasiswa bersangkutan. Data dalam tabel dimensi data warehouse dapat dilihat pada Lampiran 3.

Pemuatan Data

Setelah data warehouse selesai dibuat,

langkah selanjutnya adalah pemuatan data (loading) dari data warehouse ke kubus data

OLAP server. Sebelum pemuatan data

dilakukan, skema data warehouse dimodelkan

dalam OLAP server Palo, proses ini

menentukan dimensi-dimensi, elemen-elemen dari dimensi, ukuran-ukuran, dan kubus data. Kubus data yang dibuat diberi nama Pelamar untuk tabel fakta dw_pelamar dan Mahasiswa untuk tabel fakta dw_mahasiswa. Ukuran pada struktur Palo dimasukkan dalam struktur dimensi. Selanjutnya data dimuat menggunakan fasilitas Data Import dari Excel Add-In Palo. Nama dan deskripsi dimensi dari kubus data dapat dilihat pada Tabel 3 dan Tabel 4 (halaman 11).

Tabel 3 Nama dan deskripsi dimensi dari kubus data Pelamar Nama Dimensi Deskripsi

Waktu Tahun melamar USMI (2000, 2001, 2002, 2003, dan 2004)

Asal Asal propinsi dan pulau pelamar (Jawa Barat, DKI Jakarta, Sumatera, dsb.) Jenis Kelamin Keterangan jenis kelamin pelamar (Perempuan dan Lelaki)

(20)

11

Nama Dimensi Deskripsi

Studi Pilihan2 Program studi, departemen, dan fakultas pilihan kedua pelamar Studi Putusan Program studi, departemen, dan fakultas pelamar yang diterima

Listrik Keterangan daya listrik rumah orangtua/wali (450 Watt, 900 Watt, dsb.) Biaya Hidup Keterangan perkiraan biaya hidup bulanan (< 100 Ribu, 100 – 200 Ribu, dsb.) Kategori SLA Kategori asal SMU pelamar (A+, A, A-, B+, dsb.)

Ukuran Pelamar Berisi nama-nama ukuran (Jumlah Pelamar USMI) Tabel 4 Nama dan deskripsi dimensi dari kubus data Mahasiswa Nama Dimensi Deskripsi

Waktu Tahun masuk mahasiswa (2000, 2001, 2002, 2003, dan 2004) Jalur Jalur masuk mahasiswa (USMI, UMPTN, dsb.)

Jenis Kelamin Keterangan jenis kelamin mahasiswa (Perempuan dan Lelaki) Pendidikan Ayah Keterangan pendidikan terakhir ayah

Pendidikan Ibu Keterangan pendidikan terakhir ibu

Pekerjaan Ayah Keterangan jenis pekerjaan ayah (PNS, Wiraswasta, dsb.) Program Studi Program studi, departemen, dan fakultas mahasiswa

Ukuran Mahasiswa Berisi nama-nama ukuran (Rataan Pendapatan Ayah, Rataan IPK TPB, dan Jumlah Mahasiswa)

Palo Excel Add-In Data Warehouse XLS DBF Laptop Grafik Analisa Line Plot Crosstab Workstation DBF DBF Apache PHP web server Data Pre-processing Presentasi OLAP tool Lapis bawah: Data Warehouse DBMS Lapis tengah: Web server OLAP server Lapis atas: Web browser Palo OLAP server ADOdb Palo API JpGraph MsSQL Server Data Sumber

Gambar 7 Arsitektur data warehousing dan aplikasi OLAP

Gambaran Umum Aplikasi

Arsitektur penelitian ini mengadopsi arsitektur three-tier. Pada lapisan bawah

adalah pemrosesan data dan pembuatan skema

data warehouse dengan DBMS Microsoft

SQL Server 2000. Pembentukan dan pemuatan kubus data menggunakan Palo Excel Add-In.

Di lapisan tengah aplikasi OLAP yang dibuat dengan bahasa pemrograman PHP berjalan pada web server Apache. Pada

lapisan ini terdapat OLAP server Palo yang

menyimpan data dalam kubus data. Web server mengakses kubus data Palo server

melalui Palo PHP API. Modul program untuk membantu pemrosesan data dan pembentukan kubus data menggunakan library ADOdb

sebagai jembatan ke basis data. Aplikasi OLAP menggunakan library JpGraph untuk

membangkitkan grafik.

Di lapisan atas visualisasi dari aplikasi OLAP dilakukan oleh web browser. Di

lapisan ini pengguna dapat melakukan pencarian data, mengevaluasi pola, dan mendapatkan representasi informasi dalam bentuk yang mudah dipahami yaitu crosstab

dan grafik. Arsitektur three-tier data warehousing penelitian ini dapat dilihat pada

Gambar 7.

Aplikasi OLAP menyediakan fasilitas-fasilitas berikut :

1. Menu OLAP, dimana pengguna dapat menentukan kubus data, ukuran, dan

(21)

12

2. Aplikasi OLAP dilengkapi dengan versi

portable. Versi portable ini ditujukan

untuk komputer stand-alone dan

dijalankan dalam media hard-disk atau flash-disk sehingga tidak memerlukan

instalasi dan konfigurasi web server dan

OLAP server. Pada versi ini, web server

Apache dan OLAP server Palo dijalankan

sebagai console bukan sebagai service.

Aplikasi portable sukses berjalan dalam

sistem operasi Windows XP, namun belum diuji pada sistem operasi lain.

dimensi-dimensi yang akan ditampilkan untuk dianalisis.

2. Filter dimensi, fungsi ini dapat menyaring

dimensi yang ditampilkan pada x-axis dan y-axis untuk menampilkan elemen-elemen tertentu dari dimensi. Dimensi lainnya dapat dipilih satu elemen dari tiap-tiap dimensi.

3. Visualisasi Crosstab dan Graph, dimana

data hasil operasi OLAP yang dilakukan pengguna dapat ditampilkan ke dalam bentuk tabel (crosstab) dan/atau grafik.

Grafik yang ditampilkan berupa bar plot

atau line plot.

3. Aplikasi yang dibangun dan perangkat lunak bantu yang digunakan berbasis open source dan freeware, sehingga

memudahkan pengembangan aplikasi selanjutnya.

4. Disain cetakan, dengan fitur ini aplikasi membuang tampilan yang tidak perlu pada hasil cetakan. Aplikasi hanya mencetak judul, crosstab dan/atau grafik, sedangkan

menu OLAP tidak ikut tercetak. Hasil visualisasi dapat dicetak melalui fasilitas Print pada web browser.

4. Aplikasi OLAP dirancang agar dapat digunakan untuk bermacam data warehouse, bukan hanya data warehouse

data PPMB IPB. Untuk menggunakan data warehouse lain, beberapa file konfigurasi

harus dikonfigurasi ulang. Tampilan aplikasi OLAP dapat dilihat

pada Gambar 8. _{Terdapat beberapa kekurangan utama pada}

aplikasi, yaitu:

Kelebihan dan Kekurangan Sistem

1. Tidak ada fasilitas untuk memodelkan struktur kubus data dan memuat data baru ke dalam kubus data.

Aplikasi OLAP yang dibangun memiliki beberapa kelebihan, yaitu:

1. Aplikasi OLAP berbasis web, dapat

diterapkan dalam internet atau intranet.

Teknologi web ini mengeliminasi

kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna.

2. Crosstab hanya dapat menampilkan satu

dimensi untuk setiap axis-nya.

(22)

13

3. Tidak ada fungsi untuk melakukan operasi

pivot. Saat ini untuk melakukan operasi pivot pengguna harus menukarkan axis

dimensi dan menentukan kembali elemen-elemennya.

4. Saat ini visualisasi grafik hanya menampilkan tipe bar plot dan line plot.

Tidak ada tipe grafik pie dan lainnya.

Presentasi Hasil

Eksplorasi data dilakukan peneliti melalui aplikasi OLAP untuk menghasilkan beberapa informasi. Sebagai contoh untuk mencari pola sebaran pilihan fakultas pelamar jalur USMI berdasarkan asal pulau. Pada Lampiran 4, hasil grafik menunjukkan urutan mayoritas sebaran studi pilihan pertama pelamar dari keseluruhan asal pulau adalah fakultas FAPERTA, FMIPA, dan FATETA. Pola yang sama ditunjukkan pada Lampiran 5, untuk asal pulau dari Sumatera dan Jawa. Sedangkan presentasi grafik dengan asal pulau lainnya menunjukkan pola yang berbeda, dapat dilihat pada Lampiran 6. Untuk asal pulau Nusa Tenggara mayoritas pilihannya adalah FMIPA, FAPERTA, dan FPIK. Untuk pulau Kalimantan adalah FAPERTA, FATETA, dan FMIPA. Untuk pulau Sulawesi adalah

FAPERTA, FATETA, FMIPA, dan FPIK. Untuk pulau Irian mayoritas pilihan fakultas adalah FMIPA dan FAPERTA. Sedangkan untuk luar negeri lebih banyak memilih fakultas FMIPA. Tampilan crosstab untuk

dimensi Asal tingkatPulau dan dimensi Studi Pilihan1 tingkat Fakultas pada Lampiran 7. Dari hasil eksplorasi data sebelumnya yang menghasilkan fakultas pilihan mayoritas (FAPERTA, FMIPA, dan FATETA), analisis dilakukan lebih lanjut untuk melihat tren pilihan fakultas tiap tahun. Hasil presentasi tren pilihan tersebut dapat dilihat pada Gambar 9 dalam bentuk crosstab,dan Gambar

10 dalam bentuk grafik.

Gambar 9 Crosstab ukuran Jumlah Pelamar

USMI, dimensi Studi Pilihan1 untuk Fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk

Gambar 10 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk

(23)

14

Dilihat dari dimensi Waktu, pada tahun 2000, fakultas FMIPA dipilih oleh 1800 pelamar, hampir sama dengan FATETA dengan 1777 pelamar, sedangkan FAPERTA jauh di atas dengan 2714 siswa/siswi SMU memilihnya. Pada tahun setelah 2000 pilihan pelamar terhadap FAPERTA cenderung menurun, sedangkan FMIPA meningkat, dan FATETA cenderung stabil. Di tahun 2003 FMIPA mengalahkan FAPERTA sebagai fakultas dengan pemilih terbanyak. Pada tahun 2004 fakultas FMIPA masih menjadi fakultas pilihan terbanyak di IPB dengan 2261 pelamar, sementara FAPERTA 2129 pelamar dan FATETA 1639 pelamar.

Eksplorasi data melalui aplikasi OLAP lainnya adalah menganalisis tren perkembangan indeks prestasi mahasiswa di TPB dari program studi-program studi yang bersaing dengan program studi Ilmu Komputer. Untuk mencari program studi yang bersaing dengan Ilmu Komputer, data rataan IPK TPB setiap program studi disortir. Sepuluh program studi dengan rataan IPK mahasiswa TPB terbesar tahun masuk 2000 sampai 2004 dapat dilihat pada Gambar 11.

Gambar 11 Crosstab sepuluh program studi

dengan rataan IPK TPB terbesar Program studi Ilmu Komputer di urutan 6 dan 7 sama dengan Matematika dengan rataan IPK 2,79. Bersaing dengan Teknologi Industri Pertanian di urutan 4 (2,97), Gizi Masyarakat ke-5 (2,81), Teknik Pertanian ke-8 (2,78), Program studi Hasil Perikanan dan Biokimia

di urutan 9 dan 10 dengan rataan IPK TPB sama (2,77).

Mahasiswa Ilmu Komputer tahun masuk 2000 memiliki rataan IPK TPB dengan peringkat 5 besar (2,80) namun tahun masuk 2004 turun satu peringkat ke urutan 6 (2,84). Hal ini bukan disebabkan merosotnya rataan IPK pada tahun tersebut tetapi karena program studi Gizi Masyarakat berhasil mengangkat rataan indeks prestasinya menjadi 2,86 dan melewati rataan IPK Ilmu Komputer. Grafik garis tren rataan IPK TPB sepuluh program studi terbesar tahun masuk 2000 sampai 2004 ditunjukkan dalam Lampiran 8.

Tren perkembangan indeks prestasi TPB program studi Ilmu Komputer menurun pada mahasiswa tahun masuk 2003, hal ini menjadi bahan pencarian informasi selanjutnya. Tren tersebut dapat dilihat dalam grafik pada Gambar 12 (halaman 15). Pada tahun masuk 2001 IPK TPB rata-rata mahasiswa Ilmu Komputer adalah 2,80, pada 2001 IPK 2,82, pada 2002 IPK 2,81, pada 2003 menurun drastis menjadi 2,67, pada 2004 naik kembali ke IPK 2,84. Peneliti selanjutnya mencari lebih jauh faktor apa yang mempengaruhi penurunan IPK tersebut dengan mengevaluasi dimensi Jalur dan Jenis Kelamin. Dengan pilihan dimensi Program Studi elemen Ilmu Komputer, elemen-elemen dimensi Waktu, dan elemen-elemen dimensi Jalur, didapat hasil rataan IPK mahasiswa TPB Ilmu Komputer tahun masuk 2003 jalur USMI adalah 2,81, sedangkan jalur UMPTN/SPMB adalah 2,45. Hasil tersebut dapat dilihat dalam

crosstab pada Gambar 13 (halaman 15), dan

dalam grafik pada Lampiran 9. Karena IPK yang kecil ada pada mahasiswa jalur UMPTN/SMPB, selanjutnya dipilih dimensi Jalur elemen UMPTN/SPMB dengan tambahan elemen-elemen jenis kelamin. Hasil pilihan tersebut sebagai berikut: rataan IPK TPB mahasiswa Ilmu Komputer tahun masuk 2003 jalur UMPTN/SPMB jenis kelamin perempuan adalah IPK 2,96, sedangkan IPK TPB lelakinya 2,35. Rataan IPK tersebut dapat dilihat dalam crosstab pada Gambar 14

(24)

15

Gambar 12 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Waktu tingkat Tahun Masuk

Gambar 13 Crosstab ukuran Rataan IPK

TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer

Gambar 14 Crosstab ukuran Rataan IPK

TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB

KESIMPULAN DAN SARAN

Kesimpulan

Penelitian ini menghasilkan data warehouse data PPMB yang terdiri dari dua

kubus data. Kubus data yang pertama adalah Pelamar, berisi nilai-nilai agregasi siswa/siswi SMU yang melamar ke IPB melalui jalur USMI. Kubus data yang kedua adalah Mahasiswa, berisi nilai-nilai agregasi mahasiswa IPB.

Aplikasi OLAP mengakses data dari OLAP server Palo. Data tersebut tersimpan

dalam kubus data sehingga pengguna dapat menganalisis data multidimensional dan mendapatkan informasi dengan cepat untuk membantu proses pengambilan keputusan. Aplikasi OLAP yang dibangun dapat digunakan untuk operasi-operasi OLAP seperti roll-up, drill-down, slice, dice, dan pivot. Aplikasi ini menyediakan fasilitas menu

untuk memilih kubus data, ukuran, dan dimensi dari data warehouse data PPMB.

Dimensi yang dipilih dapat disaring untuk menentukan elemen-elemen yang diinginkan. Hasil operasi OLAP divisualisasikan dalam bentuk crosstab dan grafik yang dinamis.

(25)

16

Aplikasi OLAP memudahkan pengguna untuk mengekplorasi data PPMB IPB, tanpa harus memasukan query-query SQL yang

rumit. Hasil ekplorasi disajikan dalam bentuk informasi yang konklusif, cepat, dan menarik. Berdasarkan contoh presentasi informasi yang dihasilkan dapat dinyatakan bahwa jumlah pelamar jalur USMI didominasi oleh pelamar dari pulau Jawa dan Sumatera, dan mayoritas pelamar memilih fakultas FAPERTA, FMIPA, dan FATETA. Dapat dinyatakan juga bahwa fakultas FMIPA menjadi fakultas di IPB yang favorit berdasarkan pilihan siswa/siswi SMU, selain itu juga FMIPA mengalami perkembangan yang baik dengan jumlah pelamar terbanyak di tahun 2003 dan 2004 melebihi FAPERTA, dan jauh meninggalkan FATETA dan fakultas-fakultas lainnya.

Dari hasil contoh presentasi juga dapat dinyatakan bahwa antara tahun masuk 2000 sampai 2004 telah terjadi penurunan rataan IPK TPB yang mencolok pada mahasiswa Ilmu Komputer tahun masuk 2003. Penurunan tersebut dipengaruhi oleh mahasiswa Ilmu Komputer tahun masuk 2003 dari jalur UMPTN/SPMB dan jenis kelamin laki-laki.

Saran

Saran untuk penelitian data warehousing

dan OLAP selanjutnya adalah:

1. Dibangun modul program baru atau dikembangkan modul yang ada untuk melengkapi aplikasi OLAP. Modul yang ada terdiri dari transfer.php dan clean.php untuk tahapan data preprocessing, dan

palo_modeller.php untuk memodelkan struktur kubus data di dalam Palo. Selain itu perlu dibangun modul program untuk pemasukan data baru. Modul-modul tersebut nantinya diintegrasikan ke dalam aplikasi OLAP.

2. Dikembangkan operasi-operasi OLAP dalam aplikasi. Untuk operasi slice dan dice disempurnakan, sehingga setiap axis

dari crosstab dapat diisi dengan dua atau

lebih dimensi. Untuk operasi pivot

dibuatkan fasilitas khusus, sehingga pengguna cukup menekan satu tombol/link

untuk melakukan operasi ini.

3. Dikembangkan visualisasi hasil operasi OLAP dalam aplikasi. Pada crosstab dapat

ditambah fungsi pengurutan untuk mengurutkan data. Grafik dalam aplikasi OLAP dapat ditambah dengan tipe grafik

baru selain bar plot dan line plot. Library

JpGraph versi 1.20 dapat membangkitkan grafik dengan tipe bar, line, error, scatter, field, box and stock charts, radar, pie, polar, dan gantt chart.

4. Aplikasi OLAP dikembangkan dengan menambah fasilitas login. Dengan fasilitas

tersebut hak akses pengguna diatur sehingga aplikasi hanya diakses oleh pihak-pihak yang berkepentingan dan kerahasiaan data terjaga.

5. Dikembangkan aplikasi dengan menggunakan Palo versi terbaru. Saat penelitian ini dilakukan Palo versi 1.5 sedang dikembangkan. Rilis akhir dari Palo versi 1.5 ini lebih baik kinerja dan stabilitasnya, dan memiliki fitur-fitur baru.

(26)

17

DAFTAR PUSTAKA

Bouzeghoub M & Kedad Z. 2000. A Quality-Based Framework for Physical Data Warehouse Design. Laboratoire PRiSM,

Université de Versailles. Versailles Cedex, France.

Connolly T & Begg C. 2002. Database Systems: A Practical Approach to Design, Implementation, and Management. USA:

Addison Wesley.

Han J & Kamber M. 2001. Data Mining Concepts & Techniques. Simon Fraser

University. USA: Morgan Kaufman.

Inmon WH. 1996. Building the Data warehouse. New York, USA: John Wiley

& Sons.

Kantardzic M. 2003. Data Mining Concept, Models, Methods, dan Algorithms. New

Jersey, USA: A John Wiley & Sons. Mallach EG. 2000. Decision Support and

Data Warehouse Systems, International Edition. Singapore: McGraw-Hill.

Post GV. 2005. Database Management Systems: Designing and Building Business Applications. Ed ke-3. New York, USA:

McGraw Hill.

Silberschatz A, Korth HF, & Sudarshan S. 2006. Database System Concepts. Ed ke-5.

(27)

(28)

19

Lampiran 1 Daftar file data sumber

Nama file Jumlah

kolom Jumlah baris Keterangan

cal00ipb.dbf 116 8456 Data pelamar (USMI) tahun 2000 cal01ipb.dbf 128 9280 Data pelamar (USMI) tahun 2001 cal02ipb.dbf 129 9362 Data pelamar (USMI) tahun 2002 cal03ipb.dbf 128 8887 Data pelamar (USMI) tahun 2003 cal04ipb.dbf 133 8201 Data pelamar (USMI) tahun 2004

terpilih00.dbf 22 2221 Data pelamar yang terpilih / diterima (USMI) tahun 2000 terpilih01.dbf 127 2212 Data pelamar yang terpilih / diterima (USMI) tahun 2001 terpilih02.dbf 141 2220 Data pelamar yang terpilih / diterima (USMI) tahun 2002 terpilih03.dbf 131 2287 Data pelamar yang terpilih / diterima (USMI) tahun 2003 terpilih04.dbf 28 2370 Data pelamar yang terpilih / diterima (USMI) tahun 2004 perak2.dbf 18 4221 Data penilaian asal SMA tahun 2000 - 2004

dataptd2.dbf 9 8258 Data jumlah pelamar yang datang dan nem per asal SMA tahun 2000 - 2004 sla05ipb.dbf 57 1593 Data pelamar yang dipanggil (USMI) tahun 2005

pl_ilkom.dbf 88 14055 Data mahasiswa yang masuk (USMI & SPMB) tahun 2000 - 2004 ipk 00-04.xls 3 13870 Data IPK TPB mahasiswa tahun 2000 - 2004 (terdiri dari 5 sheet)

Lampiran 2 Rincian proses pembersihan data a. Pembersihan tabel pre_pelamar

Atribut Jumlah tuple kosong Jumlah tuple mengandung noise Jumlah tuple tidak konsisten Keterangan Aksi

tahunmasuk 0 0 0 sudah bersih, ditentukan

dari asal tabel (cal00ipb

→ 2000, cal01ipb →

2001, dst)

nosla 0 0 0 sudah bersih

nrp a) 32917 b) 1 c) 2219 b) nrp kurang 1 digit →

C0440047

c) 4 digit awal masih kode ps lama pada tahun 2000

a) update jadi 0 (tidak diterima)

b) update jadi C04400047 c) update jadi kodepsbaru

jeniskel 0 0 0 sudah bersih

pilhan1

a) 90 0 b) 17713 c) 26421 b) masih kode ps lama pada tahun 2000 dan 2001 c) kode ps kurang 1 digit pada tahun 2002, 2003, dan 2004

a) update jadi 0 (tidak memilih)

b) dan c) transformasi jadi kodepsbaru

pilihan2

a) 1107 0 b) 17397 c) 25720 b) masih kode ps lama c) kode ps kurang 1 digit a) update jadi 0 (tidak memilih) b) dan c) transformasi jadi kodepsbaru putusan1 a) 270 b) 32662 0 c) 4407 d) 6885

a) nrp ada tetapi putusan1 tidak ada pada tahun 2000 c) masih kode ps lama d) kode ps kurang 1 digit

a) isi dengan 4 digit nrp b) update jadi 0 (tidak diterima)

c) dan d) transformasi jadi kodepsbaru

(29)

20 Lampiran 2 lanjutan Atribut Jumlah tuple kosong Jumlah tuple mengandung noise Jumlah tuple tidak konsisten Keterangan Aksi

listrik 0 317 0 atribut bernilai 0 direpresentasikan sebagai pelamar tidak mengisi keterangan listrik biayahidup 0 519 0 atribut bernilai 0 direpresentasikan sebagai

pelamar tidak mengisi keterangan biaya hidup

kategori 8632 0 0 update jadi 0 (tidak

terkategori) b. Pembersihan tabel pre_mahasiswa

Atribut Jumlah tuple kosong Jumlah tuple mengandung noise Jumlah tuple tidak konsisten Keterangan Aksi

tahunmasuk 0 0 0 sudah bersih

jalur 0 0 0 sudah bersih

jeniskel 0 0 0 sudah bersih

pendayah 0 145 0 atribut bernilai 0 direpresentasikan sebagai mahasiswa tidak mengisi keterangan pendidikan ayah

pendibu 0 157 0 atribut bernilai 0 direpresentasikan sebagai mahasiswa tidak mengisi keterangan pendidikan ibu pekerjayah 0 606 0 atribut bernilai 0 direpresentasikan sebagai

mahasiswa tidak mengisi keterangan pekerjaan ayah

nrp

0 0 a) 20 b) 2916 a) terdapat 10 pasang tuple redundan

b) 4 digit awal masih kode ps lama pada tahun 2000

a) hapus tuple

redundannya

b) update jadi kodepsbaru pendapatan 0 a) 1 b) 144 0 a) pendapatan = 4 b) atribut bernilai 0

a) dan b) update jadi nilai rataan pendapatan orangtua berdasarkan kelas pekerjayah

IPK a) 185 b) 119 0 b) atribut bernilai 0 a) dan b) update jadi nilai rataan IPK dari seluruh mahasiswa

(30)

21

Lampiran 3 Data tabel dimensi data warehouse

a. Data tabel dw_asal (dimensi Asal) id_asal propinsi pulau

11 Nangroe Aceh

Darussalam Sumatera 12 Sumatera Utara Sumatera 13 Sumatera Barat Sumatera

14 Riau Sumatera

15 Jambi Sumatera

16 Sumatera Selatan Sumatera

17 Bengkulu Sumatera

18 Lampung Sumatera

31 DKI Jakarta Jawa

32 Jawa Barat Jawa

33 Jawa Tengah Jawa

34 DI Yogyakarta Jawa

35 Jawa Timur Jawa

51 Bali Nusa

Tenggara

52 Nusa Tenggara

Barat Nusa Tenggara

53 Nusa Tenggara

Timur

Nusa Tenggara

61 Kalimantan Barat Kalimantan 62 Kalimantan Tengah Kalimantan 63 Kalimantan Selatan Kalimantan 64 Kalimantan Timur Kalimantan 71 Sulawesi Utara Sulawesi 72 Sulawesi Tengah Sulawesi 73 Sulawesi Selatan Sulawesi 74 Sulawesi Tenggara Sulawesi

81 Maluku Irian

82 Papua Irian

99 Luar Negeri Luar Negeri b. Data tabel dw_biayahidup (dimensi Biaya

Hidup) id_biaya biaya_hidup 0 Tidak Tahu 1 < 100 Ribu 2 100 - 200 Ribu 3 200 - 300 Ribu 4 300 - 400 Ribu 5 400 - 500 Ribu 6 > 500 Ribu

c. Data tabel dw_jalur (dimensi Jalur) id_jalur Jalur

1 USMI

2 UMPTN/SPMB 3 PIN

6 Beasiswa/BUD

d. Data tabel dw_jeniskelamin (dimensi Jenis Kelamin)

id_kel lelaki_perempuan 0 Perempuan 1 Lelaki

e. Data tabel dw_kategorisla (dimensi Kategori SLA) id_kategori kategori_sla 0 Tidak Tahu A+ A+ A A A- A- B+ B+ B B B- B- C+ C+ C C C- C- D D

f. Data tabel dw_listrik (dimensi Listrik) id_listrik listrik 0 Tidak Tahu 1 Tidak Ada 2 450 Watt 3 900 Watt 4 1300 Watt 5 2200 Watt 6 > 2200 Watt