Pada penelitian ini akan dilakukan
pengembangan aplikasi OLAP untuk
persebaran data hotspot dengan tambahan modul visualisasi. Tahap-tahap yang akan dilakukan untuk mengembangkan aplikasi OLAP untuk hotspot adalah sebagai berikut:
Praproses Data
Pada tahap praproses dilakukan pemilihan data dan pengambilan data, transformasi data dan pembersihan data. Pada tahapan data cleaning, dilakukan pembersihan database
untuk menghilangkan atau mengurangi
kesalahan-kesalahan pada database. Pada aplikasi OLAP yang sebelumnya, telah tersedia database untuk wilayah-wilayah persebaran hotspot. Tahap data cleaning yang dilakukan yaitu dengan penyesuaian nama
wilayah dari database OLAP dengan
penamaan pada file .dbf. File dbf merupakan file yang menyimpan data wilayah. Data ini akan terhubung ke file shp yang merupakan
file yang menyimpan data spatial.
Penyesuaian dilakukan pada file .dbf, yaitu
dengan menyamakan penamaan suatu
wilayah, tujuannya yaitu agar ketika
dilakukan query, data yang terambil sesuai antara output dari aplikasi OLAP dengan data yang ada pada file .dbf.
Clustering
Tahapan ini merupakan tahapan di mana dilakukan pengambilan data dari hasil operasi OLAP sehingga data menjadi sesuatu yang lebih bermanfaat dan bermakna. Algoritme yang dipakai untuk modul ini adalah Algoritme K-Means. Data hotspot hasil
operasi OLAP pada data warehouse
persebaran hotspot dilakukan clustering.
Sebagai contoh, ketika ingin melihat
persebaran titik panas pada tahun X di wilayah Y. Data yang diambil adalah data pada tahun X di wilayah Y. Pertama dilakukan operasi OLAP untuk memilih salah satu wilayah tertentu (drill-down sampai level yang diinginkan). Dari wilayah ini ditentukan dimensi tahun (drill-down) tertentu. Setelah
didapat crosstab dengan dimensi yang
menampilkan tahun dan wilayah (sesuai
dengan level hirarki yang diinginkan,
misalnya: provinsi atau kabupaten), yang dilakukan selanjutnya adalah operasi slice dan
dice pada tahun sehingga didapatkan data persebaran titik panas dalam tahun tertentu pada suatu cakupan wilayah tertentu (provinsi /kabupaten). Atribut yang digunakan untuk tahap clustering yaitu atribut jumlah titik panas.
Setelah diperoleh data titik persebaran titik panas pada cakupan wilayah tertentu dan tahun tertentu yang dilakukan selanjutnya adalah clustering. Jumlah kelas yang dipilih adalah sejumlah 4 yakni kecil, sedang, besar, dan sangat besar. Tingkatan kelas ini didasarkan pada jumlah titik panas yang ada pada wilayah tertentu dan tahun tertentu.
Langkah-langkah clustering mengunakan
Algoritme K-means adalah sebagai berikut: 1. Menentukan initial partition dengan k
cluster berisi samples yang dipilih secara acak, hitung centroid dari tiap-tiap
cluster.
2. Membangkitkan partisi baru dengan
assigning setiap sample terhadap pusat
cluster terdekat.
3. Menghitung pusat-pusat cluster baru
sebagai centroids dari cluster.
4. Mengulangi langkah 2 dan 3 sampai nilai optimum dari fungsi kriteria dipenuhi (atau sampai cluster membership stabil).
4
Mendefinisikan analisis persamaan
melalui dimensi-dimensi data beserta perhitungannya
Menyimpulkan dataset, agregasi dan desagregasi dari beberapa dimensi. Mengevaluasi dan menampilkan dari hasil analisis.
Operasi OLAP secara umum adalah sebagai berikut (Han & Kamber 2006):
Roll-up: operasi ini dilakukan pada kubus pusat dengan menaikkan tingkatan satu hierarki (pada saat dilakukan operasi ini jumlah dimensi akan berkurang).
Misalnya dari kubus kecamatan
dinaikkan menjadi kubus kabupaten.
Drill-down: operasi ini merepresentasi-kan kubus secara lebih detail (kebalimerepresentasi-kan dari operasi roll-up).
Slice dan dice: operasi ini melakukan pemilihan satu dimensi dari kubus sehingga dihasilkan subcube. Operasi
dice mendefinisikan subcube dari pemilihan dua dimensi atau lebih.
Pivot (rotate): operasi ini merupakan visualisasi data secara berbeda (dengan memutar koordinat) sehingga didapat presentasi data dalam bentuk lain.
METODE PENELITIAN
Pada penelitian ini akan dilakukan
pengembangan aplikasi OLAP untuk
persebaran data hotspot dengan tambahan modul visualisasi. Tahap-tahap yang akan dilakukan untuk mengembangkan aplikasi OLAP untuk hotspot adalah sebagai berikut:
Praproses Data
Pada tahap praproses dilakukan pemilihan data dan pengambilan data, transformasi data dan pembersihan data. Pada tahapan data cleaning, dilakukan pembersihan database
untuk menghilangkan atau mengurangi
kesalahan-kesalahan pada database. Pada aplikasi OLAP yang sebelumnya, telah tersedia database untuk wilayah-wilayah persebaran hotspot. Tahap data cleaning yang dilakukan yaitu dengan penyesuaian nama
wilayah dari database OLAP dengan
penamaan pada file .dbf. File dbf merupakan file yang menyimpan data wilayah. Data ini akan terhubung ke file shp yang merupakan
file yang menyimpan data spatial.
Penyesuaian dilakukan pada file .dbf, yaitu
dengan menyamakan penamaan suatu
wilayah, tujuannya yaitu agar ketika
dilakukan query, data yang terambil sesuai antara output dari aplikasi OLAP dengan data yang ada pada file .dbf.
Clustering
Tahapan ini merupakan tahapan di mana dilakukan pengambilan data dari hasil operasi OLAP sehingga data menjadi sesuatu yang lebih bermanfaat dan bermakna. Algoritme yang dipakai untuk modul ini adalah Algoritme K-Means. Data hotspot hasil
operasi OLAP pada data warehouse
persebaran hotspot dilakukan clustering.
Sebagai contoh, ketika ingin melihat
persebaran titik panas pada tahun X di wilayah Y. Data yang diambil adalah data pada tahun X di wilayah Y. Pertama dilakukan operasi OLAP untuk memilih salah satu wilayah tertentu (drill-down sampai level yang diinginkan). Dari wilayah ini ditentukan dimensi tahun (drill-down) tertentu. Setelah
didapat crosstab dengan dimensi yang
menampilkan tahun dan wilayah (sesuai
dengan level hirarki yang diinginkan,
misalnya: provinsi atau kabupaten), yang dilakukan selanjutnya adalah operasi slice dan
dice pada tahun sehingga didapatkan data persebaran titik panas dalam tahun tertentu pada suatu cakupan wilayah tertentu (provinsi /kabupaten). Atribut yang digunakan untuk tahap clustering yaitu atribut jumlah titik panas.
Setelah diperoleh data titik persebaran titik panas pada cakupan wilayah tertentu dan tahun tertentu yang dilakukan selanjutnya adalah clustering. Jumlah kelas yang dipilih adalah sejumlah 4 yakni kecil, sedang, besar, dan sangat besar. Tingkatan kelas ini didasarkan pada jumlah titik panas yang ada pada wilayah tertentu dan tahun tertentu.
Langkah-langkah clustering mengunakan
Algoritme K-means adalah sebagai berikut: 1. Menentukan initial partition dengan k
cluster berisi samples yang dipilih secara acak, hitung centroid dari tiap-tiap
cluster.
2. Membangkitkan partisi baru dengan
assigning setiap sample terhadap pusat
cluster terdekat.
3. Menghitung pusat-pusat cluster baru
sebagai centroids dari cluster.
4. Mengulangi langkah 2 dan 3 sampai nilai optimum dari fungsi kriteria dipenuhi (atau sampai cluster membership stabil).
5 yang menunjukkan cluster, untuk setiap
objek/ kasus yang menjadi anggotanya
Evaluasi Cluster
Pada tahap ini dilakukan evaluasi terhadap cluster yang dihasilkan. Evaluasi
cluster dilakukan dengan menggunakan Sum of Square Error (SSE) dari kombinasi random seed.
Visualisasi Clustering
Pada tahap ini akan dibangun modul visualisasi. Modul ini menampilkan dari hasil
clustering dalam bentuk peta. Peta dibangun menggunakan MapServer sebagai web-server
dan Chameleon sebagai framework. Peta
menunjukkan pengelompokan wilayah hotspot
berdasarkan kelasnya yaitu tinggi, sedang dan rendah. Rancangan tampilan peta dapat dilihat pada Gambar 1 yang diadopsi dari penelitian sebelumnya (Harianja 2008). LEGEND MAP MEANS INFORMATION KEYMAP NAVIGATION TOOLS SCALEBAR
Gambar 1 Desain layout
Integrasi OLAP dan SIG
Pada tahap ini akan dilakukan
pengintegrasian dari aplikasi OLAP yang sebelumnya telah dikembangkan (Hayardisi 2008) dengan aplikasi visualisasi GIS yang telah dikembangkan oleh Harianja 2008.
Tahap pengintegrasian yaitu dengan
menambahkan modul yang merupakan link
dari aplikasi OLAP yang telah di modifikasi ke aplikasi SIG yang telah dimodifikasi.
Untuk memperjelas langkah-langkah pada metode penelitian, bisa dilihat pada arsitektur sistem yang disajikan pada Gambar 2 dan disajikan pula tahapan penelitian untuk memperjelas alur penelitian. Dalam penelitian ini dilakukan pada aplikasi tambahan ini adalah pengembangan modul visualisasi yang di dalamnya mencakup modul clustering. Pada modul ini akan ditambahkah menu untuk memilih tahun, modul untuk clustering ini sendiri terpisah dari aplikasi OLAP, clustering
dilakukan di luar sistem kemudian data hasil
clustering digunakan untuk keperluan
visualisasi. Untuk tahapan penelitian disajikan pula pada Gambar 3.
Laptop
Grafik Analisa
Line Plot Crosstab Workstation Presentasi
OLAP tool Lapis atas: Web browser GIS Apache PHP web server Lapis tengah: Web server OLAP server Palo API Palo Excel Add-In Data Warehouse XLS DBF DBF DBF Data Pre-processing Lapis bawah: Data Warehouse DBMS MsSQL Server Data Sumber ADOdb JpGraph Visualis asi Clusteirng Palo OLAP server
Gambar 2Arsitektur sistem.
Operasi Olap Sumber Data Data Persebara n Hotspot K-Means Clustering Cluster terbaik= dengan random seed n akurasi random seed n > akurasi random seed (n+1) Ya Tidak Jumlah Cluster Cluster terbaik= dengan random seed (n+1) Cluster terbaik untuk visualisasi Visualisasi Peta Persebaran Hotspot
Gambar 3 Tahapan penelitian.
Lingkungan Pengembangan.
Beberapa perangkat lunak dan perangkat keras yang digunakan untuk mengembangkan sistem adalah sebagai berikut:
6 Perangkat lunak:
Sistem operasi: Windows XP Home Edition,
WEKA versi 3.5.7, ArcView GIS 3.3,
Map Server For Windows (ms4w) 2.3.1 Chameleon 2.4.1
Perangkat keras:
Prosessor intel Pentium 4 ~2GHz Memory 2 GB RAM
Monitor dengan resolusi 1024×768 Mouse dan keyboard