METODE PENELITIAN - Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT menggunakan algor

Pada penelitian ini akan dilakukan

pengembangan aplikasi OLAP untuk

persebaran data hotspot dengan tambahan modul visualisasi. Tahap-tahap yang akan dilakukan untuk mengembangkan aplikasi OLAP untuk hotspot adalah sebagai berikut:

Praproses Data

Pada tahap praproses dilakukan pemilihan data dan pengambilan data, transformasi data dan pembersihan data. Pada tahapan data cleaning, dilakukan pembersihan database

untuk menghilangkan atau mengurangi

kesalahan-kesalahan pada database. Pada aplikasi OLAP yang sebelumnya, telah tersedia database untuk wilayah-wilayah persebaran hotspot. Tahap data cleaning yang dilakukan yaitu dengan penyesuaian nama

wilayah dari database OLAP dengan

penamaan pada file .dbf. File dbf merupakan file yang menyimpan data wilayah. Data ini akan terhubung ke file shp yang merupakan

file yang menyimpan data spatial.

Penyesuaian dilakukan pada file .dbf, yaitu

dengan menyamakan penamaan suatu

wilayah, tujuannya yaitu agar ketika

dilakukan query, data yang terambil sesuai antara output dari aplikasi OLAP dengan data yang ada pada file .dbf.

Clustering

Tahapan ini merupakan tahapan di mana dilakukan pengambilan data dari hasil operasi OLAP sehingga data menjadi sesuatu yang lebih bermanfaat dan bermakna. Algoritme yang dipakai untuk modul ini adalah Algoritme K-Means. Data hotspot hasil

operasi OLAP pada data warehouse

persebaran hotspot dilakukan clustering.

Sebagai contoh, ketika ingin melihat

persebaran titik panas pada tahun X di wilayah Y. Data yang diambil adalah data pada tahun X di wilayah Y. Pertama dilakukan operasi OLAP untuk memilih salah satu wilayah tertentu (drill-down sampai level yang diinginkan). Dari wilayah ini ditentukan dimensi tahun (drill-down) tertentu. Setelah

didapat crosstab dengan dimensi yang

menampilkan tahun dan wilayah (sesuai

dengan level hirarki yang diinginkan,

misalnya: provinsi atau kabupaten), yang dilakukan selanjutnya adalah operasi slice dan

dice pada tahun sehingga didapatkan data persebaran titik panas dalam tahun tertentu pada suatu cakupan wilayah tertentu (provinsi /kabupaten). Atribut yang digunakan untuk tahap clustering yaitu atribut jumlah titik panas.

Setelah diperoleh data titik persebaran titik panas pada cakupan wilayah tertentu dan tahun tertentu yang dilakukan selanjutnya adalah clustering. Jumlah kelas yang dipilih adalah sejumlah 4 yakni kecil, sedang, besar, dan sangat besar. Tingkatan kelas ini didasarkan pada jumlah titik panas yang ada pada wilayah tertentu dan tahun tertentu.

Langkah-langkah clustering mengunakan

Algoritme K-means adalah sebagai berikut: 1. Menentukan initial partition dengan k

cluster berisi samples yang dipilih secara acak, hitung centroid dari tiap-tiap

cluster.

2. Membangkitkan partisi baru dengan

assigning setiap sample terhadap pusat

cluster terdekat.

3. Menghitung pusat-pusat cluster baru

sebagai centroids dari cluster.

4. Mengulangi langkah 2 dan 3 sampai nilai optimum dari fungsi kriteria dipenuhi (atau sampai cluster membership stabil).

Mendefinisikan analisis persamaan

melalui dimensi-dimensi data beserta perhitungannya

Menyimpulkan dataset, agregasi dan desagregasi dari beberapa dimensi. Mengevaluasi dan menampilkan dari hasil analisis.

Operasi OLAP secara umum adalah sebagai berikut (Han & Kamber 2006):

Roll-up: operasi ini dilakukan pada kubus pusat dengan menaikkan tingkatan satu hierarki (pada saat dilakukan operasi ini jumlah dimensi akan berkurang).

Misalnya dari kubus kecamatan

dinaikkan menjadi kubus kabupaten.

Drill-down: operasi ini merepresentasi-kan kubus secara lebih detail (kebalimerepresentasi-kan dari operasi roll-up).

Slice dan dice: operasi ini melakukan pemilihan satu dimensi dari kubus sehingga dihasilkan subcube. Operasi

dice mendefinisikan subcube dari pemilihan dua dimensi atau lebih.

Pivot (rotate): operasi ini merupakan visualisasi data secara berbeda (dengan memutar koordinat) sehingga didapat presentasi data dalam bentuk lain.

METODE PENELITIAN

Pada penelitian ini akan dilakukan

pengembangan aplikasi OLAP untuk

persebaran data hotspot dengan tambahan modul visualisasi. Tahap-tahap yang akan dilakukan untuk mengembangkan aplikasi OLAP untuk hotspot adalah sebagai berikut:

Praproses Data

Pada tahap praproses dilakukan pemilihan data dan pengambilan data, transformasi data dan pembersihan data. Pada tahapan data cleaning, dilakukan pembersihan database

untuk menghilangkan atau mengurangi

wilayah dari database OLAP dengan

penamaan pada file .dbf. File dbf merupakan file yang menyimpan data wilayah. Data ini akan terhubung ke file shp yang merupakan

file yang menyimpan data spatial.

Penyesuaian dilakukan pada file .dbf, yaitu

dengan menyamakan penamaan suatu

wilayah, tujuannya yaitu agar ketika

dilakukan query, data yang terambil sesuai antara output dari aplikasi OLAP dengan data yang ada pada file .dbf.

Clustering

operasi OLAP pada data warehouse

persebaran hotspot dilakukan clustering.

Sebagai contoh, ketika ingin melihat

didapat crosstab dengan dimensi yang

menampilkan tahun dan wilayah (sesuai

dengan level hirarki yang diinginkan,

misalnya: provinsi atau kabupaten), yang dilakukan selanjutnya adalah operasi slice dan

Langkah-langkah clustering mengunakan

Algoritme K-means adalah sebagai berikut: 1. Menentukan initial partition dengan k

cluster berisi samples yang dipilih secara acak, hitung centroid dari tiap-tiap

cluster.

2. Membangkitkan partisi baru dengan

assigning setiap sample terhadap pusat

cluster terdekat.

3. Menghitung pusat-pusat cluster baru

sebagai centroids dari cluster.

4. Mengulangi langkah 2 dan 3 sampai nilai optimum dari fungsi kriteria dipenuhi (atau sampai cluster membership stabil).

5 yang menunjukkan cluster, untuk setiap

objek/ kasus yang menjadi anggotanya

Evaluasi Cluster

Pada tahap ini dilakukan evaluasi terhadap cluster yang dihasilkan. Evaluasi

cluster dilakukan dengan menggunakan Sum of Square Error (SSE) dari kombinasi random seed.

Visualisasi Clustering

Pada tahap ini akan dibangun modul visualisasi. Modul ini menampilkan dari hasil

clustering dalam bentuk peta. Peta dibangun menggunakan MapServer sebagai web-server

dan Chameleon sebagai framework. Peta

menunjukkan pengelompokan wilayah hotspot

berdasarkan kelasnya yaitu tinggi, sedang dan rendah. Rancangan tampilan peta dapat dilihat pada Gambar 1 yang diadopsi dari penelitian sebelumnya (Harianja 2008). LEGEND MAP MEANS INFORMATION KEYMAP NAVIGATION TOOLS SCALEBAR

Gambar 1 Desain layout

Integrasi OLAP dan SIG

Pada tahap ini akan dilakukan

pengintegrasian dari aplikasi OLAP yang sebelumnya telah dikembangkan (Hayardisi 2008) dengan aplikasi visualisasi GIS yang telah dikembangkan oleh Harianja 2008.

Tahap pengintegrasian yaitu dengan

menambahkan modul yang merupakan link

dari aplikasi OLAP yang telah di modifikasi ke aplikasi SIG yang telah dimodifikasi.

Untuk memperjelas langkah-langkah pada metode penelitian, bisa dilihat pada arsitektur sistem yang disajikan pada Gambar 2 dan disajikan pula tahapan penelitian untuk memperjelas alur penelitian. Dalam penelitian ini dilakukan pada aplikasi tambahan ini adalah pengembangan modul visualisasi yang di dalamnya mencakup modul clustering. Pada modul ini akan ditambahkah menu untuk memilih tahun, modul untuk clustering ini sendiri terpisah dari aplikasi OLAP, clustering

dilakukan di luar sistem kemudian data hasil

clustering digunakan untuk keperluan

visualisasi. Untuk tahapan penelitian disajikan pula pada Gambar 3.

Laptop

Grafik Analisa

Line Plot Crosstab Workstation _Presentasi

OLAP tool Lapis atas: Web browser GIS Apache PHP web server Lapis tengah: Web server OLAP server Palo API Palo Excel Add-In Data Warehouse XLS DBF DBF DBF Data Pre-processing Lapis bawah: Data Warehouse DBMS MsSQL Server Data Sumber ADOdb JpGraph Visualis asi Clusteirng Palo OLAP server

Gambar 2Arsitektur sistem.

Operasi Olap Sumber Data Data Persebara n Hotspot K-Means Clustering Cluster terbaik= dengan random seed n akurasi random seed n > akurasi random seed (n+1) Ya ^Tidak Jumlah Cluster Cluster terbaik= dengan random seed (n+1) Cluster terbaik untuk visualisasi Visualisasi Peta Persebaran Hotspot

Gambar 3 Tahapan penelitian.

Lingkungan Pengembangan.

Beberapa perangkat lunak dan perangkat keras yang digunakan untuk mengembangkan sistem adalah sebagai berikut:

6 Perangkat lunak:

Sistem operasi: Windows XP Home Edition,

WEKA versi 3.5.7, ArcView GIS 3.3,

Map Server For Windows (ms4w) 2.3.1 Chameleon 2.4.1

Perangkat keras:

Prosessor intel Pentium 4 ~2GHz Memory 2 GB RAM

Monitor dengan resolusi 1024×768 Mouse dan keyboard

Dalam dokumen Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT menggunakan algoritme K-means (Halaman 36-39)