Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT menggunakan algoritme K-means

(1)

CLUSTERING HASIL OPERASI OLAP UNTUK DATA

WAREHOUSE HOTSPOT MENGGUNAKAN ALGORITME

K-MEANS

TSAMRUL FUAD

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

CLUSTERING HASIL OPERASI OLAP UNTUK DATA

WAREHOUSE HOTSPOT MENGGUNAKAN ALGORITME

K-MEANS

TSAMRUL FUAD

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

ABSTRACT

TSAMRUL FUAD. Clustering of OLAP operation result for hospot datawarehouse using k-means algorithm. Under the direction of ANNISA.

(4)

Judul :Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT menggunakan algoritme K-means

Nama : Tsamrul Fuad

NIM : G64052541

Menyetujui:

Pembimbing,

Annisa, S.Kom., M.Kom. NIP 197907312005012

Mengetahui,

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor

Dr. Drh. Hasim, DEA NIP 196103281986011002

(5)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan hidayah-Nya sehingga tugas akhir dengan judul Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT

menggunakan algoritme K-means dapat diselesaikan. Penelitian ini dilaksanakan mulai Maret 2009 sampai dengan Juli 2009, bertempat di Departemen Ilmu Komputer.

Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain:

1 Kepada Ibu Imas Sukesih Sitanggang, S.Si, M.Kom. selaku pembimbing pertama saya yang telah banyak memberi arahan selama penulis menjalankan penelitian

2 Kepada Ibu Annisa, S.Kom., M.Kom. selaku pembimbing yang telah banyak memberi arahan selama penulis menjalankan penelitian

3 Kepada seluruh keluarga atas doa, dukungan, dan kasih sayangnya.

4 Kepada teman seperjuangan satu bimbingan yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan semangat.

5 Kepada sahabat-sahabat saya atas semangat dan dukungannya.

6 Kepada Muthia Aziza yang telah membantu dan memberi semangat dalam pengerjaan tugas akhir ini.

7 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.

Semoga karya ilmiah ini bermanfaat.

Bogor, Agustus 2009

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Blora pada tanggal 26 Agustus 1987 dari ayah Sudirman dan Ibu Ni’amah. Penulis merupakan anak kedua dari dua bersaudara.

(7)

iv

DAFTAR ISI

Halaman

DAFTAR TABEL ... v

DAFTAR GAMBAR ... v

DAFTAR LAMPIRAN ... v

PENDAHULUAN Latar Belakang... 1

Tujuan ... 1

Ruang Lingkup ... 1

Manfaat ... 1

TINJAUAN PUSTAKA Clustering ... 1

AlgoritmeK-Means ... 1

Evaluasi Cluster ... 2

Sistem Informasi Geografis (SIG) ... 2

Bentuk dan Stuktur Data pada SIG ... 3

Operasi dalam SIG ... 3

Hotspot (titik panas) ... 3

Data Warehouse ... 3

Aplikasi OLAP (On-line Analytical Processing) ... 3

METODE PENELITIAN Praproses Data ... 4

Clustering ... 4

Evaluasi Cluster ... 5

Visualisasi Clustering ... 5

Integrasi OLAP dan SIG ... 5

Lingkungan pengembangan. ... 5

HASIL DAN PEMBAHASAN Praproses Data ... 6

Clustering ... 6

Evaluasi Cluster ... 7

Visualisasi Clustering ... 8

IntegrasiOLAP dan SIG ... 8

Presentasi Persebaran Hotspot Hasil Clustering ... 11

KESIMPULAN DAN SARAN Kesimpulan... 12

Saran ... 12

DAFTAR PUSTAKA ... 13

(8)

v

DAFTAR TABEL

Halaman

1 Pusat cluster untuk k=4 dan s= 15... 7

2 Persentase dan jumlah anggota cluster untuk k=4 dan s=15 ... 7

3 Total SSE dengan k=4 dan dengan kombinasi random seed ... 7

4 Jumlah iterasi dengan k=4 ... 8

DAFTAR GAMBAR Halaman 1 Desain layout ... 5

2 Arsitektur sistem ... 5

3 Tahapan penelitian ... 5

4 Halaman web aplikasi clustering ... 8

5 Tampilan utama aplikasi OLAP... 9

6 Visualisasi grafik hasil operasi OLAP. ... 10

7 Modul filter visualisasi GIS. ... 10

8 Visualisasi GIS hasil clustering. ... 11

DAFTAR LAMPIRAN Halaman 1 Pusat cluster untuk k=4 dan s=15... 15

2 Jumlah anggota cluster untuk k=4 dan s=15. ... 16

3 Contoh visualisasi clustering untuk wilayah kabupaten dan periode waktu bulan... 17

4 Contoh visualisasi clustering untuk wilayah provinsi dan periode waktu bulan. ... 17

5 Contoh visualisasi clustering untuk wilayah pulau dan periode waktu bulan. ... 18

6 Contoh visualisasi clustering untuk wilayah kabupaten dan periode waktu quarter. ... 18

7 Contoh visualisasi clustering untuk wilayah provinsi dan periode waktu quarter ... 19

8 Contoh visualisasi clustering untuk wilayah pulau dan periode waktu quarter. ... 19

9 Contoh visualisasi clustering untuk wilayah kabupaten dan periode waktu tahun... 20

10 Contoh visualisasi clustering untuk wilayah provinsi dan periode waktu tahun. ... 20

(9)

(10)

1

PENDAHULUAN

Latar Belakang

Pada tahun 90-an di Indonesia banyak terjadi kebakaran hutan. Apabila hal ini tidak mendapat penanganan atau perhatian khusus tentu akan berdampak buruk. Salah satu penanganan yang bisa dilakukan adalah dengan melakukan pencegahan. Pencegahan

yang bisa dilakukan adalah dengan

mengetahui persebaran titik-titik panas (hotspot). Pada penelitian sebelumnya yang dilakukan oleh Hayardisi (2008) data titik-titik panas telah diolah dengan membangun data warehouse dan aplikasi OLAP mengenai persebaran hotspot yang disajikan dalam

bentuk crosstab dan grafik. Untuk

memudahkan pengguna dalam mendapatkan kelompok sebaran jumlah hotspot di setiap wilayah di Indonesia, diperlukan visualisasi hasil clustering dari data tersebut dalam bentuk peta. Visualisasi dalam bentuk peta dirasa perlu karena ketika informasi yang di tampilkan hanya dalam bentuk keterangan lokasi tanpa ada visualisasi langsung dimana lokasi itu berada, pengguna akan mengalami kesulitan karena harus mengerjakan dua tugas, yaitu melihat lokasi persebaran titik panas, kemudian melihat lagi dalam peta dimana lokasi tersebut sebenarnya berada. Pada visualisasi dalam bentuk peta, pengguna akan

langsung mengetahui lokasi geografis

persebaran titik panas, sehingga ketika seorang pengguna yang kurang familiar

mengenai informasi lokasi-lokasi di

Indonesia, dia tetap bisa mengetahui lokasi pasti persebaran titik panas.

Jumlah hotspot di Indonesia perlu di visualisasikan karena jika persebaran hotspot

diketahui, pencegahan kebakaran hutan di Indonesia dapat diatasi lebih dini. Visualisasi dalam bentuk peta juga akan mempermudah

pihak yang berwenang untuk segera

melakukan langkah pencegahan kebakaran hutan. Hasil clustering divisualisasikan dalam bentuk peta yang menggambarkan persebaran titik panas supaya pihak yang berwenang lebih mudah untuk menentukan daerah mana dulu yang menjadi prioritas untuk segera dilakukan pencegahan kebakaran hutan.

Tujuan

Tujuan dari penelitian ini adalah:

Membangun sistem informasi geografis untuk mengelola hasil operasi OLAP (

On-line Analytical Processing) untuk data warehouse persebaran Hotspot

Memvisualisasikan hasil clustering dalam bentuk peta dalam sistem informasi geografis berbasis web untuk memudahkan pengguna melihat lokasi persebaran titik panas secara langsung.

Ruang Lingkup

Clustering dilakukan untuk data persebaran hotspot sampai dengan tingkat Kabupaten dari tahun 2000 sampai dengan 2004 menggunakan metode K-means.

Manfaat

Aplikasi yang dibuat dalam penelitian ini diharapkan dapat melengkapi hasil visualisasi pada OLAP untuk persebaran hotspot yang telah dibangun dalam penelitian sebelumnya (Hayardisi 2008). Informasi yang dihasilkan dapat digunakan oleh pihak-pihak yang membutuhkan informasi mengenai persebaran

hotspot untuk keperluan pencegahan kebakaran hutan.

TINJAUAN PUSTAKA

Clustering

Pengertian umum dari clustering adalah proses pengelompokan objek-objek fisik maupun abstrak ke dalam kelas-kelas tertentu di mana objek dalam tiap kelas (cluster) memiliki kemiripan dan tiap kelas memiliki perbedaan yang membedakan dari objek dalam kelas lain (Han & Kamber 2006). Kemiripan dari objek dinilai berdasar nilai atribut dan deskripsi objek

AlgoritmeK-Means

K-means adalah algoritme clustering

yang bersifat partitional yaitu membagi data menjadi sub himpunan data (cluster ) yang tidak overlap, sehingga tiap objek data hanya memiliki tepat satu kelas. Dalam partitional-clustering yang paling sering digunakan adalah clustering berdasarkan criteria square error yang tujuannya adalah untuk memperoleh partisi dengan jumlah cluster

tetap tetapi dengan total square error yang kecil.

Sebagai contoh misalkan terdapat

himpunan N data yang dipartisi dalam k cluster {C₁,C₂,...,C_k}, tiap C_k mempunyai n_k

(11)

2

sehingga _n _N

k , di mana k=1,..,K. Mean vector M_k dari cluster Ck didefinisikan

sebagai centroid dari cluster (Kantardzic 2003) atau:

adalah jumlah kuadrat jarak Euclidean antara tiap sample dalam C_k dan centroidnya.Error

ini juga disebut within-cluster variation.

k

Langkah-langkah dalam algoritme K-Means (Kantardzic 2003):

1. Menentukan initial partition dengan k cluster yang berisi sample yang dipilih secara acak, kemudian dihitung centroid

dari tiap-tiap cluster.

2. Membangkitkan partisi baru dengan

penugasan tiap sample terhadap pusat

cluster terdekat.

3. Menghitung pusat cluster baru sebagai

centroid dari cluster.

4. Mengulangi langkah 2 dan 3 sampai nilai optimum dari fungsi kriteria dipenuhi (atau sampai anggota cluster stabil)

Karakteristik algoritme K-Means (Katardzic 2003) sebagai berikut:

Kompleksitasnya O(nkl) dangan n adalah jumlah objek data, k adalah jumlah cluster

dan l adalah banyaknya iterasi. Pada

umumnya k dan l tetap sehingga

kompleksitas algoritme ini linear terhadap ukuran data.

Bisa digunakan untuk menyimpan data dalam memori utama dengan waktu akses elemen yang cepat dan efisien.

Sangat sensitif pada noise dan outline

karena mempengaruhi nilai mean.

Evaluasi Cluster

Kemampuan untuk mendeteksi ada

tidaknya struktur tidak acak pada data. Hal ini merupakan salah satu aspek penting dalam validasi cluster. Aspek lain yang juga

merupakan aspek penting dalam validasi

cluster (Tan et al.2006) yaitu:

Menentukan clusteringtendency dari data. Menentukan jumlah cluster yang tepat. Mengevaluasi seberapa baik hasil analisis

cluster tanpa diberikan informasi eksternal.

Membandingkan hasil analisis cluster

terhadap hasil eksternal yang diketahui.

Membandingkan dua himpunan cluster

untuk menentukan cluster terbaik.

Ukuran–ukuran evaluasi dapat

digolongkan menjadi 3 jenis (Tan et al. 2006) antara lain:

Unsupervised: mengukur goodness dari

struktur clustering tanpa informasi

eksternal, salah satu contohnya adalah SSE

Supervised: mengukur kecocokan stuktur

clustering dengan struktur eksternal.

Relative: membandingkan clustering yang berbeda. Besaran evaluasi cluster relatif

merupakan teknik supervised atau

unsupervised yang digunakan.

Sistem Informasi Geografis (SIG)

Sistem informasi geografis adalah suatu sistem berbasis komputer yang memiliki kemampuan untuk menangkap, menyimpan, mengkueri, menganalisis dan menyajikan data

geospatial (Chang 2008). Data geospatial

adalah data yang menjelaskan lokasi dan karakteristik dari fitur sapsial seperti jalan, bidang tanah, permekaan tanah, serta vegetasi (Chang 2008).

Secara umum komponen SIG dapat dibagi menjadi beberapa komponen utama (Chang 2008) yaitu:

Sistem komputer yang mencakup

perangkat keras dan sistem operasi yang berkaitan dengan GIS.

Perangkat lunak GIS yang mencakup program dan antarmuka pengguna untuk menjalankan perangkat keras. Tampilan untuk user yang biasanya ada dalam GIS adalah: menu area, ikon grafik, dan

command line.

Manusia yang mengacu pada ahli GIS dan pengguna yang memerlukan GIS Data yang terdiri dari banyak input yang digunakan sistem untuk menghasilkan informasi.

Infrastruktur yang mengacu pada

(12)

3

Bentuk dan Stuktur Data pada SIG

Data SIG dalam kerangka kerjanya dapat dibagi menjadi dua kategori (Chang 2008) yaitu:

Data spatial merupakan data yang

menjelaskan lokasi dari fitur spatial yang merupakan bentukan dari fitur-fitur spatial

seperti titik, garis dan bidang yang akan membentuk koordinat (data vektor), atau bisa juga diartikan sebagai data yang cara

penggunaan untuk merepresentasikan

variasi spatial nya menggunakan grid

(data raster). Data ini bisa berupa diskret (direpresentasikan dengan data vektor) atau kontinu (direpresentasikan dengan data raster).

Data atribut yang merupakan

pendeksripsian karakteristik fitur-fitur

spatial.

Operasi dalam SIG

Secara umum operasi dalam SIG dapat digolongkan ke dalam enam kelompok (Chang 2008) yaitu:

Input data spatial yang merupakan pemasukan data dan pengubahandata. Manajemen data atribut yang merupakan

pemasukan dan verifikasi selama

digitalisasi dan pengeditan. Tabel atribut dalam database harus didesain untuk memfasilitasi pemasukan, pencarian, temu kembali, manipulasi data dan hasil keluaran.

Menampilkan data dalam bentuk peta, Tabel dan grafik dari hasil query dan analisis data.

Eksplorasi data yang merupakan query dan analisis yang berpusat pada data untuk melihat trend data, subset data dan hubungan antar data.

Analisis data. Pada data vektor analisis dilakukan dengan: buffering, overlay, distance measure, dan manipulasi peta. Pada analisis raster, akan berkaitan dengan

local neighborhood, zonal dan global

Pemodelan SIG yang merupakan

penunjukan dari penggunaan SIG dalam pembuatan model analisis.

Hotspot (titik panas)

Data hotspot merupakan salah satu indikator kemungkinan terjadinya kebakaran hutan pada wilayah tertentu. Pemantauan

hotspot dilakukan dengan pengindraan jauh

(remote sensing) menggunakan satelit (Hayardisi 2008).

Satelit yang biasa digunakan adalah

satelit NOAA (national Ocean and

Atmospheric Administration) melalui sensor

AVHRR (Advanced Very High Resolution

Radiometer) karena sensor tersebut dapat membedakan suhu permukaan di darat dan laut. Satelit ini mendeteksi objek di permukaan bumi yang memiliki suhu relatif lebih tinggi dibandingkan sekitarnya. Suhu yang dideteksi berkisar antara 210 K (37°C) untuk malam hari dan 315 K (42°C) untuk saing hari.

Penginderaan satelit tersebut tentunya

akan membantu penanganan masalah

kebakaran hutan, karena jika posisi lokasi

hotspot telah diketahui maka bisa dilakukan penanganan lebih dini untuk mencegah terjadinya kebakaran hutan.

Data Warehouse

Data warehouse adalah sistem data yang mengelola operasi secara terpisah dari

database. Sistem ini menyediakan layanan pengintegrasian dengan aplikasi lain. Data warehouse juga menyediakan arsitektur yang bisa digunakan sebagai alat analisis (Han & Kamber 2006).

Karakteristik yang membedakan data

warehouse dengan sistem penyimpanan lain adalah (Han & Kamber 2006).

Berorientasi subjek: disusun berdasar pada subjek utama. Data yang tidak

berguna dihapus pada pengambilan

keputusan.

Terintegrasi: biasanya dibangun dengan mengintegrasikan berbagai sumber yang

berbeda. Teknik pembersihan dan

integrasi data dilakukan untuk

memastikan kekonsistenan data.

Time-variant: data disimpan untuk

menyediakan informasi berdasarkan

perspektif waktu.

Non-volatile:data warehouse secara fisik terpisah dari database operasional

Aplikasi OLAP (On-line Analytical Processing)

OLAP merupakan teknologi database

yang menyediakan sebuah penampilan

(13)

4

Mendefinisikan analisis persamaan

melalui dimensi-dimensi data beserta perhitungannya

Menyimpulkan dataset, agregasi dan desagregasi dari beberapa dimensi. Mengevaluasi dan menampilkan dari hasil analisis.

Operasi OLAP secara umum adalah sebagai berikut (Han & Kamber 2006):

Roll-up: operasi ini dilakukan pada kubus pusat dengan menaikkan tingkatan satu hierarki (pada saat dilakukan operasi ini jumlah dimensi akan berkurang).

Misalnya dari kubus kecamatan

dinaikkan menjadi kubus kabupaten.

Drill-down: operasi ini merepresentasi-kan kubus secara lebih detail (kebalimerepresentasi-kan dari operasi roll-up).

Slice dan dice: operasi ini melakukan pemilihan satu dimensi dari kubus sehingga dihasilkan subcube. Operasi

dice mendefinisikan subcube dari pemilihan dua dimensi atau lebih.

Pivot (rotate): operasi ini merupakan visualisasi data secara berbeda (dengan memutar koordinat) sehingga didapat presentasi data dalam bentuk lain.

METODE PENELITIAN

Pada penelitian ini akan dilakukan

pengembangan aplikasi OLAP untuk

persebaran data hotspot dengan tambahan modul visualisasi. Tahap-tahap yang akan dilakukan untuk mengembangkan aplikasi OLAP untuk hotspot adalah sebagai berikut:

Praproses Data

Pada tahap praproses dilakukan pemilihan data dan pengambilan data, transformasi data dan pembersihan data. Pada tahapan data cleaning, dilakukan pembersihan database

untuk menghilangkan atau mengurangi

kesalahan-kesalahan pada database. Pada aplikasi OLAP yang sebelumnya, telah tersedia database untuk wilayah-wilayah persebaran hotspot. Tahap data cleaning yang dilakukan yaitu dengan penyesuaian nama

wilayah dari database OLAP dengan

penamaan pada file .dbf. File dbf merupakan file yang menyimpan data wilayah. Data ini akan terhubung ke file shp yang merupakan

file yang menyimpan data spatial.

Penyesuaian dilakukan pada file .dbf, yaitu

dengan menyamakan penamaan suatu

wilayah, tujuannya yaitu agar ketika

dilakukan query, data yang terambil sesuai antara output dari aplikasi OLAP dengan data yang ada pada file .dbf.

Clustering

Tahapan ini merupakan tahapan di mana dilakukan pengambilan data dari hasil operasi OLAP sehingga data menjadi sesuatu yang lebih bermanfaat dan bermakna. Algoritme yang dipakai untuk modul ini adalah Algoritme K-Means. Data hotspot hasil

operasi OLAP pada data warehouse

persebaran hotspot dilakukan clustering.

Sebagai contoh, ketika ingin melihat

persebaran titik panas pada tahun X di wilayah Y. Data yang diambil adalah data pada tahun X di wilayah Y. Pertama dilakukan operasi OLAP untuk memilih salah satu wilayah tertentu (drill-down sampai level yang diinginkan). Dari wilayah ini ditentukan dimensi tahun (drill-down) tertentu. Setelah

didapat crosstab dengan dimensi yang

menampilkan tahun dan wilayah (sesuai

dengan level hirarki yang diinginkan,

misalnya: provinsi atau kabupaten), yang dilakukan selanjutnya adalah operasi slice dan

dice pada tahun sehingga didapatkan data persebaran titik panas dalam tahun tertentu pada suatu cakupan wilayah tertentu (provinsi /kabupaten). Atribut yang digunakan untuk tahap clustering yaitu atribut jumlah titik panas.

Setelah diperoleh data titik persebaran titik panas pada cakupan wilayah tertentu dan tahun tertentu yang dilakukan selanjutnya adalah clustering. Jumlah kelas yang dipilih adalah sejumlah 4 yakni kecil, sedang, besar, dan sangat besar. Tingkatan kelas ini didasarkan pada jumlah titik panas yang ada pada wilayah tertentu dan tahun tertentu.

Langkah-langkah clustering mengunakan

Algoritme K-means adalah sebagai berikut:

1. Menentukan initial partition dengan k cluster berisi samples yang dipilih secara acak, hitung centroid dari tiap-tiap

cluster.

assigning setiap sample terhadap pusat

cluster terdekat.

3. Menghitung pusat-pusat cluster baru

sebagai centroids dari cluster.

4. Mengulangi langkah 2 dan 3 sampai nilai optimum dari fungsi kriteria dipenuhi (atau sampai cluster membership stabil).

(14)

5 yang menunjukkan cluster, untuk setiap

objek/ kasus yang menjadi anggotanya

Pada tahap ini dilakukan evaluasi terhadap cluster yang dihasilkan. Evaluasi

cluster dilakukan dengan menggunakan Sum of Square Error (SSE) dari kombinasi random seed.

Visualisasi Clustering

Pada tahap ini akan dibangun modul visualisasi. Modul ini menampilkan dari hasil

clustering dalam bentuk peta. Peta dibangun menggunakan MapServer sebagai web-server

dan Chameleon sebagai framework. Peta

menunjukkan pengelompokan wilayah hotspot

berdasarkan kelasnya yaitu tinggi, sedang dan rendah. Rancangan tampilan peta dapat dilihat pada Gambar 1 yang diadopsi dari penelitian

Gambar 1 Desain layout

Integrasi OLAP dan SIG

Pada tahap ini akan dilakukan

pengintegrasian dari aplikasi OLAP yang sebelumnya telah dikembangkan (Hayardisi 2008) dengan aplikasi visualisasi GIS yang telah dikembangkan oleh Harianja 2008.

Tahap pengintegrasian yaitu dengan

menambahkan modul yang merupakan link

dari aplikasi OLAP yang telah di modifikasi ke aplikasi SIG yang telah dimodifikasi.

Untuk memperjelas langkah-langkah pada metode penelitian, bisa dilihat pada arsitektur sistem yang disajikan pada Gambar 2 dan disajikan pula tahapan penelitian untuk memperjelas alur penelitian. Dalam penelitian ini dilakukan pada aplikasi tambahan ini adalah pengembangan modul visualisasi yang di dalamnya mencakup modul clustering. Pada modul ini akan ditambahkah menu untuk memilih tahun, modul untuk clustering ini sendiri terpisah dari aplikasi OLAP, clustering

dilakukan di luar sistem kemudian data hasil

clustering digunakan untuk keperluan

visualisasi. Untuk tahapan penelitian disajikan pula pada Gambar 3.

Laptop

Gambar 2Arsitektur sistem.

Operasi

Gambar 3 Tahapan penelitian.

Lingkungan Pengembangan.

(15)

6 Perangkat lunak:

Sistem operasi: Windows XP Home Edition,

WEKA versi 3.5.7, ArcView GIS 3.3,

Map Server For Windows (ms4w) 2.3.1 Chameleon 2.4.1

Perangkat keras:

Prosessor intel Pentium 4 ~2GHz Memory 2 GB RAM

Monitor dengan resolusi 1024×768 Mouse dan keyboard

HASIL DAN PEMBAHASAN

Praproses Data

Data awal penelitian ini diperoleh dari hasil operasi OLAP. Data ini merupakan data titik panas untuk wilayah Indonesia pada tingkat pulau, provinsi dan kabupaten dalam tahun, quarter dan bulan periode 2000 hingga 2004. Tahap pengambilan data yaitu dengan menggunakan modul php sederhana. Data yang didapat dari operasi OLAP disimpan dalam format txt dengan ukuran 349kb. Data ini mempunyai 15895 record dan mempunyai dua atribut yaitu nama wilayah (pulau/

provinsi/ kabupaten) [spasi] waktu

(tahun/quarter/bulan) dan jumlah titik panas. Atribut yang digunakan pada tahap clustering

yaitu atribut jumlah titik panas karena atribut ini merupakan atribut numerik, karena

clutering hanya bisa dilakukan pada atribut

numerik. Atribut ini nantinya akan

dikelompokan kedalam 9 kelompok yang kemudian akan diolah untuk keperluan

clustering dengan menggunakan WEKA. Tahapan praproses yang dilakukan antara lain:

Pengelompokan data. Data yang didapat

dalam file txt tadi dikelompokan

berdasarkan jangkauan wilayah dan

waktunya. Pengelompokan dilakukan

dengan algoritme php sederhana. Hasil dari pemisahan ini menghasilkan 9 file txt. Masing-masing file mempunyai tingkatan berbeda. Hasil dari pemisahan ini yaitu:

o _{Tingkat Pulau dalam Tahun}

o _{Tingkat Pulau dalam}_Quarter

o _{Tingkat Pulau dalam Bulan}

o _{Tingkat Provinsi dalam Tahun}

o _{Tingkat Provinsi dalam}_Quarter

o _{Tingkat Provinsi dalam Bulan}

o _{Tingkat Kabupaten dalam Tahun}

o _{Tingkat Kabupaten dalam}_Quarter

o _{Tingkat Kabupaten dalam Bulan.}

Pembersihan data dilakukan pada file dbf, yaitu penghilangan atribut-atribut yang tidak dipergunakan dan penyesuaian nama-nama wilayah pada file dbf agar sama dengan nama wilayah pada hasil operasi OLAP.

Transformasi data. Data hasil

pengelompokan diubah menjadi format

ARFF agar dapat diproses dalam

perangkat lunak WEKA. Atribut yang dipergunakan dalam clustering adalah atribut jumlah titik panas yang bertipe numerik karena algoritme K-means bekerja secara baik pada data dengan tipe numerik, sedangkan atribut keterangan wilayah dan waktu merupakan data yang bertipe kategorik dan hanya dipergunakan sebagai keterangan.

Clustering

Tahap clustering dilakukan menggunakan

algoritme K-Means yang dilakukan

menggunakan WEKA versi 3.5.7. Data yang di-cluster-kan yaitu data jumlah titik panas. Percobaan dilakukan untuk ukuran cluster

sebanyak 4 cluster dan dilakukan percobaan dengan random seed (s) 5, 10, 15, 20.

Percobaan dilakukan pada sembilan

kombinasi clustering, sembilan kombinasi tersebut mewakili tingkatan cakupan wilayah dan tingkatan cakupan waktu. Clustering

dilakukan sebanyak jumlah kombinasi data berdasarkan cakupan wilayah dan waktu. Total percobaan clustering adalah 9 × 4 = 36

percobaan. Clustering tidak dilakukan

berdasarkan tiap hasil operasi OLAP karena jika dilakukan clustering untuk tiap hasil operasi OLAP. Sebagai contoh, misalnya data pada tahun 2000 untuk wilayah A dilakukan

clustering yang berbeda dengan data tahun 2001 untuk wilayah A, data hasil clustering

kurang sesuai karena tidak ada patokan untuk

cluster satu dan cluster lainnya, misal nilai besar untuk tahun 2000 termasuk kecil pada tahun 2001, padahal jika di lihat dari datanya, tahun 2000 memiliki jumlah titik panas yang lebih sedikit dari tahun 2001, namun karena data pembanding berbeda hasil dari clustering

akan berbeda, sehingga diperlukan standar untuk semua clustering agar terdapat patokan nilai titik panas untuk suatu wilayah tergolong

(16)

7 memantau perubahan titik panas dari waktu ke

waktu.

Hasil dari algoritme K-means adalah pusat cluster (means) untuk masing-masing

cluster sesuai dengan ukuran clusternya. Pemilihan jumlah 4 cluster disesuaikan

dengan banyaknya kelas yang di

representasikan yaitu low, medium, high, dan

very high. Pusat cluster yang dihasilkan dari

clustering dengan k=4 dan random seeds=5 pada data tingkat provinsi dengan periode waktu bulan dapat dilihat pada Tabel 1. Pusat

cluster untuk kombinasi lain dapat dilihat

Persentase dan jumlah anggota masing-masing cluster untuk ukuran cluter k=4 dan

s=5 pada tingkat provinsi dan periode waktu bulan disajikan dalam Tabel 2. Persentase dan

jumlah anggota masing-masing cluster

disajikan pada Lampiran 2.

Tabel 2 Persentase dan jumlah anggota cluster

untuk k=4 dan s=5 dan s (random seed) dievaluasi menggunakan total SSE (Sum of square error). Total SSE

sudah mencukupi untuk evaluasi cluter

menggunakan K-means karena meminimalkan SSE (cohesion) ekuivalen dengan memaksimalkan SSB (separation), (Tan P 2006).

Pada nilai k yang sama dengan perbedaan nilai s, hasil clustering tidak menunjukkan perbedaan yang berarti. Pada Tabel 3 dapat dilihat bahwa nilai SSE rata-rata terbaik didapat pada saat penggunaan random seed

5.Perbedaan iterasi juga tidak terlalu berubah untuk nilai k yang sama. Hal ini dapat dilihat pada Tabel 4 yakni iterasi pada k=4.

Karena nilai K-means menghitung error

dengan mengambil jarak titik tengah dari nilai tiap anggota. Jadi ketika jumlah anggota sama dengan jumlah cluster, tiap cluster akan memiliki anggota yang nilainya sama dengan nilai titik tengah nya sehingga tidak ada nilai

error.

Semua clustering menggunakan jumlah

cluster 4 sehingga didapat standar yang sama sebagai patokan untuk semua clustering. Pembagian cluster menjadi 4 cluster terdiri dari cluster 0 yang merupakan clustering

dengan jumlah titik panas kecil, cluster 1 yang merupakan clustering dengan jumlah titik panas sedang, cluster 2 yang merupakan

clustering dengan jumlah titik panas besar,

cluster 3 yang merupakan clustering dengan jumlah titik panas sangat besar.

Tabel 3 Total SSE dengan k=4 dengan kombinasi random seed

S=5 S=10 S=15 S=20

(17)

8

Hasil clustering dari data persebaran titik panas divisualisasikan agar mempermudah analisis. Untuk keperluan tersebut maka dibuatlah aplikasi dalam bentuk sistem informasi geografis (SIG) berbasis web.

Aplikasi yang dikembangkan ini

menggunakan metode dan modul-modul yang

sebelumnya telah dikembangkan oleh

Harianja (2008). Aplikasi ini memplotkan

hasil clustering dengan melibatkan aspek

spatialya dan menampilkan nilai titik tengah tiap cluster dan detail nilai atributnya

Aplikasi visualisasi ini diintegrasikan pada aplikasi OLAP yang sebelumnya telah

dikembangkan oleh Hayardisi (2008).

Aplikasi ini dikembangkan menggunakan Mapserver sebagai web servernya, map file

sebagai konfigurasi, Chameleon sebagai

framework, modul php dan html file sebagai

template. Pada penelitian ini modul-modul dan file-file yang dipakai tersebut sebelumnya dibuat dengan modul php, namun pengaturan dan formatnya sama dengan modul dan file-file yang telah dikembangkan oleh Harianja (2008), namun karena modul visualisasi yang akan dikembangkan ingin bersifat dinamis maka beberapa file-file yang dipakai dibuat pada saat dibutuhkan.

Map file menyimpan konfigurasi dari aplikasi yang dibutuhkan oleh Mapserver. Konfigurasi ini meliputi informasi mengenai ukuran peta, warna peta, path dari file shp dan dbf, huruf yang digunakan, dan lain-lain. File html digunakan untuk menyimpan template

yang dipergunakan. Template ini berisi komponen-komponen yang akan dipakai untuk keperluan visualisasi. Komponen-komponen tersebut telah disediakan oleh

Chameleon. Komponen yang dipergunakan

antara lain mapDHTML, KeyMap, ZoomIn,

ZoomOut, PanMap, Recenter, ZoomAllLayers, Extent, Query. Modul php adalah modul untuk melihat detail data setiap ukuran cluster.

Penambahan pengaturan yang dilakukan

yaitu pada map file. Pada map file

ditambahkan class untuk menutup daerah yang tidak ingin divisualisasikan.

Data yang dipakai untuk keperluan visualisasi disimpan dalam file .dbf. Data ini berisi hasil operasi OLAP yang telah di -cluster-kan. Hasil dari data yang diolah ini adalah peta yang memplotkan suatu daerah dalam wilayah dan periode tertentu, serta label

cluster-nya. Proses pemasukan nilai cluster

pada file dbf dilakukan dengan menggunakan

spreadsheet.

Pada halaman visualisasi diplotkan

dengan warna yang berbeda untuk tiap cluster. Komponen lain yang terdapat pada halaman visualisasi antara lain legend. Komponen

legend memberi keterangan tentang warna untuk tiap cluster. Dalam halaman ini juga terdapat komponen scalebar, dan navigation tools yang terdiri dari zoom in, zoom out, recenter, pan, map unit, left extent (batas kiri),

right extent(batas kanan), top extent (batas atas), dan bottom extent (batas bawah) dari

map . Mouse x dan mouse y menyatakan letak pointer pada map. Semua komponen ini juga telah tersedia pada aplikasi yang sebelumnya (Harianja, 2008) untuk lebih jelasnya tampilan aplikasi yang telah dikembangkan (Harianja 2008) dapat dilihat pada Gambar 4.

Gambar 4 halaman web aplikasi clustering

IntegrasiOLAP dan SIG

(18)

9 index.php yaitu dengan menambahkan modul

untuk pemilihan waktu dan wilayah.

Pada modul pemilihan tahun dan wilayah, data kombinasi yang dipilih yaitu data dari semua periode waktu. Pemilihan waktu bisa dilakukan pada tingkat tahun, quarter, dan bulan. Setelah memilih tahun, kombinasi yang bisa dipilih adalah kombinasi wilayah. Batasan pemilihan wilayah yaitu dari tingkat pulau sampai pada tingkat kabupaten saja.

Modul yang dibuat selanjutnya adalah

modul untuk membuat file-file yang

diperlukan oleh aplikasi visual clustering. File tersebut adalah file dalam bentuk file map dan file phtml. Setelah diperoleh data yang ingin ditampilkan, file-file tersebut ditulis, file-file tersebut kemudian dimuat ke dalam modul visualisasi untuk keperluan visualisasi.

Pada pengintegrasian antara aplikasi OLAP dan SIG sebelumnya harus dilakukan pengaturan terlebih dahulu, yang meliputi penentuan file-file yang dibutuhkan (extension

untuk library php nya) yang perlu

ditambahkan dan dibutuhkan serta framework.

Modul visualisasi dan modul OLAP merupakan dua modul yang terpisah. Modul visualisasi mengolah data di luar aplikasi OLAP. Data yang diolah merupakan data persebaran titik panas yang telah dilakukan

clustering. Data tersebut disimpan dalam file dbf. Data ini kemudian di-load untuk keperluan visualisasi. Data yang disimpan ini berupa data titik panas dan keterangan

mengenai clusternya. Nilai cluster inilah yang digunakan sebagai pembeda pengelompokan warna antar tiap daerah. Selain nilai cluster, atribut yang diambil yaitu atribut wilayahnya.

Fasilitas-fasilitas yang sebelumnya telah ada pada aplikasi OLAP (Hayardisi 2008) antara lain (dapat dilihat pada Gambar 5):

Pengguna dapat memilih database, kubus data dan dimensi yang akan ditampilkan Visualisasi dalam bentuk crosstab dan grafik yang bisa berupa bar plit dan pie plot (dapat dilihat pada Gambar 6)

Operasi OLAP seperti drill down dan

roll up

Filter dimensi untuk menyeleksi tampilan pada kolom (x-axis) dan baris (y-axis).

Filter pada dimensi waktu meliputi

quarter dan bulan

Fasilitas yang ditambahkan pada aplikasi OLAP (dapat dililhat pada Gambar 7):

Filter dimensi waktu dan wilayah untuk visualisasi.

Clustering data persebaran titik panas dari operasi OLAP dengan batasan bulan dan kabupaten.

Visualisasi dalam bentuk SIG yang

dikembangkan dari aplikasi visual

clustering (Harianja 2008), dapat dilihat pada Gambar 8.

Detail data hasil clustering yang

dikembangkan oleh Harianja (2008).

(19)

10 Gambar 6 Visualisasi grafik hasil operasi OLAP.

(20)

11 Gambar 8 Visualisasi GIS hasil Clustering.

Gambar 8 bagian kiri merupakan legend.

Legend disini berfungsi untuk menampilkan layer-layer yang di load pada peta. Gambar di tengah merupakan visualisasi hasil clustering

berupa peta. Bagian atas tengah merupakan judul atau keterangan mengenai lokasi dan waktu yang divisualisasikan (tampilan utama). Tampilan sebelah kanan merupakan keymap

(peta kecil untuk mempermudah navigasi),

zoom in, zoom out, recenter, pan , dan lain-lain Bagian bawah dari gambar merupakan informasi dari hasil clustering. Pada bagian ini dijelaskan tiap cluster memiliki nilai tengah berapa, standar deviasinya berapa beserta jumlah hotspot/titik panas. Jadi untuk tiap

cluster dapat dilihat berapa jumlah jangkauan titik panasnya.

Presentasi Persebaran Hotspot Hasil

Clustering

Dari aplikasi OLAP diambil 9 kombinasi

clustering pada wilayah Indonesia dari tahun 2000 sampai tahun 2004 dengan tingkat wilayah kabupaten, provinsi dan pulau.

Pada tingkat kabupaten dan bulan, diambil data titik panas untuk semua kabupaten di Indonesia pada bulan Januari 2000 sampai bulan desember 2004. Data ini kemudian di-cluster-kan. Sebagai contoh ketika ingin dilihat clustering untuk kabupaten pada provinsi Kalimantan tengah bulan Januari 2000, pertama-tama dipilih periode tahun 2000 dan bulan Januari, kemudian dipilih kabupaten-kabupaten pada provinsi Kalimantan tengah. Hasil clustering bisa dilihat pada Lampiran 3.

Pada tingkat kabupaten dan quarter, diambil data titik panas untuk semua kabupaten di Indonesia pada quarter pertama 2000 sampai quarter ke empat tahun 2004. Data ini kemudian di-cluster-kan. Sebagai contoh ketika ingin dilihat clustering untuk kabupaten pada Kalimantan tengah pada

quarter pertama tahun 2000, pertama-tama dipilih periode tahun yaitu tahun 2000 dan

quarter 1, kemudian dipilih kabupaten-kabupaten pada provinsi Kalimantan tengah. Hasil clustering bisa dilihat pada Lampiran 4.

(21)

12 sampai tahun 2004. Data ini kemudian

dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk kabupaten pada Kalimantan tengah pada tahun 2000, pertama-tama dipilih periode tahun yaitu tahun 2000, kemudian dipilih kabupaten-kabupaten pada provinsi Kalimantan tengah. Hasil clustering

bisa dilihat pada Lampiran 5.

Pada tingkat provinsi dan bulan, diambil data titik panas untuk semua provinsi di Indonesia pada bulan Januari 2000 sampai bulan desember 2004. Data ini kemudian

dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk provinsi Kalimantan pada bulan Januari 2000, pertama dipilih periode tahun 2000 dan bulan Januari, kemudian dipilih provinsi Kalimantan. Hasil

clustering bisa dilihat pada Lampiran 6.

Pada tingkat provinsi dan quarter, diambil data titik panas untuk semua provinsi di Indonesia pada quarter pertama 2000 sampai quarter ke-empat 2004. Data ini kemudian dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk provinsi Kalimantan pada quarter pertama 2000, pertama-tama dipilih periode tahun 2000 dan quarter 1, kemudian dipilih provinsi Kalimantan. Hasil clustering bisa dilihat pada Lampiran 7.

Pada tingkat provinsi dan tahun, diambil data titik panas untuk semua provinsi di Indonesia pada tahun 2000 sampai tahun 2004. Data ini kemudian dilakukan clustering.

Sebagai contoh ketika ingin dilihat clustering

untuk provinsi Kalimantan pada tahun 2000, pertama-tama dipilih periode tahun 2000, kemudian dipilih provinsi Kalimantan. Hasil

Pada tingkat pulau dan bulan, diambil data titik panas untuk semua pulau di Indonesia pada bulan Januari 2000 sampai bulan desember 2004. Data ini kemudian

dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk pulau di Indonesia bulan Januari 2000, pertama-tama dipilih periode tahun 2000 dan bulan Januari, kemudian dipilih All Indonesia. Hasil

Pada tingkat pulau dan quarter, diambil data titik panas untuk semua pulau di Indonesia pada quarter pertama tahun 2000 sampai quarter ke-empat 2004. Data ini kemudian dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk pulau di Indonesia quarter pertama tahun

2000, pertama dipilih periode tahun 2000 dan

quarter 1, kemudian dipilih All Indonesia. Hasil clustering bisa dilihat pada Lampiran 10.

Pada tingkat pulau dan tahun, diambil data titik panas untuk semua pulau di Indonesia dari tahun 2000 sampai tahun 2004. Data ini kemudian dilakukan clustering.

Sebagai contoh ketika ingin dilihat clustering

untuk pulau di Indonesia tahun 2000, pertama-tama dipilih periode tahun 2000, kemudian dipilih All Indonesia. Hasil clustering bisa dilihat pada Lampiran 11

KESIMPULAN DAN SARAN

Kesimpulan

Proses clustering yang dilakukan pada penelitian ini menggunakan algoritme K-Means data persebaran titik panas dari hasil operasi OLAP. Hasil clustering ini kemudian diplotkan dengan melibatkan aspek spatialnya untuk membantu keperluan visualisasi dalam bentuk Sistem Informasi Geografis (SIG) berbasis web. Clustering dilakukan dengan ukuran cluster 4 dan random seed 5, 10, 15, 20.

Clustering dilakukan dengan ukuran

cluster 4 dan random seed 5 karena pada ukuran ini didapat range dan nilai SSE yang cukup baik. Dari visualisasi terlihat bahwa

clustering jumlah titik panas untuk pulau Kalimantan dan Sumatera sama kecuali pada tahun 2000, di mana pulau Sumatera tergolong dalam cluster 3, sementara pulau Kalimantan pada cluster 1. Untuk pulau Jawa dan Sulawesi juga mempunyai kesamaan

clustering kecuali pada tahun 2004, di mana pulau Sulawesi tergolong cluster 1 sementara pulau jawa tergolong cluster 0. Jumlah titik panas terbesar terdapat pada tahun 2004. Dari penelitian dapat dilihat juga bahwa dari periode tahun 2000 sampai 2004, pulau Jawa tergolong pada cluster 0.

Dari visualisasi bisa diketahui bahwa pulau Sumatera dan Kalimantan memiliki jumlah titik panas yang besar, sehingga dapat dilakukan langkah-langkah pencegahan atau penanganan.

Saran

(22)

13 Pembuatan modul update data untuk

clustering, sehingga ketika data pada aplikasi OLAP di update, secara otomatis data clustering juga ter-update secara otomatis.

Merapikan tampilan dengan

menghilangkan keterangan legend layer pada daerah yang tidak di-cluster-kan. Pembuatan aplikasi dengan framework

yang lain seperti pmapper dan lain-lain, untuk aplikasi ini dikembangkan dengan Chameleon 2.4.1.

Penambahan clustering untuk dimensi

dimensi waktu lain pada aplikasi OLAP. Pada penelitian ini dimensi waktu yang digunakan adalah dimensi untuk monthly hotspot.

Visualisasi dalam bentuk titik-titik panas dan informasi lain seperti lahan hutan, pertanian, dan lain-lain.

DAFTAR PUSTAKA

Cabbibo L, Torlone R. 1997. Querying

Multidimensional Database.

http://citeseer.ist.psu.edu/cache/papers/cs /21194/http:zSzzSzwww.dia.uniroma3.itzS z~cabibbozSzpubzSzpdfzSzdbp197.pdf/ca bibbo97queriying.pdf [9 Januari 2008]

Chang kang-Tsung.2008. Introduction to

Geograpic Information System.New York : McGraw-Hills.

Han J, Kamber M.2006. Data mining:

Concept and techniques Ed ke-2. San Francisco: Morgan kaufman Publisher.

Harianja H. 2008. Visualisasi K-means

Clustering pada Data Potensi Pertanian Desa di Bogor menggunakan Mapserver

[Skripsi]. Bogor. Program Studi Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam.

Hayardisi G. 2008. Pengembangan data

warehouse dan aplikasi OLAP untuk persebaran hotspot di wilayah Indonesia

[Skripsi]. Bogor. Program Studi Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam.

Kantardzic M.2003. Data mining: Concept, model, method, and algoritme.: New York :John Wiley &sons.

Tan P, Mickael S, Vipin K. 2006. Introduction to Data mining. Pearsen education inc.

.

(23)

14

(24)

15 Lampiran 1 Pusat cluster untuk k=4 dan s=5.

Tabel Pusat cluster untuk dengan kombinasi bulan kabupaten

Cluster Pusat cluster Standar deviasi Cluster 0 2.2806 7.7012

Cluster 1 _141.3506 _58.7555

Cluster 2 ₅₃₁ _163.7075

Cluster 3 1389.75 436.4132

Tabel Pusat cluster untuk dengan kombinasi bulan provinsi

Cluster Pusat cluster Standar deviasi

Cluster 0 13.1344 30.7252

Cluster 1 431.0612 148.6634

Cluster 2 ₁₂₄₀ _199.0567

Cluster 3 _3060.6 _1010.6927

Tabel Pusat cluster untuk dengan kombinasi bulan pulau

Cluster 1 _708.2778 _222.9151

Cluster 2 _1888.9231 _466.7391

Cluster 3 4929.2 1448.5476

Tabel Pusat cluster untuk dengan kombinasi

quarter kabupaten

Cluster 0 5.986 14.812

Cluster 1 195.2832 80.5451

Cluster 2 _701.4615 _233.2877

Cluster 3 _2232.4 _965.4873

quarter provinsi

Cluster 1 _517.9032 _188.2148

Cluster 2 1483.8235 291.6141

Cluster 3 4639 2093.7467

quarter pulau

Cluster 1 _1762.875 _430.1974

Cluster 2 _3520.25 _660.1311

Cluster 3 10364.5 4123.1396

Tabel Pusat cluster untuk dengan kombinasi tahun kabupaten

Cluster 0 21.602 36.6377

Cluster 1 336.8767 120.6193

Cluster 2 _968.4118 _327.1338

Cluster 3 _3366.5 _1409.7609

Tabel Pusat cluster untuk dengan kombinasi tahun provinsi

Cluster 1 _681.0588 _265.8393

Cluster 2 ₂₀₉₉ _634.2088

Cluster 3 6114.5 3262.5652

Tabel Pusat cluster untuk dengan kombinasi tahun pulau

Cluster 0 37 81.218

Cluster 1 802.75 516.3696

Cluster 2 _3856.75 _727.1998

(25)

16 Lampiran 2 Jumlah anggota cluster untuk k=4 dan s=5.

Tabel Jumlah anggota cluster untuk dengan kombinasi bulan kabupaten

Tabel Jumlah anggota cluster untuk dengan kombinasi bulan provinsi

Tabel Jumlah anggota cluster untuk dengan kombinasi bulan pulau

Tabel Jumlah anggota cluster untuk dengan kombinasi quarter kabupaten

Cluster Jumlah

Tabel Jumlah anggota cluster untuk dengan kombinasi quarter provinsi

Cluster Jumlah

Tabel Jumlah anggota cluster untuk dengan kombinasi quarter pulau

Cluster Jumlah

Tabel Jumlah anggota cluster untuk dengan kombinasi tahun kabupaten

Tabel Jumlah anggota cluster untuk dengan kombinasi tahun provinsi

(26)

17 Lampiran 3 contoh visualisasi clustering untuk wilayah kabupaten dan periode waktu bulan

(27)

18 Lampiran 5 contoh visualisasi clustering untuk wilayah pulau dan periode waktu bulan

(28)

19 Lampiran 7 contoh visualisasi clustering untuk wilayah provinsi dan periode waktu quarter

(29)

20 Lampiran 9 contoh visualisasi clustering untuk wilayah kabupaten dan periode waktu tahun

(30)

(31)

ABSTRACT

TSAMRUL FUAD. Clustering of OLAP operation result for hospot datawarehouse using k-means algorithm. Under the direction of ANNISA.

(32)

1

PENDAHULUAN

Latar Belakang

Tujuan

Ruang Lingkup

Manfaat

Clustering

(33)

1

PENDAHULUAN

Latar Belakang

Tujuan

Ruang Lingkup

Manfaat

Clustering

(34)

2

sehingga _n _N

k , di mana k=1,..,K. Mean vector M_k dari cluster Ck didefinisikan

sebagai centroid dari cluster (Kantardzic 2003) atau:

adalah jumlah kuadrat jarak Euclidean antara tiap sample dalam C_k dan centroidnya.Error

ini juga disebut within-cluster variation.

k

Langkah-langkah dalam algoritme K-Means (Kantardzic 2003):

1. Menentukan initial partition dengan k cluster yang berisi sample yang dipilih secara acak, kemudian dihitung centroid

dari tiap-tiap cluster.

penugasan tiap sample terhadap pusat

cluster terdekat.

3. Menghitung pusat cluster baru sebagai

centroid dari cluster.

4. Mengulangi langkah 2 dan 3 sampai nilai optimum dari fungsi kriteria dipenuhi (atau sampai anggota cluster stabil)

Karakteristik algoritme K-Means (Katardzic 2003) sebagai berikut:

Kompleksitasnya O(nkl) dangan n adalah jumlah objek data, k adalah jumlah cluster

dan l adalah banyaknya iterasi. Pada

umumnya k dan l tetap sehingga

kompleksitas algoritme ini linear terhadap ukuran data.

Bisa digunakan untuk menyimpan data dalam memori utama dengan waktu akses elemen yang cepat dan efisien.

Sangat sensitif pada noise dan outline

karena mempengaruhi nilai mean.

Kemampuan untuk mendeteksi ada

tidaknya struktur tidak acak pada data. Hal ini merupakan salah satu aspek penting dalam validasi cluster. Aspek lain yang juga

merupakan aspek penting dalam validasi

cluster (Tan et al.2006) yaitu:

Menentukan clusteringtendency dari data. Menentukan jumlah cluster yang tepat. Mengevaluasi seberapa baik hasil analisis

cluster tanpa diberikan informasi eksternal.

Membandingkan hasil analisis cluster

terhadap hasil eksternal yang diketahui.

Membandingkan dua himpunan cluster

untuk menentukan cluster terbaik.

Ukuran–ukuran evaluasi dapat

digolongkan menjadi 3 jenis (Tan et al. 2006) antara lain:

Unsupervised: mengukur goodness dari

struktur clustering tanpa informasi

eksternal, salah satu contohnya adalah SSE

Supervised: mengukur kecocokan stuktur

clustering dengan struktur eksternal.

Relative: membandingkan clustering yang berbeda. Besaran evaluasi cluster relatif

merupakan teknik supervised atau

unsupervised yang digunakan.

Sistem Informasi Geografis (SIG)

Sistem informasi geografis adalah suatu sistem berbasis komputer yang memiliki kemampuan untuk menangkap, menyimpan, mengkueri, menganalisis dan menyajikan data

geospatial (Chang 2008). Data geospatial

adalah data yang menjelaskan lokasi dan karakteristik dari fitur sapsial seperti jalan, bidang tanah, permekaan tanah, serta vegetasi (Chang 2008).

Secara umum komponen SIG dapat dibagi menjadi beberapa komponen utama (Chang 2008) yaitu:

Sistem komputer yang mencakup

perangkat keras dan sistem operasi yang berkaitan dengan GIS.

Perangkat lunak GIS yang mencakup program dan antarmuka pengguna untuk menjalankan perangkat keras. Tampilan untuk user yang biasanya ada dalam GIS adalah: menu area, ikon grafik, dan

command line.

Manusia yang mengacu pada ahli GIS dan pengguna yang memerlukan GIS Data yang terdiri dari banyak input yang digunakan sistem untuk menghasilkan informasi.

Infrastruktur yang mengacu pada

(35)

3

Bentuk dan Stuktur Data pada SIG

Data SIG dalam kerangka kerjanya dapat dibagi menjadi dua kategori (Chang 2008) yaitu:

Data spatial merupakan data yang

menjelaskan lokasi dari fitur spatial yang merupakan bentukan dari fitur-fitur spatial

seperti titik, garis dan bidang yang akan membentuk koordinat (data vektor), atau bisa juga diartikan sebagai data yang cara

penggunaan untuk merepresentasikan

variasi spatial nya menggunakan grid

(data raster). Data ini bisa berupa diskret (direpresentasikan dengan data vektor) atau kontinu (direpresentasikan dengan data raster).

Data atribut yang merupakan

pendeksripsian karakteristik fitur-fitur

spatial.

Operasi dalam SIG

Secara umum operasi dalam SIG dapat digolongkan ke dalam enam kelompok (Chang 2008) yaitu:

Input data spatial yang merupakan pemasukan data dan pengubahandata. Manajemen data atribut yang merupakan

pemasukan dan verifikasi selama

digitalisasi dan pengeditan. Tabel atribut dalam database harus didesain untuk memfasilitasi pemasukan, pencarian, temu kembali, manipulasi data dan hasil keluaran.

Menampilkan data dalam bentuk peta, Tabel dan grafik dari hasil query dan analisis data.

Eksplorasi data yang merupakan query dan analisis yang berpusat pada data untuk melihat trend data, subset data dan hubungan antar data.

Analisis data. Pada data vektor analisis dilakukan dengan: buffering, overlay, distance measure, dan manipulasi peta. Pada analisis raster, akan berkaitan dengan

local neighborhood, zonal dan global

Pemodelan SIG yang merupakan

penunjukan dari penggunaan SIG dalam pembuatan model analisis.

Hotspot (titik panas)

Data hotspot merupakan salah satu indikator kemungkinan terjadinya kebakaran hutan pada wilayah tertentu. Pemantauan

hotspot dilakukan dengan pengindraan jauh

(remote sensing) menggunakan satelit (Hayardisi 2008).

Satelit yang biasa digunakan adalah

satelit NOAA (national Ocean and

Atmospheric Administration) melalui sensor

AVHRR (Advanced Very High Resolution

Radiometer) karena sensor tersebut dapat membedakan suhu permukaan di darat dan laut. Satelit ini mendeteksi objek di permukaan bumi yang memiliki suhu relatif lebih tinggi dibandingkan sekitarnya. Suhu yang dideteksi berkisar antara 210 K (37°C) untuk malam hari dan 315 K (42°C) untuk saing hari.

Penginderaan satelit tersebut tentunya

akan membantu penanganan masalah

kebakaran hutan, karena jika posisi lokasi

hotspot telah diketahui maka bisa dilakukan penanganan lebih dini untuk mencegah terjadinya kebakaran hutan.

Data Warehouse

Data warehouse adalah sistem data yang mengelola operasi secara terpisah dari

database. Sistem ini menyediakan layanan pengintegrasian dengan aplikasi lain. Data warehouse juga menyediakan arsitektur yang bisa digunakan sebagai alat analisis (Han & Kamber 2006).

Karakteristik yang membedakan data

warehouse dengan sistem penyimpanan lain adalah (Han & Kamber 2006).

Berorientasi subjek: disusun berdasar pada subjek utama. Data yang tidak

berguna dihapus pada pengambilan

keputusan.

Terintegrasi: biasanya dibangun dengan mengintegrasikan berbagai sumber yang

berbeda. Teknik pembersihan dan

integrasi data dilakukan untuk

memastikan kekonsistenan data.

Time-variant: data disimpan untuk

menyediakan informasi berdasarkan

perspektif waktu.