TINJAUAN PUSTAKA - Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT menggunakan algori

Clustering

Pengertian umum dari clustering adalah proses pengelompokan objek-objek fisik maupun abstrak ke dalam kelas-kelas tertentu di mana objek dalam tiap kelas (cluster) memiliki kemiripan dan tiap kelas memiliki perbedaan yang membedakan dari objek dalam kelas lain (Han & Kamber 2006). Kemiripan dari objek dinilai berdasar nilai atribut dan deskripsi objek

AlgoritmeK-Means

K-means adalah algoritme clustering

yang bersifat partitional yaitu membagi data menjadi sub himpunan data (cluster ) yang tidak overlap, sehingga tiap objek data hanya memiliki tepat satu kelas. Dalam partitional-clustering yang paling sering digunakan adalah clustering berdasarkan criteria square error yang tujuannya adalah untuk memperoleh partisi dengan jumlah cluster

tetap tetapi dengan total square error yang kecil.

Sebagai contoh misalkan terdapat

himpunan N data yang dipartisi dalam k cluster {C₁,C₂,...,C_k}, tiap C_k mempunyai n_k

PENDAHULUAN

Latar Belakang

Pada tahun 90-an di Indonesia banyak terjadi kebakaran hutan. Apabila hal ini tidak mendapat penanganan atau perhatian khusus tentu akan berdampak buruk. Salah satu penanganan yang bisa dilakukan adalah dengan melakukan pencegahan. Pencegahan

yang bisa dilakukan adalah dengan

mengetahui persebaran titik-titik panas (hotspot). Pada penelitian sebelumnya yang dilakukan oleh Hayardisi (2008) data titik-titik panas telah diolah dengan membangun data warehouse dan aplikasi OLAP mengenai persebaran hotspot yang disajikan dalam

bentuk crosstab dan grafik. Untuk

memudahkan pengguna dalam mendapatkan kelompok sebaran jumlah hotspot di setiap wilayah di Indonesia, diperlukan visualisasi hasil clustering dari data tersebut dalam bentuk peta. Visualisasi dalam bentuk peta dirasa perlu karena ketika informasi yang di tampilkan hanya dalam bentuk keterangan lokasi tanpa ada visualisasi langsung dimana lokasi itu berada, pengguna akan mengalami kesulitan karena harus mengerjakan dua tugas, yaitu melihat lokasi persebaran titik panas, kemudian melihat lagi dalam peta dimana lokasi tersebut sebenarnya berada. Pada visualisasi dalam bentuk peta, pengguna akan

langsung mengetahui lokasi geografis

persebaran titik panas, sehingga ketika seorang pengguna yang kurang familiar

mengenai informasi lokasi-lokasi di

Indonesia, dia tetap bisa mengetahui lokasi pasti persebaran titik panas.

Jumlah hotspot di Indonesia perlu di visualisasikan karena jika persebaran hotspot

diketahui, pencegahan kebakaran hutan di Indonesia dapat diatasi lebih dini. Visualisasi dalam bentuk peta juga akan mempermudah

pihak yang berwenang untuk segera

melakukan langkah pencegahan kebakaran hutan. Hasil clustering divisualisasikan dalam bentuk peta yang menggambarkan persebaran titik panas supaya pihak yang berwenang lebih mudah untuk menentukan daerah mana dulu yang menjadi prioritas untuk segera dilakukan pencegahan kebakaran hutan.

Tujuan

Tujuan dari penelitian ini adalah:

Membangun sistem informasi geografis untuk mengelola hasil operasi OLAP (

On-line Analytical Processing) untuk data warehouse persebaran Hotspot

Memvisualisasikan hasil clustering dalam bentuk peta dalam sistem informasi geografis berbasis web untuk memudahkan pengguna melihat lokasi persebaran titik panas secara langsung.

Ruang Lingkup

Clustering dilakukan untuk data persebaran hotspot sampai dengan tingkat Kabupaten dari tahun 2000 sampai dengan 2004 menggunakan metode K-means.

Manfaat

Aplikasi yang dibuat dalam penelitian ini diharapkan dapat melengkapi hasil visualisasi pada OLAP untuk persebaran hotspot yang telah dibangun dalam penelitian sebelumnya (Hayardisi 2008). Informasi yang dihasilkan dapat digunakan oleh pihak-pihak yang membutuhkan informasi mengenai persebaran

hotspot untuk keperluan pencegahan kebakaran hutan.

TINJAUAN PUSTAKA

Clustering

AlgoritmeK-Means

K-means adalah algoritme clustering

tetap tetapi dengan total square error yang kecil.

Sebagai contoh misalkan terdapat

himpunan N data yang dipartisi dalam k cluster {C₁,C₂,...,C_k}, tiap C_k mempunyai n_k

sehingga _n _N

k , di mana k=1,..,K. Mean vector _M_k dari cluster _C_k didefinisikan sebagai centroid dari cluster (Kantardzic 2003) atau: k k n i ik k x n M 1 ) / 1 ( ,

dengan

x

_ik adalah sample ke-i pada

cluster C_k. Square error untuk cluster C_k

adalah jumlah kuadrat jarak Euclidean antara tiap sample dalam C_k dan centroidnya.Error

ini juga disebut within-cluster variation.

k n i k ik k x M e 1 2 2 ) ( .

Square Error untuk seluruh cluster yang terdiri dari k clusters adalah jumlah dari

within-cluster variations. K k k k e E 1 2 2 ,

Langkah-langkah dalam algoritme K-Means (Kantardzic 2003):

1. Menentukan initial partition dengan k cluster yang berisi sample yang dipilih secara acak, kemudian dihitung centroid

dari tiap-tiap cluster.

2. Membangkitkan partisi baru dengan

penugasan tiap sample terhadap pusat

cluster terdekat.

3. Menghitung pusat cluster baru sebagai

centroid dari cluster.

4. Mengulangi langkah 2 dan 3 sampai nilai optimum dari fungsi kriteria dipenuhi (atau sampai anggota cluster stabil) Karakteristik algoritme K-Means (Katardzic 2003) sebagai berikut:

Kompleksitasnya O(nkl) dangan n adalah jumlah objek data, k adalah jumlah cluster

dan l adalah banyaknya iterasi. Pada

umumnya k dan l tetap sehingga

kompleksitas algoritme ini linear terhadap ukuran data.

Bisa digunakan untuk menyimpan data dalam memori utama dengan waktu akses elemen yang cepat dan efisien.

Sangat sensitif pada noise dan outline

karena mempengaruhi nilai mean.

Evaluasi Cluster

Kemampuan untuk mendeteksi ada

tidaknya struktur tidak acak pada data. Hal ini merupakan salah satu aspek penting dalam validasi cluster. Aspek lain yang juga

merupakan aspek penting dalam validasi

cluster (Tan et al.2006) yaitu:

Menentukan clusteringtendency dari data. Menentukan jumlah cluster yang tepat. Mengevaluasi seberapa baik hasil analisis

cluster tanpa diberikan informasi eksternal.

Membandingkan hasil analisis cluster

terhadap hasil eksternal yang diketahui.

Membandingkan dua himpunan cluster

untuk menentukan cluster terbaik.

Ukuran–ukuran evaluasi dapat

digolongkan menjadi 3 jenis (Tan et al. 2006) antara lain:

Unsupervised: mengukur goodness dari

struktur clustering tanpa informasi

eksternal, salah satu contohnya adalah SSE

Supervised: mengukur kecocokan stuktur

clustering dengan struktur eksternal.

Relative: membandingkan clustering yang berbeda. Besaran evaluasi cluster relatif

merupakan teknik supervised atau

unsupervised yang digunakan.

Sistem Informasi Geografis (SIG)

Sistem informasi geografis adalah suatu sistem berbasis komputer yang memiliki kemampuan untuk menangkap, menyimpan, mengkueri, menganalisis dan menyajikan data

geospatial (Chang 2008). Data geospatial

adalah data yang menjelaskan lokasi dan karakteristik dari fitur sapsial seperti jalan, bidang tanah, permekaan tanah, serta vegetasi (Chang 2008).

Secara umum komponen SIG dapat dibagi menjadi beberapa komponen utama (Chang 2008) yaitu:

Sistem komputer yang mencakup

perangkat keras dan sistem operasi yang berkaitan dengan GIS.

Perangkat lunak GIS yang mencakup program dan antarmuka pengguna untuk menjalankan perangkat keras. Tampilan untuk user yang biasanya ada dalam GIS adalah: menu area, ikon grafik, dan

command line.

Manusia yang mengacu pada ahli GIS dan pengguna yang memerlukan GIS Data yang terdiri dari banyak input yang digunakan sistem untuk menghasilkan informasi.

Infrastruktur yang mengacu pada

organisasi, administratif, dan lingkungan yang paling sesuai untuk mendukung operasi GIS.

Bentuk dan Stuktur Data pada SIG

Data SIG dalam kerangka kerjanya dapat dibagi menjadi dua kategori (Chang 2008) yaitu:

Data spatial merupakan data yang

menjelaskan lokasi dari fitur spatial yang merupakan bentukan dari fitur-fitur spatial

seperti titik, garis dan bidang yang akan membentuk koordinat (data vektor), atau bisa juga diartikan sebagai data yang cara

penggunaan untuk merepresentasikan

variasi spatial nya menggunakan grid

(data raster). Data ini bisa berupa diskret (direpresentasikan dengan data vektor) atau kontinu (direpresentasikan dengan data raster).

Data atribut yang merupakan

pendeksripsian karakteristik fitur-fitur

spatial.

Operasi dalam SIG

Secara umum operasi dalam SIG dapat digolongkan ke dalam enam kelompok (Chang 2008) yaitu:

Input data spatial yang merupakan pemasukan data dan pengubahandata. Manajemen data atribut yang merupakan

pemasukan dan verifikasi selama

digitalisasi dan pengeditan. Tabel atribut dalam database harus didesain untuk memfasilitasi pemasukan, pencarian, temu kembali, manipulasi data dan hasil keluaran.

Menampilkan data dalam bentuk peta, Tabel dan grafik dari hasil query dan analisis data.

Eksplorasi data yang merupakan query dan analisis yang berpusat pada data untuk melihat trend data, subset data dan hubungan antar data.

Analisis data. Pada data vektor analisis dilakukan dengan: buffering, overlay, distance measure, dan manipulasi peta. Pada analisis raster, akan berkaitan dengan

local neighborhood, zonal dan global

Pemodelan SIG yang merupakan

penunjukan dari penggunaan SIG dalam pembuatan model analisis.

Hotspot (titik panas)

Data hotspot merupakan salah satu indikator kemungkinan terjadinya kebakaran hutan pada wilayah tertentu. Pemantauan

hotspot dilakukan dengan pengindraan jauh

(remote sensing) menggunakan satelit (Hayardisi 2008).

Satelit yang biasa digunakan adalah

satelit NOAA (national Ocean and

Atmospheric Administration) melalui sensor

AVHRR (Advanced Very High Resolution

Radiometer) karena sensor tersebut dapat membedakan suhu permukaan di darat dan laut. Satelit ini mendeteksi objek di permukaan bumi yang memiliki suhu relatif lebih tinggi dibandingkan sekitarnya. Suhu yang dideteksi berkisar antara 210 K (37°C) untuk malam hari dan 315 K (42°C) untuk saing hari.

Penginderaan satelit tersebut tentunya

akan membantu penanganan masalah

kebakaran hutan, karena jika posisi lokasi

hotspot telah diketahui maka bisa dilakukan penanganan lebih dini untuk mencegah terjadinya kebakaran hutan.

Data Warehouse

Data warehouse adalah sistem data yang mengelola operasi secara terpisah dari

database. Sistem ini menyediakan layanan pengintegrasian dengan aplikasi lain. Data warehouse juga menyediakan arsitektur yang bisa digunakan sebagai alat analisis (Han & Kamber 2006).

Karakteristik yang membedakan data

warehouse dengan sistem penyimpanan lain adalah (Han & Kamber 2006).

Berorientasi subjek: disusun berdasar pada subjek utama. Data yang tidak

berguna dihapus pada pengambilan

keputusan.

Terintegrasi: biasanya dibangun dengan mengintegrasikan berbagai sumber yang

berbeda. Teknik pembersihan dan

integrasi data dilakukan untuk

memastikan kekonsistenan data.

Time-variant: data disimpan untuk

menyediakan informasi berdasarkan

perspektif waktu.

Non-volatile:data warehouse secara fisik terpisah dari database operasional

Aplikasi OLAP (On-line Analytical Processing)

OLAP merupakan teknologi database

yang menyediakan sebuah penampilan

multidimensional dari sebuah data dan alat yang cocok untuk menganalisisnya. Fungsi OLAP bagi pengguna antara lain (Cabbibo & Torlone 1997):

Mendefinisikan analisis persamaan

melalui dimensi-dimensi data beserta perhitungannya

Menyimpulkan dataset, agregasi dan desagregasi dari beberapa dimensi. Mengevaluasi dan menampilkan dari hasil analisis.

Operasi OLAP secara umum adalah sebagai berikut (Han & Kamber 2006):

Roll-up: operasi ini dilakukan pada kubus pusat dengan menaikkan tingkatan satu hierarki (pada saat dilakukan operasi ini jumlah dimensi akan berkurang).

Misalnya dari kubus kecamatan

dinaikkan menjadi kubus kabupaten.

Drill-down: operasi ini merepresentasi-kan kubus secara lebih detail (kebalimerepresentasi-kan dari operasi roll-up).

Slice dan dice: operasi ini melakukan pemilihan satu dimensi dari kubus sehingga dihasilkan subcube. Operasi

dice mendefinisikan subcube dari pemilihan dua dimensi atau lebih.

Pivot (rotate): operasi ini merupakan visualisasi data secara berbeda (dengan memutar koordinat) sehingga didapat presentasi data dalam bentuk lain.

Dalam dokumen Clustering hasil operasi OLAP untuk datawarehouse HOTSPOT menggunakan algoritme K-means (Halaman 32-36)