Clustering
Pengertian umum dari clustering adalah proses pengelompokan objek-objek fisik maupun abstrak ke dalam kelas-kelas tertentu di mana objek dalam tiap kelas (cluster) memiliki kemiripan dan tiap kelas memiliki perbedaan yang membedakan dari objek dalam kelas lain (Han & Kamber 2006). Kemiripan dari objek dinilai berdasar nilai atribut dan deskripsi objek
AlgoritmeK-Means
K-means adalah algoritme clustering
yang bersifat partitional yaitu membagi data menjadi sub himpunan data (cluster ) yang tidak overlap, sehingga tiap objek data hanya memiliki tepat satu kelas. Dalam partitional-clustering yang paling sering digunakan adalah clustering berdasarkan criteria square error yang tujuannya adalah untuk memperoleh partisi dengan jumlah cluster
tetap tetapi dengan total square error yang kecil.
Sebagai contoh misalkan terdapat
himpunan N data yang dipartisi dalam k cluster {C1,C2,...,Ck}, tiap Ck mempunyai nk
1
PENDAHULUAN
Latar Belakang
Pada tahun 90-an di Indonesia banyak terjadi kebakaran hutan. Apabila hal ini tidak mendapat penanganan atau perhatian khusus tentu akan berdampak buruk. Salah satu penanganan yang bisa dilakukan adalah dengan melakukan pencegahan. Pencegahan
yang bisa dilakukan adalah dengan
mengetahui persebaran titik-titik panas (hotspot). Pada penelitian sebelumnya yang dilakukan oleh Hayardisi (2008) data titik-titik panas telah diolah dengan membangun data warehouse dan aplikasi OLAP mengenai persebaran hotspot yang disajikan dalam
bentuk crosstab dan grafik. Untuk
memudahkan pengguna dalam mendapatkan kelompok sebaran jumlah hotspot di setiap wilayah di Indonesia, diperlukan visualisasi hasil clustering dari data tersebut dalam bentuk peta. Visualisasi dalam bentuk peta dirasa perlu karena ketika informasi yang di tampilkan hanya dalam bentuk keterangan lokasi tanpa ada visualisasi langsung dimana lokasi itu berada, pengguna akan mengalami kesulitan karena harus mengerjakan dua tugas, yaitu melihat lokasi persebaran titik panas, kemudian melihat lagi dalam peta dimana lokasi tersebut sebenarnya berada. Pada visualisasi dalam bentuk peta, pengguna akan
langsung mengetahui lokasi geografis
persebaran titik panas, sehingga ketika seorang pengguna yang kurang familiar
mengenai informasi lokasi-lokasi di
Indonesia, dia tetap bisa mengetahui lokasi pasti persebaran titik panas.
Jumlah hotspot di Indonesia perlu di visualisasikan karena jika persebaran hotspot
diketahui, pencegahan kebakaran hutan di Indonesia dapat diatasi lebih dini. Visualisasi dalam bentuk peta juga akan mempermudah
pihak yang berwenang untuk segera
melakukan langkah pencegahan kebakaran hutan. Hasil clustering divisualisasikan dalam bentuk peta yang menggambarkan persebaran titik panas supaya pihak yang berwenang lebih mudah untuk menentukan daerah mana dulu yang menjadi prioritas untuk segera dilakukan pencegahan kebakaran hutan.
Tujuan
Tujuan dari penelitian ini adalah:
Membangun sistem informasi geografis untuk mengelola hasil operasi OLAP (
On-line Analytical Processing) untuk data warehouse persebaran Hotspot
Memvisualisasikan hasil clustering dalam bentuk peta dalam sistem informasi geografis berbasis web untuk memudahkan pengguna melihat lokasi persebaran titik panas secara langsung.
Ruang Lingkup
Clustering dilakukan untuk data persebaran hotspot sampai dengan tingkat Kabupaten dari tahun 2000 sampai dengan 2004 menggunakan metode K-means.
Manfaat
Aplikasi yang dibuat dalam penelitian ini diharapkan dapat melengkapi hasil visualisasi pada OLAP untuk persebaran hotspot yang telah dibangun dalam penelitian sebelumnya (Hayardisi 2008). Informasi yang dihasilkan dapat digunakan oleh pihak-pihak yang membutuhkan informasi mengenai persebaran
hotspot untuk keperluan pencegahan kebakaran hutan.
TINJAUAN PUSTAKA
Clustering
Pengertian umum dari clustering adalah proses pengelompokan objek-objek fisik maupun abstrak ke dalam kelas-kelas tertentu di mana objek dalam tiap kelas (cluster) memiliki kemiripan dan tiap kelas memiliki perbedaan yang membedakan dari objek dalam kelas lain (Han & Kamber 2006). Kemiripan dari objek dinilai berdasar nilai atribut dan deskripsi objek
AlgoritmeK-Means
K-means adalah algoritme clustering
yang bersifat partitional yaitu membagi data menjadi sub himpunan data (cluster ) yang tidak overlap, sehingga tiap objek data hanya memiliki tepat satu kelas. Dalam partitional-clustering yang paling sering digunakan adalah clustering berdasarkan criteria square error yang tujuannya adalah untuk memperoleh partisi dengan jumlah cluster
tetap tetapi dengan total square error yang kecil.
Sebagai contoh misalkan terdapat
himpunan N data yang dipartisi dalam k cluster {C1,C2,...,Ck}, tiap Ck mempunyai nk
2
sehingga n N
k , di mana k=1,..,K. Mean vector Mk dari cluster Ck didefinisikan sebagai centroid dari cluster (Kantardzic 2003) atau: k k n i ik k x n M 1 ) / 1 ( ,
dengan
x
ik adalah sample ke-i padacluster Ck. Square error untuk cluster Ck
adalah jumlah kuadrat jarak Euclidean antara tiap sample dalam Ck dan centroidnya.Error
ini juga disebut within-cluster variation.
k n i k ik k x M e 1 2 2 ) ( .
Square Error untuk seluruh cluster yang terdiri dari k clusters adalah jumlah dari
within-cluster variations. K k k k e E 1 2 2 ,
Langkah-langkah dalam algoritme K-Means (Kantardzic 2003):
1. Menentukan initial partition dengan k cluster yang berisi sample yang dipilih secara acak, kemudian dihitung centroid
dari tiap-tiap cluster.
2. Membangkitkan partisi baru dengan
penugasan tiap sample terhadap pusat
cluster terdekat.
3. Menghitung pusat cluster baru sebagai
centroid dari cluster.
4. Mengulangi langkah 2 dan 3 sampai nilai optimum dari fungsi kriteria dipenuhi (atau sampai anggota cluster stabil) Karakteristik algoritme K-Means (Katardzic 2003) sebagai berikut:
Kompleksitasnya O(nkl) dangan n adalah jumlah objek data, k adalah jumlah cluster
dan l adalah banyaknya iterasi. Pada
umumnya k dan l tetap sehingga
kompleksitas algoritme ini linear terhadap ukuran data.
Bisa digunakan untuk menyimpan data dalam memori utama dengan waktu akses elemen yang cepat dan efisien.
Sangat sensitif pada noise dan outline
karena mempengaruhi nilai mean.
Evaluasi Cluster
Kemampuan untuk mendeteksi ada
tidaknya struktur tidak acak pada data. Hal ini merupakan salah satu aspek penting dalam validasi cluster. Aspek lain yang juga
merupakan aspek penting dalam validasi
cluster (Tan et al.2006) yaitu:
Menentukan clusteringtendency dari data. Menentukan jumlah cluster yang tepat. Mengevaluasi seberapa baik hasil analisis
cluster tanpa diberikan informasi eksternal.
Membandingkan hasil analisis cluster
terhadap hasil eksternal yang diketahui.
Membandingkan dua himpunan cluster
untuk menentukan cluster terbaik.
Ukuran–ukuran evaluasi dapat
digolongkan menjadi 3 jenis (Tan et al. 2006) antara lain:
Unsupervised: mengukur goodness dari
struktur clustering tanpa informasi
eksternal, salah satu contohnya adalah SSE
Supervised: mengukur kecocokan stuktur
clustering dengan struktur eksternal.
Relative: membandingkan clustering yang berbeda. Besaran evaluasi cluster relatif
merupakan teknik supervised atau
unsupervised yang digunakan.
Sistem Informasi Geografis (SIG)
Sistem informasi geografis adalah suatu sistem berbasis komputer yang memiliki kemampuan untuk menangkap, menyimpan, mengkueri, menganalisis dan menyajikan data
geospatial (Chang 2008). Data geospatial
adalah data yang menjelaskan lokasi dan karakteristik dari fitur sapsial seperti jalan, bidang tanah, permekaan tanah, serta vegetasi (Chang 2008).
Secara umum komponen SIG dapat dibagi menjadi beberapa komponen utama (Chang 2008) yaitu:
Sistem komputer yang mencakup
perangkat keras dan sistem operasi yang berkaitan dengan GIS.
Perangkat lunak GIS yang mencakup program dan antarmuka pengguna untuk menjalankan perangkat keras. Tampilan untuk user yang biasanya ada dalam GIS adalah: menu area, ikon grafik, dan
command line.
Manusia yang mengacu pada ahli GIS dan pengguna yang memerlukan GIS Data yang terdiri dari banyak input yang digunakan sistem untuk menghasilkan informasi.
Infrastruktur yang mengacu pada
organisasi, administratif, dan lingkungan yang paling sesuai untuk mendukung operasi GIS.
3
Bentuk dan Stuktur Data pada SIG
Data SIG dalam kerangka kerjanya dapat dibagi menjadi dua kategori (Chang 2008) yaitu:
Data spatial merupakan data yang
menjelaskan lokasi dari fitur spatial yang merupakan bentukan dari fitur-fitur spatial
seperti titik, garis dan bidang yang akan membentuk koordinat (data vektor), atau bisa juga diartikan sebagai data yang cara
penggunaan untuk merepresentasikan
variasi spatial nya menggunakan grid
(data raster). Data ini bisa berupa diskret (direpresentasikan dengan data vektor) atau kontinu (direpresentasikan dengan data raster).
Data atribut yang merupakan
pendeksripsian karakteristik fitur-fitur
spatial.
Operasi dalam SIG
Secara umum operasi dalam SIG dapat digolongkan ke dalam enam kelompok (Chang 2008) yaitu:
Input data spatial yang merupakan pemasukan data dan pengubahandata. Manajemen data atribut yang merupakan
pemasukan dan verifikasi selama
digitalisasi dan pengeditan. Tabel atribut dalam database harus didesain untuk memfasilitasi pemasukan, pencarian, temu kembali, manipulasi data dan hasil keluaran.
Menampilkan data dalam bentuk peta, Tabel dan grafik dari hasil query dan analisis data.
Eksplorasi data yang merupakan query dan analisis yang berpusat pada data untuk melihat trend data, subset data dan hubungan antar data.
Analisis data. Pada data vektor analisis dilakukan dengan: buffering, overlay, distance measure, dan manipulasi peta. Pada analisis raster, akan berkaitan dengan
local neighborhood, zonal dan global
Pemodelan SIG yang merupakan
penunjukan dari penggunaan SIG dalam pembuatan model analisis.
Hotspot (titik panas)
Data hotspot merupakan salah satu indikator kemungkinan terjadinya kebakaran hutan pada wilayah tertentu. Pemantauan
hotspot dilakukan dengan pengindraan jauh
(remote sensing) menggunakan satelit (Hayardisi 2008).
Satelit yang biasa digunakan adalah
satelit NOAA (national Ocean and
Atmospheric Administration) melalui sensor
AVHRR (Advanced Very High Resolution
Radiometer) karena sensor tersebut dapat membedakan suhu permukaan di darat dan laut. Satelit ini mendeteksi objek di permukaan bumi yang memiliki suhu relatif lebih tinggi dibandingkan sekitarnya. Suhu yang dideteksi berkisar antara 210 K (37°C) untuk malam hari dan 315 K (42°C) untuk saing hari.
Penginderaan satelit tersebut tentunya
akan membantu penanganan masalah
kebakaran hutan, karena jika posisi lokasi
hotspot telah diketahui maka bisa dilakukan penanganan lebih dini untuk mencegah terjadinya kebakaran hutan.
Data Warehouse
Data warehouse adalah sistem data yang mengelola operasi secara terpisah dari
database. Sistem ini menyediakan layanan pengintegrasian dengan aplikasi lain. Data warehouse juga menyediakan arsitektur yang bisa digunakan sebagai alat analisis (Han & Kamber 2006).
Karakteristik yang membedakan data
warehouse dengan sistem penyimpanan lain adalah (Han & Kamber 2006).
Berorientasi subjek: disusun berdasar pada subjek utama. Data yang tidak
berguna dihapus pada pengambilan
keputusan.
Terintegrasi: biasanya dibangun dengan mengintegrasikan berbagai sumber yang
berbeda. Teknik pembersihan dan
integrasi data dilakukan untuk
memastikan kekonsistenan data.
Time-variant: data disimpan untuk
menyediakan informasi berdasarkan
perspektif waktu.
Non-volatile:data warehouse secara fisik terpisah dari database operasional
Aplikasi OLAP (On-line Analytical Processing)
OLAP merupakan teknologi database
yang menyediakan sebuah penampilan
multidimensional dari sebuah data dan alat yang cocok untuk menganalisisnya. Fungsi OLAP bagi pengguna antara lain (Cabbibo & Torlone 1997):
4
Mendefinisikan analisis persamaan
melalui dimensi-dimensi data beserta perhitungannya
Menyimpulkan dataset, agregasi dan desagregasi dari beberapa dimensi. Mengevaluasi dan menampilkan dari hasil analisis.
Operasi OLAP secara umum adalah sebagai berikut (Han & Kamber 2006):
Roll-up: operasi ini dilakukan pada kubus pusat dengan menaikkan tingkatan satu hierarki (pada saat dilakukan operasi ini jumlah dimensi akan berkurang).
Misalnya dari kubus kecamatan
dinaikkan menjadi kubus kabupaten.
Drill-down: operasi ini merepresentasi-kan kubus secara lebih detail (kebalimerepresentasi-kan dari operasi roll-up).
Slice dan dice: operasi ini melakukan pemilihan satu dimensi dari kubus sehingga dihasilkan subcube. Operasi
dice mendefinisikan subcube dari pemilihan dua dimensi atau lebih.
Pivot (rotate): operasi ini merupakan visualisasi data secara berbeda (dengan memutar koordinat) sehingga didapat presentasi data dalam bentuk lain.