Data Mining
Data mining adalah kegiatan penemuan pola-pola yang menarik dari data berukuran besar yang disimpan dalam basis data, data warehouse, atau sarana penyimpanan yang lain. Data mining dapat diklasifikasikan menjadi dua kategori yaitu descriptive data mining dan predictive data mining. Descriptive data mining menjelaskan himpunan data dengan memberikan banyak informasi secara jelas dalam kalimat yang singkat dan memberikan sifat-sifat umum yang menarik dari data. Predictive data mining menganalisis data yang bertujuan untuk membangun sebuah atau himpunan model, dan berusaha untuk meramalkan karakteristik dari himpunan data baru (Han & Kamber 2001).
Menurut (Han & Kamber 2001), fungsionalitas data mining adalah:
1 Deskripsi kelas/ deskripsi konsep dan diskriminasi,
2 Analisis asosiasi, 3 Klasifikasi dan prediksi, 4 Analisis cluster, 5 Analisis pencilan, dan 6 Analisis evolusi.
Hotspot (Titik Panas)
Data hotspot merupakan salah satu indikator kemungkinan terjadinya kebakaran hutan pada wilayah tertentu. Pemantauan hotspot dilakukan dengan penginderaan jauh (remote sensing) menggunakan satelit (Hayardisi 2008).
Satelit yang biasa digunakan adalah satelit National Ocean and Atmospheric Administration (NOAA) melalui sensor Advanced Very High Resolution Radiometer (AVHRR) karena sensor tersebut dapat membedakan suhu permukaan di darat dan laut. Satelit ini mendeteksi objek di permukaan bumi
yang memiliki suhu relatif lebih tinggi dibandingkan sekitarnya. Suhu yang dideteksi berkisar antara 210 K (37°C) untuk malam hari dan 315 K (42°C) untuk siang hari.
Penginderaan satelit tersebut tentunya akan membantu penanganan masalah kebakaran hutan, karena jika posisi lokasi hotspot telah diketahui maka bisa dilakukan penanganan lebih dini untuk mencegah terjadinya kebakaran hutan.
Clustering
Secara umum, clustering merupakan proses pengelompokan kumpulan objek ke dalam kelas-kelas atau clusters sehingga objek-objek dalam satu cluster memiliki kemiripan yang tinggi tetapi tidak mirip terhadap objek dari cluster lain (Han & Kamber 2001). Ukuran kemiripan dan ketidakmiripan dinilai berdasarkan nilai atribut yang mendeskripsikan objek.
Spatiotemporal Data
Data spatiotemporal adalah data spasial yang berubah seiring waktu (Rahim 2006). Jadi, data spatiotemporal adalah data spasial yang memiliki elemen temporal. Sedangkan data spasial adalah data yang memiliki referensi ruang kebumian (georeference) dimana berbagai data atribut terletak dalam berbagai unit spasial (tidak memiliki aspek temporal).
Gambar 1 menjelaskan deskripsi dari data spatiotemporal. Pada Gambar 1 dapat dilihat objek A pada waktu t1. Akibat sesuatu hal objek A tersebut berubah menjadi objek AB dalam waktu t2, kemudian objek AB berubah lagi menjadi objek B di waktu tn. Objek terus berubah tergantung pada situasi dan skenario. Data spatiotemporal adalah serangkaian data spasial yang telah berubah. Perubahan akan terjadi sampai waktu ke n, yaitu akhir dari proses perubahan (Rahim 2006).
Gambar 1 Deskripsi data spatiotemporal (Rahim 2006).
t1 t2 tn
Space
B A AB
Density Based Clustering (DENCLUE)
Ide dasar dari DENCLUE adalah mengelompokan pemodelan seluruh data berdasarkan besarnya kepadatan (density) sebagai penjumlahan fungsi pengaruh (influence function) dari suatu titik. Konsep influence function adalah fungsi yang menjelaskan pengaruh suatu data di dalam ketetanggaannya. Contoh dari influence function yang telah banyak digunakan antara lain :
1 Square wave function
2 Gaussian function
Besarnya fungsi kepadatan dari data dapat dihitung dengan menjumlahkan seluruh influence function tertentu yang dipilih. Tahap clustering selanjutnya dapat ditentukan secara matematik dengan mengidentifikasi nilai lokal maksimum dari kepadatan (density-attractors) (Hinneburg A & Keim D 1998).
Density Based Spatial Clustering (DBSCAN)
DBSCAN memiliki cara kerja clustering yang hampir mirip dengan DENCLUE. Secara signifikan, DBSCAN bekerja dengan efisien dalam membentuk arbitrary-shaped cluster. Pengelompokan dilakukan terhadap titik dengan ketetanggaannya yang berada di dalam jarak (ɛ) tertentu yang harus memenuhi jumlah titik minimum (minPts). Pembentukan ketetanggaan dapat ditentukan melalui pemilihan fungsi jarak antara dua buah titik.
DBSCAN menggunakan konsep titik pusat (core point), titik batas (border point), dan noise. Titik yang memiliki sejumlah titik tetangga dan memenuhi jumlah titik minimum, serta berada dalam jarak tertentu disebut sebagai titik pusat, sedangkan titik batas memiliki jumlah titik tetangga namun tidak memenuhi jumlah titik minimum. Titik batas tersebut biasanya merupakan titik di dalam ketetanggaan dari titik pusat. Kriteria suatu titik dikatakan sebagai noise yaitu pada saat titik tersebut tidak termasuk titik pusat maupun titik batas, selain itu titik tersebut tidak memenuhi konsep directly density-reachable dari suatu titik pusat (Ester et al. 1996).
Beberapa konsep lain yang memiliki peranan penting dalam metode DBSCAN dijelaskan sebagai berikut.
1 Directly density-reachable
Konsep directly density-reachable akan dimisalkan dengan Gambar 2 di bawah berikut.
Gambar 2 Ilustrasi konsep directly density- reachable.
Titik q dikatakan directly density-reachable dari titik p, jika titik q berada di dalam ketetanggaan titik p dengan jarak tertentu (ɛ) dan titik p merupakan titik pusat. Konsep ini berlaku untuk sepasang titik pusat (simetris), namun tidak berlaku antara titik pusat dan titik batas.
2 Density-reachable
Titik p dikatakan density-reachable dari titik q (memenuhi syarat ɛ dan minPts) jika terdapat rantai yang menghubungkan titik p1,
…, pn dengan p1 = q, pn = p dan pi+1 directly density-reachable dari pi. Gambar 3 berikut memberikan ilustrasi mengenai konsep density- reachable.
Gambar 3 Ilustrasi konsep density-reachable. 3 Density-connectivity
Titik p density-connected terhadap titik q
(memenuhi syarat ɛ dan minPts) jika titik p dan q density-reachable dari titik r. Density- connectivity bersifat simetris terhadap suatu objek dengan objek lainnya. Berikut diberikan ilustrasi mengenai konsep density-connectivity.
Definisi terbentuknya suatu cluster C apabila memenuhi syarat berikut yaitu:
 Jika titik p ϵ C dan jika q density-reachable dari titik p (memenuhi syarat ɛ dan minPts), maka titik q ϵ C (maximality).
 Jika titik p density-connected ke titik q (memenuhi syarat ɛ dan minPts), maka titik q ϵ C (connectivity).
DBSCAN hanya mampu menghasilkan hasil clustering yang baik selama ukuran jarak yang digunakan tidak melebihi jumlah keseluruhan area dari data. Pada data yang berdimensi tinggi, ukuran matriks jarak dapat diperkecil guna efisiensi algoritme. Secara kontras dengan memperkecil matriks jarak, maka akan lebih sulit menentukan besarnya
jarak (ɛ) yang lebih tepat. Kelemahan utama pada DBSCAN yakni algoritme ini tidak dapat mengclusterkan data dengan adanya perbedaan jarak yang besar antar objek pada data.
Dynamic Density Based Clustering (DDBC)
Algoritme dynamic density based clustering bekerja berdasarkan area yang memiliki kepadatan tertentu dan mengkombinasikan objek-objek pada area tersebut ke dalam sebuah cluster. Algoritme ini bertujuan menentukan jumlah cluster yang ditampilkan pada data berdasarkan nilai kepadatannya dan mampu untuk menangani noise.
DDBC merupakan algoritme
penggabungan dari algoritme DBSCAN dan DENCLUE, yang keduanya merupakan algoritme clustering berdasarkan density. Dua tahapan besar pada algoritme DDBC yaitu tahap estimasi hubungan (relationship estimation) dan tahap deteksi cluster. Estimasi hubungan menjelaskan perkiraan kekuatan hubungan antara objek yang muncul, sementara deteksi cluster akan melakukan pengelompokan terhadap objek-objek tersebut yang memiliki hubungan yang kuat.
DDBC menggunakan konsep pada algoritme DENCLUE yakni influence function untuk menjelaskan adanya hubungan antar objek. Posisi suatu titik dihitung secara periodik. Pt merupakan posisi titik yang dihitung pada waktu t. Hubungan antar titik pada waktu t dihitung menggunakan fungsi jarak. Nilai dari fungsi jarak tersebut selanjutnya diestimasi menggunakan fungsi kernel untuk diketahui kekuatan hubungannya. Besarnya kekuatan hubungan ( ) antar titik dirumuskan sebagai berikut.
(1) Nilai h pada persamaan di atas menjelaskan history window yaitu periode waktu dimana perilaku titik mempengaruhi estimasi hubungan, dan nilai t merupakan satuan waktu saat tertentu, dan , merupakan posisi objek e dan g pada waktu c. Suatu relationship graph akan terbentuk untuk mengolah kekuatan hubungan antar titik yang terjadi di setiap tahun. Tahap berikutnya setelah terbentuk relationship graph adalah deteksi cluster. Teknik DDBC menggunakan algoritme DBSCAN yang telah dimodifikasi untuk mendeteksi cluster pada relationship graph. Perbedaan antara algoritme DBSCAN dengan yang telah dimodifikasi terletak pada penggunaan Relationship Strength Threshold (RST) dan penggunaan fungsi ketetanggaan (neighborhood function) (Rosswog & Ghose 2010).
RST memberikan penjelasan bahwa titik- titik yang dipertimbangkan pada deteksi cluster hanya hubungan antar titik pada relationship graph yang mempunyai bobot lebih besar dari RST. Hubungan yang bersifat lemah (bernilai kurang dari RST) didefinisikan sebagai noise. Besarnya nilai RST dapat diketahui melalui persamaan berikut.
Dimisalkan C merupakan cluster, dan titik x, y ϵ C, dan titik z ¬ϵ C. Titik y dan z berada di dalam ketetanggaan titik x pada waktu t dan h tertentu. Nilai p menjelaskan besarnya waktu yang diharapkan pada titik y akan muncul sebagai tetangga titik x, sedangkan nilai f menjelaskan besarnya waktu yang diharapkan pada titik z akan muncul sebagai tetangga titik x.
Berdasarkan kemunculan objek dengan time stamp sebanyak empat seperti pada Tabel 1 di bawah dapat dilihat bahwa terdapat tujuh objek yaitu A, B, C, W, X, Y, dan Z yang masing-masing menyimpan representasi nilai lintang dan bujur. Kemunculan ketujuh objek tersebut berbeda-beda untuk setiap time stamp. Objek X, Y, dan Z muncul pada time stamp 1 dan 3 dimana hubungan objek-objek yang terbentuk merupakan hasil kombinasi ketiga objek tersebut. Pada time stamp 2 muncul objek baru dikenali sebagai W, dan objek pada time stamp 1 pun muncul kembali. Pada time stamp 4 muncul objek-objek baru yaitu A, B, dan C. Objek yang muncul terkait time stampnya dicari (2)
kombinasinya satu dengan lainnya yang menandakan adanya hubungan antar objek tersebut.
Tabel 1 Representasi kemunculan objek berdasarkan time stamp
Objek Hubungan Objek Time Stamp X, Y, Z (X, Y) (X, Z) (Y, Z) 1 W, X, Y, Z (W, X) (W, Y) (W, Z) X, Y) (X, Z) (Y, Z) 2 X, Y, Z (X, Y) (X, Z) (Y, Z) 3 A, B, C (A, B) (A, C) (B, C) 4
Berdasarkan Tabel 1 di atas dapat disimpulkan bahwa objek W yang hanya muncul pada time stamp 2 dan objek A, B, dan C pernah memiliki hubungan terkait dengan seluruh objek-objek data clustering sebanyak satu kali. Objek lainnya seperti X, Y, dan Z pernah memiliki hubungan dengan objek data clustering dengan kemunculan sebanyak tiga kali. Konsep RST pada hubungan ketetanggaan (neighborhood) dari vertex v ϵ V (G) dirumuskan sebagai NRST(v) yang dijelaskan pada persamaan di bawah ini. Dengan menggunakan rumus RST neighborhood di bawah, maka selanjutnya cluster akan dibentuk sesuai konsep yang terdapat pada algoritme DBSCAN. Kelebihan lain pada DBSCAN yang telah dimodifikasi yaitu pengelompokan objek akan lebih sederhana karena hanya objek yang terhubung oleh edge yang akan diutamakan.
(3)
Analisis Cluster
Analisis cluster dapat diperoleh dari kepadatan cluster yang dibentuk (cluster density). Penyebaran hasil suatu cluster dapat ditentukan dengan variance within cluster (Vw) dan variance between cluster (Vb). Varian untuk setiap tahap pembentukan cluster dihitung menggunakan persamaan di bawah berikut.
dengan adalah varian pada cluster C, c
bernilai 1, …, k dimana k merupakan jumlah cluster. Nilai adalah jumlah data pada
cluster C, adalah data ke-i pada suatu cluster, dan merupakan nilai rata-rata dari data pada cluster C. Selanjutnya dari nilai varian tersebut dihitung nilai variance within cluster (Vw) dan variance between cluster (Vb) sesuai dengan persamaan di bawah ini.
(5)
(6) dengan N adalah jumlah semua data, adalah jumlah data pada cluster ke-i, nilai merupakan varian pada cluster ke-i, dan merupakan rata-rata dari .
Salah satu metode yang digunakan untuk menentukan cluster yang ideal adalah batasan varian, yaitu dengan menghitung kepadatan cluster berupa variance within cluster (Vw) dan nilai variance between cluster (Vb) (Man L et al. 2009). Cluster yang ideal mempunyai Vw minimum yang merepresentasikan internal homogenity dan maksimum Vb yang menyatakan external homogenity.