Data spasial adalah data yang
merepresentasikan aspek-aspek keruangan dari fenomena yang terdapat di dunia nyata. Data spasial direpresentasikan di dalam basisdata sebagai raster atau vektor. Model data raster menampilkan, menempatkan, dan menyimpan data spasial dengan menggunakan struktur matriks atau piksel-piksel yang membentuk grid sedangkan model data vektor menggunakan titik, garis atau kurva, atau poligon beserta atributnya (Prahasta 2001).
Model informasi spasial terbagi menjadi dua kategori yaitu field dan object. Model object di dalam peta dapat direpresentasikan sebagai line
atau polygon. Pada model object, terdapat hubungan antara dua object yang dapat
1 PENDAHULUAN
1.1 Latar Belakang
Hutan mangrove tumbuh dan tersebar di wilayah Indonesia terutama di wilayah pesisir. Wilayah pesisir merupakan suatu wilayah peralihan antara darat dan lautan. Ditinjau dari garis pantai, suatu wilayah pesisir memiliki dua macam batas, yaitu batas yang sejajar dengan garis pantai dan batas yang tegak lurus terhadap garis pantai. Daerah penyebaran hutan mangrove di Indonesia terluas terdapat di Irian Jaya, yaitu lebih kurang 1.350.600 ha, kemudian Kalimantan 978.200 ha (Dahuri 2003).
Hutan mangrove memiliki banyak manfaat bagi kehidupan, diantaranya sebagai peredam badai angin, pelindung abrasi pantai, bahan bangunan dan bahan bakar, pemasok hara dan makanan bagi plankton, dan lain-lain. Oleh karena itu, hutan mangrove perlu dijaga dan
dikembangkan pertumbuhannya. Hutan
mangrove hidup di sepanjang pantai tropis dan subtropis yang dipengaruhi oleh pasang surut air. Kalimantan Timur merupakan salah satu provinsi di Pulau Kalimantan yang memiliki wilayah pesisir yang potensial untuk pertumbuhan mangrove, yaitu di wilayah kabupaten Kutai Timur dan Kota Tarakan. Provinsi Kalimantan Timur memiliki 618.200 ha luas lahan hutan mangrove (Dahuri 2003). Hutan mangrove tumbuh di daerah tersebut dan tersebar tidak secara merata. Pada satu wilayah terdapat beberapa daerah yang memiliki potensi mangrove yang lebih luas dibandingkan daerah sekitarnya, meskipun daerah tersebut sudah memenuhi kriteria untuk pertumbuhan hutan mangrove. Oleh karena itu diperlukan suatu analisis spasial untuk identifikasi lahan mangrove sehingga dapat diketahui deskripsi wilayah yang potensial untuk mengembangkan mangrove.
Ditjen Kelautan, Pesisir dan Pulau-pulau Kecil (KP3K) telah melakukan pemetaan baik secara langsung dari citra satelit untuk memetakan daerah persebaran pertumbuhan mangrove pada suatu wilayah maupun survey lapangan hingga level kelurahan. Salah satu metode untuk pengolahan dan menganalisis data adalah spatial data mining untuk mengekstraksi informasi atau pola yang penting dari data di dalamnya.
Salah satu teknik dalam spatial data mining
adalah klasifikasi spasial. Klasifikasi spasial bertujuan memberikan sebuah label atau menentukan kelas dari sebuah objek berdasar
nilai atribut yang ada dalam spasial dataset
dengan memperhatikan objek tetangganya. Salah satu metode klasifikasi spasial adalah
spatial decision tree. Penelitian ini akan menggunakan metode spatial decision tree
untuk membuat classifier dari data spasial terkait dengan hutan mangrove.
1.2 Tujuan
Tujuan dari penelitian ini adalah :
1 Menerapkan teknik klasifikasi pada data spasial mangrove menggunakan Algoritme C4.5
2 Membuat spatial classifier untuk
mendeskripsikan wilayah yang memiliki lahan mangrove.
1.3 Ruang Lingkup
Classifier dibangun menggunakan data spasial terkait dengan hutan mangrove di wilayah provinsi Kalimantan Timur, yaitu Kabupaten Kutai Timur dan Kota Tarakan dengan level wilayah terendah adalah
kelurahan. Pembuatan decision tree
menggunakan Algoritme C4.5 dan data spasial yang digunakan diantaranya data mengenai mangrove, administrasi kelurahan, sungai, topografi, landuse, geologi, geomorfologi, lereng, dan tanah.
1.4 Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan manfaat sebagai bahan pertimbangan bagi pemerintah dan pihak-pihak yang terkait dalam mengembangkan potensi mangrove di suatu wilayah.
TINJAUAN PUSTAKA 2.1 Data Spasial
Data spasial adalah data yang
merepresentasikan aspek-aspek keruangan dari fenomena yang terdapat di dunia nyata. Data spasial direpresentasikan di dalam basisdata sebagai raster atau vektor. Model data raster menampilkan, menempatkan, dan menyimpan data spasial dengan menggunakan struktur matriks atau piksel-piksel yang membentuk grid sedangkan model data vektor menggunakan titik, garis atau kurva, atau poligon beserta atributnya (Prahasta 2001).
Model informasi spasial terbagi menjadi dua kategori yaitu field dan object. Model object di dalam peta dapat direpresentasikan sebagai line
atau polygon. Pada model object, terdapat hubungan antara dua object yang dapat
2
topological. Contoh hubungan topological antara dua objek spasial adalah contains, inside,
dan overlap yang diilustrasikan pada Gambar 1 (Sekhar & Chawla 2003).
Gambar 1 Topological Biner (Sekhar & Chawla 2003).
2.2 Spatial Data Mining
Basisdata spasial menyimpan data keruangan atau spasial dalam jumlah yang besar, seperti peta, preprocessing remote sensing atau medical imaging data, dan VLSI
chip layout data. Basisdata spasial berbeda dengan basisdata relasional. Pada basisdata spasial terkandung hubungan topologi atau informasi jarak.
Spatial data mining merupakan proses ekstraksi pengetahuan, hubungan spasial atau pola-pola lainnya yang tidak secara eksplisit disimpan pada basisdata spasial. Penggabungan
data mining dengan teknologi basisdata spasial berguna untuk menemukan hubungan spasial dan hubungan antara spasial dan non-spatial,
membangun basis pengetahuan spasial, dan mengoptimalkan kueri spasial (Han & Kamber 2006).
2.3 Spatial Decision Tree
Spatial decision tree adalah metode
decision tree untuk klasifikasi data spasial. Metode ini berbeda dari decision tree
konvensional dengan mengambil perhitungan yang tersembunyi dalam hubungan spasial antara objek (Zeitouni & Chelgoum 2001).
2.4 Spatial Join Index
Pertimbangan utama dalam spatial data mining adalah hubungan spasial antara objek. Tidak seperti model data relasional, hubungan spasial bersifat implicit (tersembunyi). Komputasi spatial relationship memerlukan banyak operasi spatial join, yang dapat memberatkan secara komputasi. Metode untuk menyederhanakan proses ini menggunakan struktur yang disebut Spatial Join Index (SJI)
yang merupakan perluasan dari join indeks
dalam kerangka relational database yang
diperkenalkan oleh Valduriez yang
diilustrasikan pada Gambar 2. SJI menghitung secara tepat hubungan spasial antara dua objek dari dua lapisan tematik (Zeitouni 2000). Hubungan antara dua objek dalam SJI dapat berupa toplogical atau metrik. Setiap tuple
(ID1, Spatial_relationship, ID2) yang terdapat pada SJI merepresentasikan hubungan yang terdapat pada pasangan objek spasial yang teridentifiaksi sebagai ID1 dam ID2 (Zeitouni & Chelghoum 2004).
.
Gambar 2 Spatial Join Index (Zeitouni & Chelghoum 2004).
2.5 Operator Complete
Operator complete mengatur kembali data di dalam tabel unik atau khusus dari gabungan tiga tabel ternasuk di dalamnya terdapat tabel hasil dari spatial join index, sehingga didapatkan satu tabel. Prinsip dari operator
complete adalah membangkitkan untuk setiap nilai atribut dalam tabel terhubung dengan atribut dari tabel hasil. Keuntungan dari
penggunaan operator complete adalah
menghindari adanya duplikasi analisis objek dan membolehkan penggunaan metode data mining lain.
Definisi dari operator complete adalah : Misalkan terdapat tiga tabel, yaitu R (ID1, A1,…,An), V(ID2, B1,…,Bm) dan I(ID1, ID2, W). Primary keys setiap tabel ditandai dengan garis bawah. B(i=1,…,m) merupakan atribut kualitatif dan bij(j=1,…,Ki) merupakan nilai
yang berbeda (distinct values). Misal F = {F1,F2,…,Fm} adalah suatu kumpulan fungsi
agregasi.
COMPLETE (R, V, I, F) adalah sebuah tabel T yang memiliki rancangan skema seperti : T(ID1,A1,…,An,W_b11,…,W_b1K1,…,W_bm1,…,
W_bmKm) dengan : ID1 adalah key
3
t = (id1, a1, a2,…an, W_b11, …, W_b1K1,
…, W_bm1, W_bm2, …, W_bmKm) Є T,
- (id1,a1,a2,…,an) = σ (ID1 = Id1) (R),
- Jika σ (ID1=Id1) (I) maka W_bij=Fi(σ (ID1=Id1) (I) ∞ (Bi=bij) (V); W), Selainnya
NULL.
Contoh penggunaan operator Complete
diilustrasikan pada Gambar 3 (Zeitouni & Chelghoum 2004).
Gambar 3 Ilustrasi penggunaan Operator
Complete Zeitouni & Chelghoum 2004). 2.6 Algoritme K-Means
Analisis cluster mengelompokkan obyek- obyek data hanya berdasar pada informasi yang terdapat pada data, yang menjelaskan obyek dan relasinya. Tujuan analisis cluster adalah agar objek-objek di dalam grup menjadi mirip (atau berhubungan) satu dengan lainnya, dan berbeda (atau tidak berhubungan) dengan objek dalam grup lainnya. Salah satu teknik dalam clustering
adalah algoritme K-means.
K-means merupakan teknik clustering
sederhana. Langkah pertama yang dilakukan adalah menentukan K initial centroid, dengan K adalah parameter spesifik yang berupa jumlah dari cluster yang diinginkan. Kemudian Setiap objek dimasukkan ke dalam cluster yang memiliki centroid terdekat dengan objek tersebut. Centroid dalam cluster akan berubah sesuai dengan objek yang terdapat di dalam
cluster. Kemudian langkah penempatan objek ke dalam cluster dengan centroid terdekat diulang hingga tidak ada objek cluster yang berpindah cluster.
Algoritme dasar dari K-means adalah (Tan et al. 2006)
Tentukan K buah objek sebagai centroid awal. Ulangi
Tandai masing-masing objek untuk K
cluster dimana objek tersebut memiliki
centroid terdekat.
Hitung kembali centroid untuk masing- masing cluster.
Sampai tidak ada centroid yang berubah.
2.7 Algoritme C4.5
Algoritme C4.5 adalah pengembangan dari algoritme ID3 untuk membangkitkan pohon keputusan (decision tree). Algoritme C4.5 secara rekursif mengunjungi setiap decision node, memilih pemisahan (split) atribut yang optimal, sampai tidak ada pemisahan (split) atribut yang memungkinkan. Algoritma C4.5 menggunakan konsep dari information gain atau
entropy reduction untuk memilih pemisahan (split) yang optimal dengan memilih split yang memiliki information gain terbesar (Larose 2005).
Information gain didapatkan dengan cara: -
dengan adalah nilai entropy dan
didapatkan dengan cara :
I ( S1, S2,…,Sm ) = -
*log
2(
)
1 i m i ip
p
dengan S berisi s data sample. Anggap atribut untuk kelas memiliki m nilai yang berbeda, Ci
(untuk i = 1, …,m). Anggap si adalah jumlah
samples S pada kelas Ci dan adalah
probabilitas dari sample yang mempunyai kelas Ci. Sedangkan nilai entropy didapatkan dengan
formula :
dengan atribut A memiliki nilai yang berbeda {a1,a2,..av}. Atribut A digunakan untuk
mempartisi S menjadi vsubset, { S1, S2,...,Sv },
dimana Sj berisi sample pada S yang
mempunyai nilai aj dari A.
merupakan jumlah sample pada subset yang mempunyai nilai aj dari A dibagi dengan jumlah
total samples pada S.
Algoritme C4.5 dibuat untuk memperbaiki Algoritme ID3 dalam mengatasi missing data, data kontinyu, dan pruning (Santoso 2007).
Secara umum algoritme ID3 dan C4.5 adalah sebagai berikut :
Algoritme ID3 (Han & Kamber 2006) Input : sampel latih, sampel
Output : Decision tree Method :
1 Buat node N;
2 Jika semua sampel memiliki kelas yang sama yaitu C, Maka jadikan node N sebagai leaf node dan beri label C;
4 3 Jika daftar atribut kosong, Maka jadikan
node N sebagai leaf node dengan label = nilai kelas yang terbanyak pada sampel; 4 Pilih atribut uji, atribut dalam daftar yang
memiliki information gain tertinggi; 5 Beri label node N dengan atribut uji; 6 Untuk setiap nilai ai dalam atribut uji yang
diketahui,
7 Tambahkan cabang di bawah node N untuk atribut uji = ai;
8 Tentukan si sebagai subset dari sampel
dimana atribut uji = ai;
9 Jika sampel si kosong,
10 Tambahkan leaf node dengan label = nilai kelas yang terbanyak pada sampel;
11 Selainnya, tambah cabang baru di bawah cabang yang sekarang dengan memanggil fungsi ID3 (si,daftar
atribut-atribut uji); Algoritme C4.5 (Quinlan 1993)
1 Bangun pohon keputusan dari data latih. (ID3 konvensional).
2 Ubah pohon ke dalam bentuk aturan-aturan. Jumlah aturan sama dengan jumlah kemungkinan path dari akar ke daun.
3 Pangkas setiap aturan dengan
menghilangkan precondition sehingga meningkatkan nilai akurasi.
4 Urutkan aturan yang dipangkas berdasar nilai akurasinya, dan gunakan aturan-aturan tersebut pada data uji.
2.8 Confusion Matrix
Evaluasi dari kinerja model didasarkan pada banyaknya (count) dari test record secara benar dan secara tidak benar oleh model klasifikasi.
Count ini ditabulasikan ke dalam matrik yang diilustrasikan pada Tabel 1 (Tan et al. 2006). Tabel 1 Confusion matrix
Kelas hasil prediksi Kelas = 1 Kelas = 0 Kelas
aktual
Kelas=1 f11 f10
Kelas = 0 f01 f00
Setiap entri fijdi dalam tabel menyatakan
banyaknya record dari kelas i yang diprediksi menjadi kelas j. Berdasar entri-entri yang terdapat pada confusion matrix, total banyaknya prediksi yang benar oleh model adalah (f11 + f00) dan total banyaknya prediksi yang salah oleh model adalah (f10 + f01), sehingga akurasi didapatkan dengan cara (Tan et al. 2006) :
Akurasi = banyaknya total prediksi yang benar total banyaknya prediksi