TINJAUAN PUSTAKA 2.1 Data Spasial - Application of Spatial Decision Tree in Identifiying Mangro

Data spasial adalah data yang

merepresentasikan aspek-aspek keruangan dari fenomena yang terdapat di dunia nyata. Data spasial direpresentasikan di dalam basisdata sebagai raster atau vektor. Model data raster menampilkan, menempatkan, dan menyimpan data spasial dengan menggunakan struktur matriks atau piksel-piksel yang membentuk grid sedangkan model data vektor menggunakan titik, garis atau kurva, atau poligon beserta atributnya (Prahasta 2001).

Model informasi spasial terbagi menjadi dua kategori yaitu field dan object. Model object di dalam peta dapat direpresentasikan sebagai line

atau polygon. Pada model object, terdapat hubungan antara dua object yang dapat

1 PENDAHULUAN

1.1 Latar Belakang

Hutan mangrove tumbuh dan tersebar di wilayah Indonesia terutama di wilayah pesisir. Wilayah pesisir merupakan suatu wilayah peralihan antara darat dan lautan. Ditinjau dari garis pantai, suatu wilayah pesisir memiliki dua macam batas, yaitu batas yang sejajar dengan garis pantai dan batas yang tegak lurus terhadap garis pantai. Daerah penyebaran hutan mangrove di Indonesia terluas terdapat di Irian Jaya, yaitu lebih kurang 1.350.600 ha, kemudian Kalimantan 978.200 ha (Dahuri 2003).

Hutan mangrove memiliki banyak manfaat bagi kehidupan, diantaranya sebagai peredam badai angin, pelindung abrasi pantai, bahan bangunan dan bahan bakar, pemasok hara dan makanan bagi plankton, dan lain-lain. Oleh karena itu, hutan mangrove perlu dijaga dan

dikembangkan pertumbuhannya. Hutan

mangrove hidup di sepanjang pantai tropis dan subtropis yang dipengaruhi oleh pasang surut air. Kalimantan Timur merupakan salah satu provinsi di Pulau Kalimantan yang memiliki wilayah pesisir yang potensial untuk pertumbuhan mangrove, yaitu di wilayah kabupaten Kutai Timur dan Kota Tarakan. Provinsi Kalimantan Timur memiliki 618.200 ha luas lahan hutan mangrove (Dahuri 2003). Hutan mangrove tumbuh di daerah tersebut dan tersebar tidak secara merata. Pada satu wilayah terdapat beberapa daerah yang memiliki potensi mangrove yang lebih luas dibandingkan daerah sekitarnya, meskipun daerah tersebut sudah memenuhi kriteria untuk pertumbuhan hutan mangrove. Oleh karena itu diperlukan suatu analisis spasial untuk identifikasi lahan mangrove sehingga dapat diketahui deskripsi wilayah yang potensial untuk mengembangkan mangrove.

Ditjen Kelautan, Pesisir dan Pulau-pulau Kecil (KP3K) telah melakukan pemetaan baik secara langsung dari citra satelit untuk memetakan daerah persebaran pertumbuhan mangrove pada suatu wilayah maupun survey lapangan hingga level kelurahan. Salah satu metode untuk pengolahan dan menganalisis data adalah spatial data mining untuk mengekstraksi informasi atau pola yang penting dari data di dalamnya.

Salah satu teknik dalam spatial data mining

adalah klasifikasi spasial. Klasifikasi spasial bertujuan memberikan sebuah label atau menentukan kelas dari sebuah objek berdasar

nilai atribut yang ada dalam spasial dataset

dengan memperhatikan objek tetangganya. Salah satu metode klasifikasi spasial adalah

spatial decision tree. Penelitian ini akan menggunakan metode spatial decision tree

untuk membuat classifier dari data spasial terkait dengan hutan mangrove.

1.2 Tujuan

Tujuan dari penelitian ini adalah :

1 Menerapkan teknik klasifikasi pada data spasial mangrove menggunakan Algoritme C4.5

2 Membuat spatial classifier untuk

mendeskripsikan wilayah yang memiliki lahan mangrove.

1.3 Ruang Lingkup

Classifier dibangun menggunakan data spasial terkait dengan hutan mangrove di wilayah provinsi Kalimantan Timur, yaitu Kabupaten Kutai Timur dan Kota Tarakan dengan level wilayah terendah adalah

kelurahan. Pembuatan decision tree

menggunakan Algoritme C4.5 dan data spasial yang digunakan diantaranya data mengenai mangrove, administrasi kelurahan, sungai, topografi, landuse, geologi, geomorfologi, lereng, dan tanah.

1.4 Manfaat Penelitian

Penelitian ini diharapkan dapat memberikan manfaat sebagai bahan pertimbangan bagi pemerintah dan pihak-pihak yang terkait dalam mengembangkan potensi mangrove di suatu wilayah.

TINJAUAN PUSTAKA 2.1 Data Spasial

Data spasial adalah data yang

Model informasi spasial terbagi menjadi dua kategori yaitu field dan object. Model object di dalam peta dapat direpresentasikan sebagai line

atau polygon. Pada model object, terdapat hubungan antara dua object yang dapat

topological. Contoh hubungan topological antara dua objek spasial adalah contains, inside,

dan overlap yang diilustrasikan pada Gambar 1 (Sekhar & Chawla 2003).

Gambar 1 Topological Biner (Sekhar & Chawla 2003).

2.2 Spatial Data Mining

Basisdata spasial menyimpan data keruangan atau spasial dalam jumlah yang besar, seperti peta, preprocessing remote sensing atau medical imaging data, dan VLSI

chip layout data. Basisdata spasial berbeda dengan basisdata relasional. Pada basisdata spasial terkandung hubungan topologi atau informasi jarak.

Spatial data mining merupakan proses ekstraksi pengetahuan, hubungan spasial atau pola-pola lainnya yang tidak secara eksplisit disimpan pada basisdata spasial. Penggabungan

data mining dengan teknologi basisdata spasial berguna untuk menemukan hubungan spasial dan hubungan antara spasial dan non-spatial,

membangun basis pengetahuan spasial, dan mengoptimalkan kueri spasial (Han & Kamber 2006).

2.3 Spatial Decision Tree

Spatial decision tree adalah metode

decision tree untuk klasifikasi data spasial. Metode ini berbeda dari decision tree

konvensional dengan mengambil perhitungan yang tersembunyi dalam hubungan spasial antara objek (Zeitouni & Chelgoum 2001).

2.4 Spatial Join Index

Pertimbangan utama dalam spatial data mining adalah hubungan spasial antara objek. Tidak seperti model data relasional, hubungan spasial bersifat implicit (tersembunyi). Komputasi spatial relationship memerlukan banyak operasi spatial join, yang dapat memberatkan secara komputasi. Metode untuk menyederhanakan proses ini menggunakan struktur yang disebut Spatial Join Index (SJI)

yang merupakan perluasan dari join indeks

dalam kerangka relational database yang

diperkenalkan oleh Valduriez yang

diilustrasikan pada Gambar 2. SJI menghitung secara tepat hubungan spasial antara dua objek dari dua lapisan tematik (Zeitouni 2000). Hubungan antara dua objek dalam SJI dapat berupa toplogical atau metrik. Setiap tuple

(ID1, Spatial_relationship, ID2) yang terdapat pada SJI merepresentasikan hubungan yang terdapat pada pasangan objek spasial yang teridentifiaksi sebagai ID1 dam ID2 (Zeitouni & Chelghoum 2004).

Gambar 2 Spatial Join Index (Zeitouni & Chelghoum 2004).

2.5 Operator Complete

Operator complete mengatur kembali data di dalam tabel unik atau khusus dari gabungan tiga tabel ternasuk di dalamnya terdapat tabel hasil dari spatial join index, sehingga didapatkan satu tabel. Prinsip dari operator

complete adalah membangkitkan untuk setiap nilai atribut dalam tabel terhubung dengan atribut dari tabel hasil. Keuntungan dari

penggunaan operator complete adalah

menghindari adanya duplikasi analisis objek dan membolehkan penggunaan metode data mining lain.

Definisi dari operator complete adalah : Misalkan terdapat tiga tabel, yaitu R (ID1, A1,…,An), V(ID2, B1,…,Bm) dan I(ID1, ID2, W). Primary keys setiap tabel ditandai dengan garis bawah. B(i=1,…,m) merupakan atribut kualitatif dan bij(j=1,…,Ki) merupakan nilai

yang berbeda (distinct values). Misal F = {F1,F2,…,Fm} adalah suatu kumpulan fungsi

agregasi.

COMPLETE (R, V, I, F) adalah sebuah tabel T yang memiliki rancangan skema seperti : T(ID1,A1,…,An,W_b11,…,W_b1K1,…,W_bm1,…,

W_bmKm) dengan :  ID1 adalah key

 t = (id1, a1, a2,…an, W_b11, …, W_b1K1,

…, W_bm1, W_bm2, …, W_bmKm) Є T,

- (id1,a1,a2,…,an) = σ (ID1 = Id1) (R),

- Jika σ (ID1=Id1) (I) maka W_bij=Fi(σ (ID1=Id1) (I) ∞ (Bi=bij) (V); W), Selainnya

NULL.

Contoh penggunaan operator Complete

diilustrasikan pada Gambar 3 (Zeitouni & Chelghoum 2004).

Gambar 3 Ilustrasi penggunaan Operator

Complete Zeitouni & Chelghoum 2004). 2.6 Algoritme K-Means

Analisis cluster mengelompokkan obyek- obyek data hanya berdasar pada informasi yang terdapat pada data, yang menjelaskan obyek dan relasinya. Tujuan analisis cluster adalah agar objek-objek di dalam grup menjadi mirip (atau berhubungan) satu dengan lainnya, dan berbeda (atau tidak berhubungan) dengan objek dalam grup lainnya. Salah satu teknik dalam clustering

adalah algoritme K-means.

K-means merupakan teknik clustering

sederhana. Langkah pertama yang dilakukan adalah menentukan K initial centroid, dengan K adalah parameter spesifik yang berupa jumlah dari cluster yang diinginkan. Kemudian Setiap objek dimasukkan ke dalam cluster yang memiliki centroid terdekat dengan objek tersebut. Centroid dalam cluster akan berubah sesuai dengan objek yang terdapat di dalam

cluster. Kemudian langkah penempatan objek ke dalam cluster dengan centroid terdekat diulang hingga tidak ada objek cluster yang berpindah cluster.

Algoritme dasar dari K-means adalah (Tan et al. 2006)

Tentukan K buah objek sebagai centroid awal. Ulangi

Tandai masing-masing objek untuk K

cluster dimana objek tersebut memiliki

centroid terdekat.

Hitung kembali centroid untuk masing- masing cluster.

Sampai tidak ada centroid yang berubah.

2.7 Algoritme C4.5

Algoritme C4.5 adalah pengembangan dari algoritme ID3 untuk membangkitkan pohon keputusan (decision tree). Algoritme C4.5 secara rekursif mengunjungi setiap decision node, memilih pemisahan (split) atribut yang optimal, sampai tidak ada pemisahan (split) atribut yang memungkinkan. Algoritma C4.5 menggunakan konsep dari information gain atau

entropy reduction untuk memilih pemisahan (split) yang optimal dengan memilih split yang memiliki information gain terbesar (Larose 2005).

Information gain didapatkan dengan cara: -

dengan adalah nilai entropy dan

didapatkan dengan cara :

I ( S1, S2,…,Sm ) = -

*log

₂

(

)

1 i m i i

p





dengan S berisi s data sample. Anggap atribut untuk kelas memiliki m nilai yang berbeda, Ci

(untuk i = 1, …,m). Anggap si adalah jumlah

samples S pada kelas Ci dan adalah

probabilitas dari sample yang mempunyai kelas Ci. Sedangkan nilai entropy didapatkan dengan

formula :

dengan atribut A memiliki nilai yang berbeda {a1,a2,..av}. Atribut A digunakan untuk

mempartisi S menjadi vsubset, { S1, S2,...,Sv },

dimana Sj berisi sample pada S yang

mempunyai nilai aj dari A.

merupakan jumlah sample pada subset yang mempunyai nilai aj dari A dibagi dengan jumlah

total samples pada S.

Algoritme C4.5 dibuat untuk memperbaiki Algoritme ID3 dalam mengatasi missing data, data kontinyu, dan pruning (Santoso 2007).

Secara umum algoritme ID3 dan C4.5 adalah sebagai berikut :

Algoritme ID3 (Han & Kamber 2006) Input : sampel latih, sampel

Output : Decision tree Method :

1 Buat node N;

2 Jika semua sampel memiliki kelas yang sama yaitu C, Maka jadikan node N sebagai leaf node dan beri label C;

4 3 Jika daftar atribut kosong, Maka jadikan

node N sebagai leaf node dengan label = nilai kelas yang terbanyak pada sampel; 4 Pilih atribut uji, atribut dalam daftar yang

memiliki information gain tertinggi; 5 Beri label node N dengan atribut uji; 6 Untuk setiap nilai ai dalam atribut uji yang

diketahui,

7 Tambahkan cabang di bawah node N untuk atribut uji = ai;

8 Tentukan si sebagai subset dari sampel

dimana atribut uji = ai;

9 Jika sampel si kosong,

10 Tambahkan leaf node dengan label = nilai kelas yang terbanyak pada sampel;

11 Selainnya, tambah cabang baru di bawah cabang yang sekarang dengan memanggil fungsi ID3 (si,daftar

atribut-atribut uji); Algoritme C4.5 (Quinlan 1993)

1 Bangun pohon keputusan dari data latih. (ID3 konvensional).

2 Ubah pohon ke dalam bentuk aturan-aturan. Jumlah aturan sama dengan jumlah kemungkinan path dari akar ke daun.

3 Pangkas setiap aturan dengan

menghilangkan precondition sehingga meningkatkan nilai akurasi.

4 Urutkan aturan yang dipangkas berdasar nilai akurasinya, dan gunakan aturan-aturan tersebut pada data uji.

2.8 Confusion Matrix

Evaluasi dari kinerja model didasarkan pada banyaknya (count) dari test record secara benar dan secara tidak benar oleh model klasifikasi.

Count ini ditabulasikan ke dalam matrik yang diilustrasikan pada Tabel 1 (Tan et al. 2006). Tabel 1 Confusion matrix

Kelas hasil prediksi Kelas = 1 Kelas = 0 Kelas

aktual

Kelas=1 f11 f10

Kelas = 0 f01 f00

Setiap entri fijdi dalam tabel menyatakan

banyaknya record dari kelas i yang diprediksi menjadi kelas j. Berdasar entri-entri yang terdapat pada confusion matrix, total banyaknya prediksi yang benar oleh model adalah (f11 + f00) dan total banyaknya prediksi yang salah oleh model adalah (f10 + f01), sehingga akurasi didapatkan dengan cara (Tan et al. 2006) :

Akurasi = banyaknya total prediksi yang benar total banyaknya prediksi

Dalam dokumen Application of Spatial Decision Tree in Identifiying Mangrove Area Using C4.5 Algorithm. (Halaman 62-66)