• Tidak ada hasil yang ditemukan

Pada tahapan ini yang dilakukan adalah pengumpulan data. Data yang digunakan terdiri dari 2 data spasial, yaitu data titik panas dan data lahan gambut. Data titik panas didapat dari Nasional Aeronautics and Space Administration (NASA) dengan cara mengunduh melalui situs resmi NASA, sedangkan data titik panas didapat dari Wetland Internasional Indonesia. Data titik panas dan data lahan gambut yang telah akan digunakan untuk proses selanjutnya yaitu praproses data.

11 Praproses Data

Pada tahapan praproses dilakukan pemisahan data titik panas dari tahun 2001 sampai 2015 di Pulau Sumatera dan di Pulau Kalimantan. Pemisahan data yang dimaksud adalah mengambil titik panas yang memiliki data titik panas lengkap atau terdapat titik panas setiap bulannya dalam jangka waktu satu tahun. Pemisahan data pada tahapan ini dilakukan dengan menggunakan QuantumGIS. Dari hasil penentuan titik panas di Pulau sumatera dan Pulau Kalimantan yang lengkap hanya terdapat dari tahun 2001 sampai 2014. Jumlah titik panas per tahun di Pulau Sumatera dan Pulau Kalimantan dapat diilihat pada Gambar 4.

Gambar 4 Jumlah titik panas per tahun di Sumatera dan Kalimantan

Dari Gambar 4 dapat dilihat jumlah titik panas terbanyak untuk kurun waktu 2001 sampai 2014 di Pulau Sumatera terdapat pada tahun 2014, sedangkan di Pulau Kalimantan jumlah titik panas paling banyak terdapat pada tahun 2006. Untuk jumlah titik panas paling sedikit di Pulau Sumatera terdapat di tahun 2001, sedangkan di Pulau Kalimantan terdapat di tahun 2010.

Seleksi Data Titik Panas pada Lahan Gambut

Pada tahapan ini yang dilakukan adalah menggabungkan data titik panas Pulau Sumatera dengan data lahan gambut di Pulau Sumatera dan data titik panas di Pulau Kalimantan dengan data lahan gambut di Pulau Kalimantan. Proses penggabungan ini menggunakan Quantum GIS. Proses penggabungan ini tidak dapat dilakukan secara langsung karena pada proses ini diperlukan kesamaan sistem referensi koordinat untuk data titik panas dengan data lahan gambut yang akan digabungkan. Untuk melihat sistem referensi di Indonesia dapat dilihat pada Gambar 5.

12

Gambar 5 Sistem referensi di Indonesia (Oswald dan Astrini 2012)

Sistem referensi terbagi menjadi 60 zone, dimana untuk Indonesia terletak pada zone 46 sampai 54. Berdasarkan Gambar 5 Sumatera berada di zona 47 dan 48, namun karena zona 47 lebih banyak maka sistem referensi koordinat yang di pakai adalah ESPG: 32647-WGS84/UTM Zone 47N. Untuk Pulau Kalimantan sistem referensi koordinatnya berada pada zone 49 dan 50, namun karena zona 49 lebih banyak maka sistem referensi koordinat yang dipakai adalah ESPG: 32647-WGS84/UTM Zone 49N.

Proses penggabungan data titik panas dan lahan gambut baru bisa dilakukan setelah sistem referensi disesuaikan dengan aturan zone. Dari hasil penggabungan ini untuk Pulau Sumatera tahun 2007 dapat dilihat pada Gambar 6 dan untuk pulau kalimantan tahun 2007 dapat dilihat pada Gambar 7.

Gambar 6 Peta lahan gambut di Pulau Sumatera yang ditumpang tindih dengan titik panas tahun 2007

13

Gambar 7 Peta lahan gambut di Pulau Sumatera yang ditumpang tindih dengan titik panas tahun 2007

Pembuatan Data Non Titik Panas pada Lahan Gambut

Pada tahapan ini yang dilakukan adalah menentukan data bukan titik panas yang berada pada lahan gambut di Sumatera dan Kalimantan dengan menggunakan Quantum GIS. Proses ini melibatkan data titik panas pertahun pada lahan gambut di Sumatera dan Kalimantan. Tetapi sebelum dibuat data bukan tititk panas, ditentukan titik panas yang nilai confidence70.

Langkah pertama adalah membuat tabel baru yang terdiri dari gid, the geom,

longitude, latitude, acq date, confidence, dan kelas yang berisi titik panas dengan

confidence ≥ 70. Nilai confidence yang digunakan adalah diatas ≥ 70, karena titik panas demikian memiliki potensi tinggi sebagai indikator kebakaran hutan dan lahan.

Dari data titik panas yang nilai confidence ≥ 70 barulah dibuat data bukan titik panas. Untuk mendapatkan data bukan titik panas pada daerah lahan gambut di Sumatera dan Kalimantan dilakukan beberapa proses yaitu pembuatan buffer, disolve, operasi difference, dan pembangkitan random point. Dari proses ini didapat data bukan titik panas pada lahan gambut di Sumatera dan Kalimantan dengan nama false alarm yang akan digunakan dalam proses klasifikasi. Data bukan titik panas pada lahan gambut di Sumatera untuk tahun 2007 dapat dilihat pada Gambar 8.

14

Gambar 8 Data non titik panas pada lahan gambut di Sumatera untuk tahun 2007 Dari Gambar 8 dapat dilihat sebaran data bukan titik panas pada lahan gambut di Sumatera pada tahun 2007. Titik panas muncul di sekitar daerah yang bukan merupakan daerah titik panas. Sebaran data bukan titik panas pada lahan gambut di Kalimantan pada tahun 2007 muncul pada daerah yang bukan merupakan daerah titik panas. Data bukan titik panas pada lahan gambut di Kalimantan untuk tahun 2007 dapat dilihat pada Gambar 9.

Gambar 9 Data non titik panas pada lahan gambut di Kalimantan untuk tahun 2007

15 Pembuatan Dataset

Setelah didapatkan data titik panas pada lahan gambut dan data bukan titik panas pada lahan gambut. Proses selanjutnya adalah menambahkan kolom baru untuk kelas. Pada atribut kelas data titik panas per tahun diberikan isian T atau

True dan untuk data bukan titik panas pada gambut akan diisikan F atau False. Proses ini dilakukan menggunakan PostgresSQL.

Dari proses ini didapat tabel baru yang diberi nama target. Proses ini masih dilakukan menggunakan PostgresSQL. Dari data titik panas dengan confidence

70 selanjutnya akan dibuat dataset1 dan dataset2 menggunakan PostgresSQL. Adapun untuk dataset1 berisi data dari tabel lahan gambut dan data target. Atribut data yang ada di dataset1 dapat dilihat pada Tabel 5.

Tabel 5 Atribut pada dataset1

No Atribut Tipe

1 Gid Big integer

2 Gid2 Integer

3 The geom Geometri(point)

4 Confidence Integer

5 Legend Character varying(42) 6 Landuse Character varying(60) 7 Ketebalan Character varying(16)

Dataset1 digunakan untuk menyimpan informasi yang lebih lengkap yang dapat digunakan untuk melihat letak dari objek dalam peta lahan gambut menggunakan Quantum GIS. Untuk proses klasifikasi di R dibuat dataset2 yang diambil dari data target dan data gambut. Atribut pada dataset2 dapat dilihat pada Tabel 6.

Tabel 6 Atribut pada dataset2

No Atribut Tipe

1 Legend Character varying(42) 2 Landuse Character varying(60) 3 Ketebalan Character varying(16)

4 Kelas Character

Atribut pada Tabel 6 ini hanya untuk Pulau Sumatera, sedangkan untuk Pulau Kalimantan hanya terdiri dari legend, ketebalan dan kelas. Atribut landuse

tidak terdapat pada Pulau Kalimantan karena data yang diperoleh tidak mengandung landuse. Contoh record dalam dataset2 dapat dilihat pada Tabel 7.

16

Tabel 7 Contoh record tabel dataset2

No Jenis Gambut Tutupan Lahan Kedalaman Kelas 1 Saprists/Hemists(60/40), sedang Hutan rawa D2 F 2 Saprists/Hemists(60/40), sedang Belukar rawa D2 F 3 Saprists/Hemists(60/40), dalam Hutan rawa D2 F 4 Saprists/Hemists(60/40), dalam Hutan rawa D3 F 5 Saprists/Hemists(60/40), dalam

Sawah dan kelapa D1 T 6 Saprists/Hemists(60/40), sangat dalam Hutan rawa D4 F 7 Saprists/Hemists(90/10), dalam Hutan rawa D2 F 8 Hemists/Saprists (60/40), sedang Belukar rawa D2 T 9 Hemists/Saprists (60/40), sedang Hutan rawa D2 F 10 Hemists/Saprists (60/40), sangat dalam Hutan rawa D4 T

Membuang Missing Value

Pada tahapan ini ditentukan jumlah missing value. Untuk melihat jumlah

missing value digunakan Weka. Setelah didapat missing value, kemudian menghitung presentase jumlah missing value terhadap data keseluruhan. Jika

missing value tidak lebih dari 10%, maka missing value tersebut dibuang dari

dataset karena dianggap tidak memiliki pengaruh yang cukup besar dalam proses klasifikasi. Jumlah missing value di Pulau Sumatera dan Pulau Kalimantan dapat dilihat pada Tabel 8.

Dari Tabel 8 dapat dilihat jumlah missing value tertinggi pada dataset

Kalimantan2006 yaitu 460, namun jumlah tersebut hanya 1.51% dibandingkan jumlah datanya yang mencapai 30413. Presentase tertinggi missing value adalah 1.46% dan nilai ini tidak lebih dari 10%, jadi semua missing value dihilangkan. Konversi Data

Sebelum dataset diolah di R dengan menggunakan model klasifikasi menggunakan algoritme K-Nearest Neighbor diperlukan konversi data, karena KNN hanya bisa memproses data bertipe numeric sedangkan atribut dalam

dataset bertipe data nominal. Atribut dalam dataset diubah dari nominal ke dalam bentuk binary agar dapat diproses di R menggunakan algoritme KNN. Perubahan tipe data ini dilakukan menggunakan Weka. Dari hasil proses ini didapat data berbentuk binary. Contoh data hasil konversi dapat dilihat pada Gambar 10.

17 Tabel 8 Jumlah missing value pada dataset Sumatera dan Kalimantan

Dataset Missing Value Jumlah Titik Panas Presentase (%)

Sumatera2001 2 3509 0.06 Sumatera2002 35 20212 0.17 Sumatera2003 8 10331 0.08 Sumatera2004 15 16030 0.09 Sumatera2005 18 30172 0.06 Sumatera2006 33 29471 0.11 Sumatera2007 5 5517 0.09 Sumatera2008 8 7535 0.11 Sumatera2009 21 15572 0.13 Sumatera2010 2 4897 0.04 Sumatera2011 10 13506 0.07 Sumatera2012 13 14556 0.09 Sumatera2013 21 18548 0.11 Sumatera2014 43 41254 0.10 Kalimantan2001 35 2880 1.22 Kalimantan2002 332 23005 1.44 Kalimantan2003 80 6578 1.22 Kalimantan2004 153 13612 1.12 Kalimantan2005 79 5736 1.36 Kalimantan2006 460 30413 1.51 Kalimantan2007 19 2074 0.92 Kalimantan2008 21 1441 1.46 Kalimantan2009 247 20803 1.19 Kalimantan2010 5 570 0.88 Kalimantan2011 111 7900 1.41 Kalimantan2012 99 8493 1.17 Kalimantan2013 51 3571 1.43 Kalimantan2014 232 18457 1.26

Gambar 10 Data hasil konversi dari nominal ke binary dalam format text

Setelah proses konversi data selesai, data tidak dapat langsung diolah di R, dikarenakan nama atribut yang menggunakan koma (,) yang seharusnya hanya 1

18

kolom, sehingga atribut tersebut di dalam R terbaca menjadi 2 kolom. Hal tersebut sangat fatal karena menimbulkan pergeseran data yang berakibat timbul data kosong. Apabila itu terjadi, data menjadi tidak akurat lagi. Solusi yang dilakukan yaitu dataset yang sebelumnya dipisahkan dengan koma (,) bukan dalam bentuk kolom diolah dengan Microsoft Excel agar terpisah dengan baik. Pemisahan

dataset ini menggunakan fasilitas yang disediakan oleh Microsoft Excel untuk mengubah text ke dalam bentuk kolom. Contoh dataset yang telah diolah di Microsoft Excel dapat dilihat pada Tabel 9.

Tabel 9 Data hasil konversi dari nominal ke binary dalam bentuk kolom No Legend= Saprists/Hemists (60/40), sedang Legend= Saprists/Hemists (60/40), dalam 1 1 0 2 1 0 3 1 0 4 1 0 5 1 0 6 1 0 7 1 0 8 0 1 9 0 1 10 1 0

Dari hasil pemisahan data menggunakan Microsoft Excel yang telah dilakukan harus dilakukan pengecekan ulang. Hal ini dilakukan untuk memastikan data telah sesuai untuk diproses di tahap selanjutnya.

Pembagian Data

Pembagian data pada pengolahan data di R menggunakan 10 fold cross validation. Dengan demikian, 10% dari data akan dijadikan sebagai data uji dan 90% bagian data akan dijadikan data latih. Adapun keseluruhan data dibagi menjadi 10 bagian, kemudian dari setiap bagian menjadi data uji dan 9 bagian lainnya akan menjadi data latih.

Tahapan Klasifikasi Menggunakan Algoritme K-Nearest Neigbor Setiap record data uji dihitung jaraknya dengan ke setiap record data latih untuk mengetahui ukuran kedekatan antara data uji dengan data latih. Untuk data bertipe numeric, selisih antara data uji dengan data latih adalah pengurangan nilai data uji dengan data latih, selanjutnya ditentukan nilai k tetangga terdekat. Percobaan ini dimulai dengan nilai k dari 1 sampai 19 dengan selang 2 dalam KNN. Pada setiap percobaan dihitung akurasinya untuk k = 1, k = 3, k = 5, k = 7, k = 9, k = 11, k = 13, k = 15, k = 17, dan k = 19. Matrik confusion hasil tahapan klasifikasi dengan KNN Pulau Kalimantan tahun 2003 dengan nilai k=1 dapat dilihat pada Tabel 10.

19 Tabel 10 Matriks confusion pada dataset Pulau Kalimantan tahun 2010 dengan

nilai k = 13

Kelas Hasil Prediksi Kelas Aktual

False True

False 115 21

True 9 127

Dari matriks confusion dapat dilihat bahwa data dengan kelas false yang diprediksi sebagai false adalah 115. Data dengan kelas true yang diprediksi sebagai kelas false adalah 21. Data dengan kelas false yang diprediksi sebagai kelas true adalah 9. Data dengan kelas true yang diprediksi sebagai kelas ftrue

adalah 127. Kelas true menyatakan kemunculan titik panas, kelas false

menyatakan data bukan titik panas.

Matriks confusion ini selanjutnya akan digunakan untuk menghitung nilai akurasi hasil tahapan klasifikasi dengan menggunakan KNN. Namun untuk mendapatkan hasil tahapan klasifikasi menggunakan algoritme KNN ini tidak semua data dapat diolah oleh packages class pada R karena untuk Pulau Sumatera tahun 2002 sampai 2006, 2009, dan 2011 sampai 2014 memiliki jumlah atribut yang sangat banyak. Untuk dataset Pulau Kalimantan tahun 2002, 2004, 2006, 2009, dan 2014 tidak dapat diolah di R karena jumlah data yang terlalu banyak.

Perhitungan Akurasi

Pada tahapan ini dihitung nilai akurasi dari hasil tahapan klasifikasi untuk setiap nilai k. Untuk menghitung nilai akurasi digunakan rumus akurasi pada persamaan 2.

Dengan menggunakan nilai hasil tahapan klasifikasi menggunakan algoritme KNN yang telah dihasilkan pada proses klasifikasi, selanjutnya dihitung nilai akurasinya. Berdasarkan Tabel 10 akurasi hasil klasifikasi dengan KNN dengan k = 13 adalah

Akurasi=115+21+9+127115+127 =88.97% (3) Perhitungan akurasi dilakukan untuk semua dataset dan semua nilai k. Akurasi tertinggi untuk dataset setiap tahunnya untuk Pulau Sumatera dapat dilihat pada Tabel 11.

Tabel 11 Nilai akurasi tertinggi hasil klasifikasi setiap tahun untuk dataset Sumatera

Dataset Nilai k Terbaik Akurasi (%)

Sumatera2001 1 99.14

Sumatera2007 1 99.10

Sumatera2008 1 98.48

20

Berdasarkan Tabel 11 akurasi yang diperoleh selisihnya tidak terlalu berbeda jauh. Akurasi tertinggi untuk Pulau Sumatera adalah pada Sumatera2010 untuk nilai k = 1. Grafik akurasi untuk dataset Sumatera2010 dapat dilihat pada Gambar 12, sedangkan untuk grafik dataset Sumatera lainnya dapat dilihat pada Lampiran 2 sampai Lampiran 5.

Gambar 11 Akurasi hasil klasifikasi untuk dataset akurasi Pulau Sumatera tahun 2010

Dari Gambar 11 dapat dilihat akurasi hasil klasifikasi untuk nilai k = 1 sampai k = 19 yang cenderung menurun. Jumlah tetangga (k) = 1 memiliki akurasi tertinggi untuk dataset Sumatera, jadi untuk pengujian dengan menggunakan

dataset Sumatera 2010 menggunakan jumlah tetangga (k) = 1. Akurasi tertinggi hasil klasifikasi untuk dataset setiap tahunnya di Pulau Kalimantan dapat dilihat pada Tabel 12.

Tabel 12 Akurasi tertinggi hasil klasifikasi setiap tahun untuk dataset Kalimantan

Dataset Nilai k Tertinggi Akurasi (%)

Kalimantan2001 1 100.00 Kalimantan2003 1 100.00 Kalimantan2005 1 100.00 Kalimantan2005 3 100.00 Kalimantan2007 1 100.00 Kalimantan2008 1 99.87 Kalimantan2010 1 99.26 Kalimantan2011 1 100.00 Kalimantan2012 1 99.98 Kalimantan2013 1 99.95

Berdasarkan Tabel 12 akurasi yang diperoleh selisihnya tidak terlalu berbeda jauh. Akurasi tertinggi terdapat pada dataset Kalimantan2001 dengan k =

21 1, dataset Kalimantan2003 dengan k = 1, dataset Kalimantan2005 dengan nilai k = 1, dan 3, Kalimantan2007 dengan k = 1, dan Kalimantan2011 dengan k = 1. Grafik akurasi untuk jumlah tetangga k = 1 sampai k = 19 untuk dataset Kalimantan 2005 dapat dilihat pada Gambar 12, sedangkan untuk grafik dataset

Kalimantan lainnya dapat dilihat pada Lampiran 6 sampai Lampiran 14.

Gambar 12 Akurasi hasil klasifikasi untuk dataset akurasi Pulau Kalimantan tahun 2003

Dari Gambar 12 menunjukkan jumlah tetangga (k) = 1 memiliki akurasi tertinggi. Untuk nilai k = 3 sampai k = 19 akurasi cenderung menurun. Walaupun pada k = 7 mengalami kenaikan tetapi kenaikannya tidak lebih tinggi dari akurasi hasil klasifikasi dengan k = 1. Akurasi rata-rata hasil klasifikasi pada dataset

Pulau Sumatera setiap tahun dapat dilihat pada Tabel 13.

Tabel 13 Akurasi rata-rata hasil klasifikasi setiap tahun untuk dataset Pulau Sumatera

Dataset Akurasi (%) Sumatera2001 93.67 Sumatera2007 97.33 Sumatera2008 92.72 Sumatera2010 97.10 Rata-rata 95.20

Akurasi rata-rata tertinggi hasil klasifikasi untuk Pulau Sumatera adalah 97.10% yaitu pada dataset Sumatera2010. Akurasi rata-rata hasil klasifikasi untuk Pulau Sumatera adalah sebesar 95.20%. Akurasi rata-rata hasil klasifikasi setiap tahun untuk Pulau Kalimantan dapat dilihat pada Tabel 14.

22

Tabel 14 Nilai akurasi rata-rata hasil klasifikasi setiap tahun untuk dataset Pulau Kalimantan

Dataset Akurasi (%) Kalimantan2001 98.43 Kalimantan2003 99.74 Kalimantan2005 99.48 Kalimantan2007 98.19 Kalimantan2008 97.47 Kalimantan2010 92.46 Kalimantan2011 99.17 Kalimantan2012 99.79 Kalimantan2013 99.19 Rata-rata 98.66

Nilai akurasi tertinggi untuk Pulau Kalimantan adalah 99.79% pada dataset Kalimantan2012. Akurasi rata-rata hasil klasifikasi keseluruhan untuk Pulau Kalimantan adalah sebesar 98.66%.

Pemilihan Hasil Klasifikasi Terbaik

Setelah dilakukan klasifikasi menggunakan algoritme KNN dan dihitung nilai akurasinya maka didapat hasil klasifikasi dengan akurasi tertinggi. Untuk Pulau Sumatera akurasi tertinggi pada dataset pada tahun 2010 dengan nilai k = 1. Akurasi tertinggi hasil klasifikasi untuk Pulau Kalimantan pada dataset tahun 2001, 2007, dan 2011 dengan nilai k = 1, sedangkan dataset tahun 2005 pada k = 1 dan k = 3.

Pemilihan Data Baru

Pada tahapan ini yang dilakukan adalah memilih data baru yang akan digunakan sebagai data testing. Untuk data baru yang digunakan pada penelitian ini adalah data titik panas dan data non titik panas dari 1 Januari 2015 sampai 31 Maret 2015.

Penerapan Hasil Klasifikasi Terbaik

Pada tahapan ini, dilakukan pengujian pada hasil klasifikasi menggunakan data titik panas pada tahun 2015 yang akan digunakan sebagai data testing dan

dataset Kalimantan tahun 2005 sebagai data training. Penggunaan dataset

Kalimantan 2005 karena menghasilkan hasil klasifikasi dengan akurasi tertinggi untuk Pulau Kalimantan. Hasil matriks confusion hasil klasifikasi data baru 2015 untuk k = 1 dapat dilihat pada Tabel 15. Untuk hasil matriks confusion hasil klasifikasi data baru 2015 untuk k = 3 dapat dilihat pada Tabel 16.

23

Tabel 15 Matriks confusion hasil klasifikasi data baru Kalimantan 2015 dengan k = 1

Kelas Prediksi Kelas Aktual

False True

False 76 1

True 0 23

Tabel 16 Matriks confusion hasil klasifikasi data baru Kalimantan tahun 2015 dengan k = 3

Kelas Prediksi Kelas Aktual

False True

False 76 1

True 0 23

Matriks confusion untuk k = 1 dan k = 3 menghasilkan nilai yang sama. Klasifikasi menggunakan KNN menunjukan dapat mengklasifikasikan data dengan kelas true (titik panas) ke kelas true (titik panas) dan dapat mengklasifikasikan data dengan kelas false (bukan titik panas) ke kelas false

(bukan titik panas). Berdasarkan Tabel 15 dan Tabel 16 akurasi hasil klasifikasi dengan k = 1 dan k = 3 adalah

Akurasi=76+1+0+2376+23 =99% (5) Akurasi hasil klasifikasi menggunakan KNN untuk dataset Kalimantan2005 yang dijadikan data training dan data titik panas tahun 2015 sebagai data testing

adalah 99%, untuk jumlah tetangga terdekat (k) = 1 dan (k) = 3. Hasil klasifikasi tertinggi untuk Pulau Sumatera tidak dapat digunakan sebagai data training

menggunakan data baru tahun 2015 karena proses klasifikasi pada dataset tersebut tidak dapat dilakukan di R.

Dokumen terkait