Algoritme Random Forest - Klasifikasi Lahan Gambut yang Terbakar di Kabupaten Ogan Komering Il

Data dibagi menjadi 10 kelompok percobaan dengan porsi 9/10 data digunakan sebagai data latih dan 1/10 data digunakan sebagai data uji. Artinya dari 9.745 piksel dataset diambil 8.770 piksel atau 8.771 piksel sebagai data latih dan sisanya sebanyak 975 piksel atau 974 piksel sebagai data uji. K-fold cross validation akan melakukan pengulangan percobaan sebanyak 10 kali, sehingga didapatkan data latih dan data uji yang berbeda. Contoh data latihdapat dilihat pada Lampiran 4.

Pembentukan model klasifikasi dilakukan menggunakan data latih. Sementara itu, hasil akurasi model klasifikasi diperoleh dari data uji. Data latih dari 10 kelompok percobaan akan dilatih menggunakan algoritme Random Forest dan C5.0. Proses klasifikasi sendiri dilakukan dengan menggunakan package yang telah disediakan pada perangkat lunak R.

Klasifikasi Menggunakan Algoritme Random Forest dan C5.0

Tahap selanjutnya setelah proses pembagian data latih dan data uji adalah melakukan klasifikasi dengan algoritme Random Forest dan C5.0. Pelatihan Random Forest dan C5.0 dilakukan dengan menggunakan package yang telah disediakan oleh perangkat lunak R yaitu packagerandomForest untuk klasifikasi menggunakan Random Forest dan package C5.0 untuk klasifikasi menggunakan C5.0.

1. Algoritme Random Forest

Dalam pengklasifikasian menggunakan Random Forest, jumlah tree yang akan dibangun sebanyak 100 dan pembagian untuk setiap node sebanyak 3, berdasarkan jumlah variabel penjelas. Pembangunan model tersebut dilakukan sebanyak 10 kali (10-fold). Pemodelan yang dijalankan di R ini tidak menghasilkan model berupa tree dan vote yang terpilih. Akurasi hasil klasifikasi training area (data uji) daridata citra satelit yang digunakandapat dilihat pada Tabel 4.

Tabel 4 Akurasi rata-rata hasil klasifikasi model Random Forest Fold Koefisien Kappa Akurasi Keseluruhan

(%) 1 0.95 96.31 2 0.95 96.21 3 0.97 97.44 4 0.96 96.92 5 0.97 97.54 6 0.98 98.15 7 0.97 97.84 8 0.96 97.13 9 0.97 97.43 10 0.97 97.64 Rata-rata 0.97 97.26

Berdasarkan Tabel 4, akurasi model klasifikasi tertinggi adalah pada fold ke-6 dengan nilai koefisien Kappa sebesar 0.98 dan akurasi keseluruhan sebesar 98.15%. Akurasi dari 10-fold tersebut dihitung dari data uji untuk dataset citra satelit yang digunakan. Akurasi rata-rata dari 10-fold adalah 97.26% dan nilai koefisien Kappa sebesar 0.97. Nilai akurasi rata-rata tersebut didapatkan dari jumlah akurasi seluruh dataset dibagi dengan jumlah percobaan (folds).

2. Algoritme C5.0

Algoritme C5.0 menghasilkan model klasifikasi berupa model pohon keputusan dan model berbasis aturan. Model berbasis aturan memiliki banyak aturan yang dapat disederhanakan dan dipangkas sehingga aturan yang diturunkan dapat berjumlah sedikit dari aturan yang dihasilkan oleh model berbasis pohon keputusan. Dari tahapan implementasi menggunakan algoritme C5.0 dengan menggunakan perangkat lunak R, diperoleh model berbasis pohon keputusan untuk dataset tiap fold. Akurasi model berbasis pohon keputusan dapat dilihat pada Tabel 5 sedangkan akurasi model berbasis aturan dapat dilihat pada Tabel 6.

Tabel 5 Akurasi rata-rata model berbasis pohon keputusan Fold Ukuran Pohon Koefisien Kappa Akurasi Keseluruhan (%) 1 63 0.95 96.41 2 63 0.95 96.31 3 59 0.97 97.54 4 63 0.97 97.54 5 60 0.96 97.33 6 55 0.96 97.13 7 58 0.96 97.23 8 54 0.96 96.92 9 60 0.97 97.64 10 45 0.96 97.33 Rata-Rata 0.96 97.14

Akurasi rata-rata yang diperoleh dari model pohon keputusan dari 10-fold pada Tabel 5 diatas sebesar 97.14% dan nilai koefisien Kappa sebesar 0.96. Sedangkan akurasi rata-rata model berbasis aturan sebesar 97.10% dan nilai koefisien Kappa sebesar 0.96 seperti diberikan pada Tabel 6.

Tabel 6 Akurasi rata-rata model berbasis aturan Fold Jumlah Aturan Koefisien Kappa Akurasi Keseluruhan (%) 1 32 0.95 96.21 2 31 0.95 96.21 3 28 0.97 97.44 4 28 0.96 97.13 5 33 0.96 97.33 6 26 0.96 97.33 7 31 0.97 97.53 8 32 0.96 97.02 9 27 0.97 97.64 10 27 0.96 97.12 Rata-Rata 0.96 97.10

Kecepatan dari suatu algoritme dapat dilihat dari penerapan model pada data baru yang akan diklasifikasi. Model yang dihasilkan dari pohon keputusan berupa sejumlah aturan. Semakin besar jumlah pohon dan aturan yang dihasilkan, maka semakin lama proses pengklasifikasian dilakukan. Berdasarkan hasil pada Tabel 5

19 dan Tabel 6, dapat dilihat bahwa ukuran pohon keputusan dan jumlah aturan yang dihasilkan pada fold ke-10 lebih sedikit dibandingkan dengan fold lainnya yaitu dengan ukuran pohon sebesar 45 pohon dan jumlah aturan sebanyak 27 aturan.

Analisis Perbandingan Model Klasifikasi

Evaluasi hasil klasifikasi dilakukan dengan melihat beberapa ukuran, yaitu akurasi, kesalahan komisi, kesalahan omisi, dan citra hasil klasifikasi. Nilai akurasi didapatkan dengan menggunakan Confusion matrix. Hasil akurasi dengan menggunakan algoritme C5.0 dan algoritme Random Forest terdapat pada Tabel 7. Hasil tersebut merupakan hasil rata-rata yang didapatkan dari 10-fold.

Tabel 7 Perbandingan akurasi algoritme C5.0 dan RF Algoritme Koefisien Kappa Akurasi Keseluruhan (%)

C5.0 0.96 97.10

RF 0.97 97.26

Berdasarkan hasil perbandingan dari algoritme RF dan C5.0 pada Tabel 7 di atas, dapat dilihat bahwa kedua algoritme tersebut memiliki akurasi dan nilai koefisien Kapa yang sangat besar. Dari kedua algoritme tersebut, diketahui bahwa selisih dari nilai akurasi keseluruhan sebesar 0.16 % dan nilai koefisien Kappa sebesar 0.01.

Algoritme RF menggunakan indeks gini untuk membagi kriteria dalam membangun pohon. Algoritme ini mengembangkan pohon dengan cara binary split. Variabel yang digunakan sebagai split dipilih secara acak. Sedangkan algoritme C5.0 biasanya digunakan untuk melakukan klasifikasi dengan data kategorikal dan membuat pohon dengan multi-split, ketika terdapat data numerik algoritme ini akan membuat pohon dengan binary split. Penggunaan binary split pada algoritme tersebut akan membuat atribut yang ada muncul beberapa kali di dalam pohon.

Tabel 8 dan Tabel 9 merupakan kesalahan komisi dan kesalahan omisi dari 2 algoritme yang digunakan berdasarkan pada Confusion matrix yang tertera pada Tabel 10 dan Tabel 11. Confusion matrix yang terdapat pada Tabel 10 dan Tabel 11 diperoleh dari salah satu data uji yang memiliki akurasi yang terbaik dari 10-fold. Untuk Confusion matrix dari masing-masing fold disajikan pada Lampiran 5 dan Lampiran 6. Kesalahan omisi dalam penelitian ini adalah jumlah kesalahan interpretasi dari kelas X dibagi dengan jumlah seluruh kelas yang diinterpretasi, sedangkan kesalahan komisi adalah jumlah kelas lain yang diinterpretasikan sebagai kelas X dibagi jumlah seluruh kelas yang diinterpretasikan.

Tabel 8 Kesalahan komisi algoritme C5.0 dan RF Kelas Kesalahan Komisi dari algoritme

C5.0 RF Sebelum Terbakar 1.6 0.8 Terbakar 7.66 2.99 Setelah Terbakar 1.6 2.4 Awan 0.83 1.25

Kesalahan komisi terbesar untuk algoritme C5.0 dan RF terdapat pada kelas terbakar. Kesalahan komisi terjadi karena terdapat piksel yang diklasifikasikan pada kelas yang salah di lapangan.

Tabel 9 Kesalahan omisi algoritme C5.0 dan RF Kelas Kesalahan Omisi dari algoritme

C5.0 RF

Sebelum Terbakar 1.99 1.59

Terbakar 1.36 2.16

Setelah Terbakar 7.52 3.17

Awan 0 0.42

Kesalahan omisi terbesar terdapat pada kelas setelah terbakar untuk algoritme C5.0 maupun algoritme RF. Kesalahan ini terjadi karena piksel-piksel suatu area di lapangan tidak diklasifikasikan pada kelas yang benar.

Tabel 10 Confusion matrix untuk classifier dari algoritme C5.0 Aktual Prediksi Sebelum Terbakar Terbakar Setelah Terbakar Awan Sebelum Terbakar 246 1 3 0 Terbakar 1 217 17 0 Setelah Terbakar 2 2 246 0 Awan 2 0 0 238

Tabel 11 Confusion matrix untuk classifier dari algoritme RF Aktual Prediksi Sebelum Terbakar Terbakar Setelah Terbakar Awan Sebelum Terbakar 248 0 1 1 Terbakar 0 227 7 0 Setelah Terbakar 1 5 244 0 Awan 3 0 0 237

Kesalahan komisi dan omisi biasa terjadi pada kelas setelah terbakar dan kelas terbakar. Hal ini dikarenakan terdapat kemiripan antara kelas setelah terbakar dan kelas terbakar. Kemiripan antara kelas setelah terbakar dan kelas terbakar menyebabkan kelas setelah terbakar sering diklasifikasikan menjadi kelas terbakar ataupun sebaliknya. Kemiripan antara kelas setelah terbakar dan kelas terbakar terletak pada warna yang di tunjukan pada citra satelit. Lahan bekas terbakar memiliki warna merah kecoklatan dan warna merah identik dengan kelas terbakar.

Hasil klasifikasi citra algoritme RF dan C5.0 dapat dilihat pada Gambar 11. Pada Gambar 11 dapat terlihat empat warna citra hasil klasifikasi yaitu hijau, merah terang, merah kecoklatan, dan putih. Warna hijau merepresentasikan daerah sebelum terbakar, merah terang merepresentasikan daerah terbakar, merah kecoklatan merepresentasikan daerah setelah terbakar dan warna putih ditandai dengan awan. Dari Gambar 5 juga dapat dilihat bahwa hasil klasifikasi sudah mendekati citra aslinya. Sehingga dapat dikatakan bahwa hasil klasifikasi dari algoritme RF dan algoritme C5.0 sudah cukup baik.

(a) (b) (c)

Gambar 11 Perbandingan citra hasil klasifikasi (a) Citra asli (b) menggunakan algoritme RF (c) menggunakan algoritme C5.0

Berdasarkan hasil klasifikasi yang dilakukan dengan algoritme Random Forest dan C5.0, dapat diketahui jumlah piksel dari masing-masing kelas. Jumlah piksel yang diperoleh dari masing-masing kelas dapat digunakan untuk mengestimasi luasan dari lahan gambut pada citra yang digunakan. Estimasi luasan lahan gambut dari masing-masing kelas diperoleh dengan cara mengalikan nilai piksel dengan resolusi spasial citra Landsat 7. Resolusi spasial citra Landsat 7 adalah × (900 m2). Tabel 12 dan Tabel 13 berikut ini merupakan estimasi luasan lahan gambut yang terbakar dengan menggunakan algoritme Random Forest dan C5.0.

Tabel 12 Estimasi luasan lahan gambut dengan algoritme RF Kelas Jumlah Piksel Estimasi Luasan

(km2) Estimasi Luasan (%) Sebelum Terbakar 7 781 523 7 003.371 67.04 Terbakar 803 353 723.0177 6.92 Setelah Terbakar 2 211 481 1 990.333 19.05 Awan 811 053 729.9477 6.99

Tabel 13 Estimasi luasan lahan gambut dengan algoritme C5.0 Kelas Jumlah Piksel Estimasi Luasan

(km2) Estimasi Luasan (%) Sebelum Terbakar 7 911 106 7 119.995 68.16 Terbakar 766 550 689.895 6.60 Setelah Terbakar 2 394 778 2 155.300 20.63 Awan 534 976 481.478 4.61

Klasifikasi dengan algoritme C5.0 menghasilkan 27 aturan. Aturan ini didapat dari pohon keputusan yang dihasilkan dari model klasifikasi. Berikut 27 aturan yang dihasilkan dari algoritme C5.0:

1. JIKA Band4 > 94 DAN Band2 > 83 MAKA Awan

2. JIKA Band7 ≤ 86 DAN Band4 > 94 DAN Band2 ≤ 71 MAKA Sebelum Terbakar

4. JIKA Band4 > 119 DAN Band2 ≤ 81 MAKA Sebelum Terbakar 5. JIKA 86 < Band7 ≤ 101 DAN Band4 > 94 DAN 69 < Band2 ≤ 83

MAKA Sebelum Terbakar

6. JIKA Band7 ≤ 82 DAN Band4 > 149 DAN Band2 ≤ 123 MAKA Sebelum Terbakar

7. JIKA 40 < Band7 ≤ 89 DAN Band4 > 73 DAN 61 < Band2 ≤ 66 MAKA Sebelum Terbakar

8. JIKA 40 < Band7 ≤ 73 DAN Band4 ≤ 87 Setelah Terbakar

9. JIKA Band7 ≤ 79 DAN Band4 ≤ 94 DAN Band2 > 82 Setelah Terbakar

10.JIKA Band7 > 85 DAN Band4 ≤ 61 DAN Band2 ≤ 82 Setelah Terbakar

11.JIKA 40 < Band7 ≤ 78 DAN Band4 ≤ 82 MAKA Setelah Terbakar 12.JIKA Band7 ≤ 44 DAN Band2 > 83 MAKA Setelah Terbakar 13.JIKA Band7 > 86 DAN Band2 ≤ 69 MAKA Setelah Terbakar

14.JIKA 101 < Band7 ≤ 166 DAN 94 < Band4 ≤ 119 DAN Band2 ≤ 81 MAKA Setelah Terbakar

15.JIKA Band4 ≤ 94 MAKA Setelah Terbakar

16.JIKA Band7 > 161 DAN Band4 ≤ 94 MAKA Terbakar 17.JIKA Band7 > 166 DAN Band4 ≤ 149 MAKA Terbakar

18.JIKA Band7 > 79 DAN Band4 ≤ 70 DAN Band2 > 82 MAKA Terbakar 19.JIKA Band7 > 79 DAN Band4 ≤ 94 DAN Band2 > 87 MAKA Terbakar 20.JIKA Band7 > 79 DAN Band4 ≤ 73 DAN Band2 > 83 MAKA Terbakar 21.JIKA Band7 > 101 DAN 94 < Band4 ≤ 149 DAN Band2 > 81 MAKA

Terbakar

22.JIKA Band7 > 44 DAN 94 < Band4 ≤ 130 DAN Band2 > 83 MAKA Terbakar

23.JIKA Band7 > 78 DAN Band4 ≤ 69 DAN Band2 > 78 MAKA Terbakar 24.JIKA 78 < Band7 ≤ 89 DAN 61< Band4 ≤ 66 DAN Band2 > 61

MAKA Terbakar

25.JIKA 78 < Band7 ≤ 103 DAN 69 < Band4 ≤ 94 DAN Band2 > 75 MAKA Terbakar

26.JIKA 78 < Band7 ≤ 89 DAN 55 < Band4 ≤ 73 DAN 61 < Band2 ≤ 69 MAKA Terbakar

27.JIKA Band7 ≤ 86 DAN 94 < Band4 ≤ 122 DAN 71 < Band2 ≤ 83 MAKA Terbakar

Aturan dari algoritme C5.0 menghasilkan karakteristik untuk kelas sebelum terbakar, terbakar, dan setelah terbakar berdasarkan band yang digunakan. Karakteristik yang dihasilkan untuk kelas sebelum terbakar adalah band 7 memiliki nilai lebih besar dari 40 dan lebih kecil dari atau sama dengan 101, band 4 memiliki nilai lebih besar dari 73, dan band 2 memiliki nilai lebih kecil dari atau sama dengan 123. Karakteristik yang dihasilkan untuk kelas terbakar adalah band 7 memiliki nilai lebih besar dari 78, band 4 memiliki nilai lebih besar dari 94 dan lebih kecil dari atau sama dengan 149 dan band 2 memiliki nilai lebih besar dari 75. Karakteristik yang dihasilkan untuk kelas setelah terbakar adalah band 7 memiliki nilai lebih besar dari 40 dan lebih kecil dari atau sama dengan 166, band 4 memiliki nilai lebih kecil atau sama dengan 119 dan band 2 memiliki nilai lebih kecil dari atau sama dengan 82. Karakteristik yang dihasilkan untuk kelas awan adalah band 4 memiliki nilai lebih besar 94, dan band 2 memiliki nilai lebih besar 83.

23 Dari aturan-aturan yang dihasilkan oleh algoritme C5.0 dapat disimpulkan bahwa kelas sebelum terbakar memiliki nilai band 4 yang lebih besar dari band 7, kelas terbakar memiliki nilai band 7 yang lebih besar dari band 4, kelas setelah terbakar berada di pertengahan nilai band dan kelas awan memiliki nilai band 2 yang lebih besar dari band lainnya.

Aturan yang dihasilkan dari algoritme ini dapat dimanfaatkan untuk mendeteksi adanya kebakaran di lahan gambut pada citra satelit. Aturan ini dapat memberikan kemudahan dalam mendapatkan informasi mengenai area yang terbakar, sebelum terbakar, dan telah terbakar. Kemudahan tersebut berupa waktu yang singkat untuk mendeteksi terjadinya kebakaran lahan gambut pada citra satelit.

5 KESIMPULAN

Simpulan

Penelitian ini berhasil menerapkan algoritme RF dan C5.0untuk klasifikasi area lahan gambut yang terbakar di kabupaten Ogan Komering Ilir, Sumatera Selatan. Nilai akurasi rata-rata dari kedua algoritme sangat besar, namun akurasi rata-rata pada algoritme RF lebih baik dari algoritme C5.0 yaitu sebesar 97.26% dan nilai kappa sebesar 0.97, sedangkan nilai akurasi rata-rata yang dihasilkan algoritme C5.0 sebesar 97.10% dan nilai Kappa sebesar 0.96. Hasil klasifikasi citra dari kedua algoritme tersebut menunjukan bahwa terdapat kemiripan piksel antara lahan setelah terbakar dengan lahan terbakar. Hal ini disebabkan karena lahan bekas terbakar memiliki warna merah kecoklatan dan warna merah identik dengan kelas terbakar.

Selain itu, hasil penelitian menunjukan bahwa estimasi luasan lahan gambut pada kelas terbakar dengan menggunakan algoritme RF mencapai 723.0177 km² (6.92%) dan mencapai 689.895 km² (6.60%) dengan menggunakan algoritme C5.0. Sedangkan estimasi luasan lahan gambut untuk kelas setelah terbakar mencapai 1990.333 km² (19.05%) dengan algoreitme RF dan mencapai 2155.300 km² (20.63%) dengan menggunakan algoritme C5.0. Perbedaan tersebut terlihat karena adanya piksel-piksel pada kelas terbakar yang terdapat di antara kelas setelah terbakar dan sebaliknya.

Saran

Dalam penelitian ini pengklasifikasian citra satelit dilakukan dengan mengelompokkan piksel-piksel citra berdasarkan nilai kecerahan piksel (digital number). Penelitian lanjutan diharapkan dapat menggunakan nilai reflektan dari citra. Selain itu, untuk memvalidasi hasil klasifikasi pada citra satelit serta estimasi luasan lahan gambut yang terbakar sebaiknya dilakukan cek kondisi di lapangan.

Dalam dokumen Klasifikasi Lahan Gambut yang Terbakar di Kabupaten Ogan Komering Ilir Menggunakan Algoritme Random Forest dan Algoritme C5.0. (Halaman 29-36)