KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN
GAMBUT DI SUMATERA DAN KALIMANTAN
MENGGUNAKAN ALGORITME RANDOM FOREST
RESA RUKMIGAYATRI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR 2015
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Prediksi Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Random Forest adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Desember 2015 Resa Rukmigayatri NIM G64134011
ABSTRAK
RESA RUKMIGAYATRI. Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Random Forest. Dibimbing oleh IMAS SUKAESIH SITANGGANG.
Pengelolaan lahan gambut dengan menanam jenis tanaman yang tidak sesuai karakteristik lahan gambut serta kebakaran menyebabkan lahan gambut mengalami degradasi. Titik panas merupakan suatu indikator kebakaran hutan dan lahan. Meskipun tidak semua titik panas diindikasikan sebagai kebakaran. Kemungkinan kemunculan titik panas dapat diprediksi berdasarkan karakteristik lahan gambut. Penelitian ini mengembangkan model klasifikasi dari kemunculan titik panas pada lahan gambut di Sumatera dan Kalimantan pada periode 2001 sampai 2014 menggunakan algoritme Random Forest. Algoritme ini merupakan pengembangan dari Classification and Regression Tree (CART). Penerapan algoritme Random Forest pada dataset menghasilkan akurasi rata-rata model klasifikasi tahun 2001 untuk dataset Sumatera sebesar 87.40% dan 72.50% untuk dataset Kalimantan. Penerapan algoritme Random Forest pada data baru tahun 2015 menggunakan model tahun 2001. Hasil penerapan algoritme Random Forest dalam mengklasifikasikan titik panas pada lahan gambut di Sumatera tahun 2015 adalah 60.80% dan akurasi pada data baru di Kalimantan tahun 2015 adalah 39.13%.
Kata kunci: model prediksi, random forest, titik panas
ABSTRACT
RESA RUKMIGAYATRI. Classification for Hotspot Occurences on Peatland in Sumatera and Kalimantan Using Random Forest Algorithm. Supervised by IMAS SUKAESIH SITANGGANG.
Peatland management by planting inappropriate plant with the characteristic of peatland and fire cause peatland degradation. A hotspot is an indicator of forest and land fires. However not all of the hotspot is indicated as fires. The possibility of hotspot occurrences can be predicted based on characteristics of peatland. This research developed a classification model of hotspots occurences on peatlands in Sumatera and Kalimantan in the period 2001 to 2014 using the Random Forest algorithm. This algorithm is an improvement of Classification and Regression Tree (CART). The implementation of the Random Forest algorithm on datasets result in an average accuracy of classification models in 2001 is 87.40% for Sumatera and 72.50 % for Kalimantan. The implementation using Random Forest algorithm on new data in 2015 using model of 2001. Random Forest algorithm result in classifying the hotspot in the peatland in Sumatera in 2015 was 60.80% and the accuracy of new data in Kalimantan in 2015 was 39.13%.
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada
Departemen Ilmu Komputer
KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN
GAMBUT DI SUMATERA DAN KALIMANTAN
MENGGUNAKAN ALGORITME RANDOM FOREST
RESA RUKMIGAYATRI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR 2015
Penguji :
1 Husnul Khotimah, SKomp MKom
Judul Skripsi : Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di
Sumatera dan Kalimantan Menggunakan Algortime Random Forest Nama : Resa Rukmigayatri
NIM : G64134011
Disetujui oleh
Dr Imas Sukaesih Sitanggang, SSiMKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah Subhana wa ta'ala.Shalawat serta salam semoga senantiasa dilimpahkan kepada Nabi Muhammad, keluarganya, sahabatnya, dan kepada kita yang selau berusaha menggapai ridha Allah.
Alhamdulillah atas bimbingan dan petunjuk dari Allah Subhana wa ta'alaserta bimbingan dari semua pihak, penyusunan tugas akhir yang berjudul“Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Random Forest” dapat diselesaikan. Tugas akhir ini tidak mungkin dapat diselesaikan tanpa adanya bantuan dari berbagai pihak. Oleh karena itu, penulis ingin mengucapkan terimakasih dan penghargaan yang setinggi-tingginya kepada:
Papa (Sabari Maryono), Mama (Aida Refni), adik-adikku Niken Safitri dan Wahyu Agung Wicaksono, serta keluarga yang selalu mendoakan, memberi nasihat, kasih sayang, semangat, dan dukungan sehingga penelitian ini bisa diselelsaikan.
Ibu Dr Imas Sukaesih Sitanggang, SSi MKom selaku pembimbing yang telah memberi saran, masukan dan ide-ide dalam penelitian ini.
Ibu Husnul Khotimah, Skomp Mkom dan Bapak Muhammad Asyhar Agmalaro, Ssi MKom sebagai penguji.
Pihak Wetlands International yang telah memberikan izin untuk menggunakan data lahan gambut Sumatera dan Kalimantan.
Teman seperjuangan elin, fitri, dan dhita yang telah memberikan semangat dan masukan.
Departemen Ilmu Komputer IPB, staf dan dosen yang telah banyak membantu selama masa perkuliahan hingga penelitian.
Semoga penelitian ini bermanfaat.
Bogor, Desember 2015 Resa Rukmigayatri
DAFTAR ISI
DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 1 Tujuan Penelitian 2 Manfaat Penelitian 2Ruang Lingkup Penelitian 2
METODE 2 Data Penelitian 2 Tahapan Penelitian 5 Pengumpulan Data 5 Praproses Data 6 Pembagian Data 6
Pembuatan Model Klasifikasi Menggunakan Algoritme Random Forest 6
Perhitungan Akurasi 8
Penerapan pada Model Data Baru 8
Peralatan Penelitian 8
HASIL DAN PEMBAHASAN 8
Praproses Data 8
Pembagian Data 12
Pembuatan model klasifikasi menggunakan algoritme Random Forest 12
Perhitungan Akurasi 14
Penerapan pada Model Data Baru 14
SIMPULAN DAN SARAN 15
Simpulan 15
Saran 15
DAFTAR PUSTAKA 16
DAFTAR TABEL
1 Atribut dari titik panas 2
2 Luas tipe lahan gambut di Sumatera 4
3 Luas tipe lahan gambut di Kalimantan 5
4 Akurasi rata-rata model klasifikasi untuk dataset tahun 2001 sampai
2014 12
5 Model klasifikasi terbaik pada datast Sumatera tahun 2001 13 6 Model klasifikasi terbaik pada datast Kalimantan tahun 2001 14 7 Confusion matrix untuk klasifikasi pada data Sumatera tahun 2015 14 8 Confusion matrix untuk klasifikasi pada data Kalimantan tahun 2015 15
DAFTAR GAMBAR
1 Lahan gambut di Sumatera 3
2 Lahan gambut di Kalimantan 3
3 Tahapan metode penelitian 5
4 Arsitektur umum Random Forest (Verikas et al.2011) 7 5 Zona sistem koordinat di Indonesia (Oswald dan Astrini 2012) 9
6 Jumlah titik panas per tahun 10
7 Hasil buffer titik panas 10
8 Hasil pembangkitan random point (non titik panas) disekitar titik
panas 11
DAFTAR LAMPIRAN
1 Lampiran 1 Akurasi model dataset pulau Sumatera tahun 2001 17 2 Lampiran 2 Akurasi model dataset pulau Sumatera tahun 2002 17 3 Lampiran 3 Akurasi model dataset pulau Sumatera tahun 2003 17 4 Lampiran 4 Akurasi model dataset pulau Sumatera tahun 2004 18 5 Lampiran 5 Akurasi model dataset pulau Sumatera tahun 2005 18 6 Lampiran 6 Akurasi model dataset pulau Sumatera tahun 2006 18 7 Lampiran 7 Akurasi model dataset pulau Sumatera tahun 2007 19 8 Lampiran 8 Akurasi model dataset pulau Sumatera tahun 2008 19 9 Lampiran 9 Akurasi model dataset pulau Sumatera tahun 2009 19 10 Lampiran 10 Akurasi model dataset pulau Sumatera tahun 2010 20 11 Lampiran 11 Akurasi model dataset pulau Sumatera tahun 2011 20 12 Lampiran 12 Akurasi model dataset pulau Sumatera tahun 2012 20 13 Lampiran 13 Akurasi model dataset pulau Sumatera tahun 2013 21 14 Lampiran 14 Akurasi model dataset pulau Sumatera tahun 2014 21 15 Lampiran 15 Akurasi model dataset pulau Kalimantan tahun 2001 21 16 Lampiran 16 Akurasi model dataset pulau Kalimantan tahun 2002 22 17 Lampiran 17 Akurasi model dataset pulau Kalimantan tahun 2003 22 18 Lampiran 18 Akurasi model dataset pulau Kalimantan tahun 2004 22
19 Lampiran 19 Akurasi model dataset pulau Kalimantan tahun 2005 23 20 Lampiran 20 Akurasi model dataset pulau Kalimantan tahun 2006 23 21 Lampiran 21 Akurasi model dataset pulau Kalimantan tahun 2007 23 22 Lampiran 22 Akurasi model dataset pulau Kalimantan tahun 2008 24 23 Lampiran 23 Akurasi model dataset pulau Kalimantan tahun 2009 24 24 Lampiran 24 Akurasi model dataset pulau Kalimantan tahun 2010 24 25 Lampiran 25 Akurasi model dataset pulau Kalimantan tahun 2011 25 26 Lampiran 26 Akurasi model dataset pulau Kalimantan tahun 2012 25 27 Lampiran 27 Akurasi model dataset pulau Kalimantan tahun 2013 25 28 Lampiran 28 Akurasi model dataset pulau Kalimantan tahun 2014 26 29 Lampiran 29 Contoh dataset sederhana Kalimantan 26
PENDAHULUAN
Latar BelakangIndonesia merupakan negara yang mempunyai lahan gambut seluas 32.656.106 Ha (Suwanto et al.2010). Penyebaran lahan gambut tersebut meliputi pulau Sumatera, Kalimantan, Sulawesi, Papua, dan Jawa. Gambut adalah material organik yang terbentuk dari sisa-sisa tumbuhan yang telah mengalami dekomposisi dan terakumulasi di daerah rawa atau genangan air (Suwanto et al.2010). Kemampuan gambut dalam menyerap air relatif tinggi, oleh karena itu lahan gambut alaminya tidak mudah terbakar. Namun, keseimbangan ekologis dapat terganggu dengan adanya konversi lahan atau pembuatan kanal. Pada musim kemarau, kondisi lahan gambut akan sangat kering sampai kedalaman tertentu dan hal ini yang menyebabkan lahan mudah terbakar. Terbakarnya lahan gambut mengakibatkan kerugian besar, seperti kebakaran lahan gambut yang terjadi di Riau pada bulan Maret tahun 2014.
Menurut Adinugroho et al.(2005) penyebab kebakaran lahan dapat diketahui melalui suatu indikator yaitu titik panas. Dengan indikator titik panas kebakaran hutan dapat diprediksi dan hal ini dapat membantu pencegahan terjadinya kebakaran. Salah satu teknik data mining yang dapat dilakukan adalah klasifikasi. Klasifikasi dilakukan untuk memprediksi kemunculan titik panas.
Penelitian mengenai model klasifikasi untuk titik panas yang dilakukan oleh Sitanggang dan Ismail (2011) menggunakan Decision Tree dengan hasil akurasi sebesar 63.17%. Penelitian Fernando dan Sitanggang (2014), pemodelan klasifikasi data spasial kemunculan titik panas dilakukan dengan menggunakan algoritme ID3. Penelitian tersebut bertujuan untuk membuat model klasifikasi dan memprediksi kemunculan titik api di Provinsi Riau pada tahun 2005. Penelitian berikutnya yang pernah dilakukan oleh Nurpratami dan Sitanggang (2015) menggunakan algoritme pohon keputusan untuk memprediksi kejadian titik panas pada Kabupaten Bengkalis, Provinsi Riau. Penelitian tersebut menggunakan 5-\ fold cross validation dengan rata-rata akurasi sebesar 89.04% untuk data latih dan 52.05% untuk data uji. Aturan-aturan klasifikasi dari ketiga penelitian tersebut baru diimplementasikan dalam bentuk single tree.
Pada penelitian ini akan dibangun pemodelan klasifikasi kemunculan titik panas pada lahan gambut di Sumatera dan Kalimantan menggunakan algoritme Random Forest. Pemodelan yang akan dibangun untuk memprediksi kemunculan titik panas yaitu dengan mengambil beberapa sampel acak sebagai data latih dan menggunakan teknik 10-fold cross validation. Algoritme Random Forest merupakan salah satu cara klasifikasi pengembangan dari Classification and Regression Tree (CART), yaitu dengan menerapkan metode bootstrap aggregating bagging dan random feature selection (Breiman 2001).
Perumusan Masalah
Rumusan masalah pada penelitian ini adalah bagaimana algoritme Random Forest digunakan untuk klasifikasi kemunculan titik panas pada lahan gambut di Sumatera dan Kalimatan.
2
Tujuan Penelitian Tujuan dari penelitian ini adalah:
1 Menerapkan algoritme Random Forest pada data titik panas di lahan gambut di Sumatera dan Kalimantan.
2 Evaluasi akurasi model klasifikasi untuk prediksi kemunculan titik panas di lahan gambut di pulau Sumatera dan Kalimantan.
Manfaat Penelitian
Manfaat dari penelitian ini adalah informasi model klasifikasi yang dihasilkan dapat digunakan untuk pencegahan kebakaran hutan oleh pihak berwenang.
Ruang Lingkup Penelitian Ruang lingkup dari penelitian ini adalah:
1 Pembentukan model klasifikasi menggunakan algoritme Random Forest pada data titik panas dan lahan gambut wilayah Sumatera dan Kalimantan.
2 Karakteristik lahan gambut yang dianalisis adalah tipe lahan gambut (legend), ketebalan gambut, dan tutupan lahan (landuse).
3 Implementasi klasifikasi model yang digunakan yaitu package randomForest yang tersedia di R.
METODE
Data PenelitianData yang digunakan pada penelitian ini adalah data lahan gambut pulau Sumatera dan Kalimantan dari tahun 1990-2002 yang didapatkan dari Wetlands International–Indonesia Programme (WI-IP) dalam format shp. Sedangkan data titik panas dari tahun 2001-2015 diperoleh dari FIRMS (Fire Information for Resource Management System) MODIS NASA dalam format csv.
Tabel 1 Atribut dari titik panas
No Atribut Tipe 1 Latitude Numerik 2 Longitude Numerik 3 Brigthness Numerik 4 Scan Numerik 5 Track Numerik 6 Acq_date Date
7 Acq_time Character varying (5) 8 Satelite Character varying (1) 9 Confidence Integer
10 Version Character varying (3) 11 Bright_T31 Numerik
3 Data titik panas terdiri dari 12 atribut dan tipe dari masing-masing atribut dapat dilihat pada Tabel 1. Sedangkan peta lahan gambut di Sumatera dan Kalimantan dapat dilihat pada Gambar 1 dan Gambar 2. Pemilihan atribut dari titik panas dan lahan gambut berdasarkan penelitian yang dilakukan oleh Sitanggang et al. (2012) serta berdasarkan ketersediaan data yang diperoleh dari WI-IP dan FIRMS.
Atribut titik panas (Tabel 1) yang digunakan untuk pengolahan data pada penelitian ini adalah Latitude, Longitude, dan confidence. Latitude dan Longitude dibutuhkan untuk menunjukkan posisi dari titik panas yang terjadi. Sedangkan confidence digunakan untuk seleksi titik panas yang diindikasikan sebagai kebakaran.
Gambar 1 Lahan gambut di Sumatera
4
Data lahan gambut berdasarkan tingkat dekomposisi bahan organiknya dibedakan menjadi 3 yaitu fibrists, hemists, dan saprists (Suwanto et al. 2010). Tipe lahan gambut fibrists adalah gambut yang masih muda dengan tingkat pelapukan awal dan lebih dari 3/4 bagian volumenya berupa serat kasar, air perasan berwarna bening/jernih. Tipe gambut hemists adalah gambut yang mempunyai tingkat pelapukan sedang, bagian yang masih berupa serat kasar sekitar 1/4 hingga kurang dari 3/4 bagian, air perasan berwarna coklat dan mengandung bahan yang tidak larut. Tipe gambut saprists adalah gambut yang tingkat pelapukannya sudah lanjut (matang), berupa serat kasar kurang dari 1/4 bagian, dan air perasan berwarna hitam. Tiga jenis lahan gambut yang berada di Sumatera dan Kalimantan dapat dilihat pada Gambar 1 dan Gambar 2. Pada Gambar 1 terdapat keterangan Fibrists/Saprists (60/40), sedang. Maksud dari keterangan tersebut adalah Fibrists dan Saprists adalah tipe lahan gambut, 60/40 merepresentasikan kombinasi dari Fibrists sebesar 60% dan Saprists sebesar 40%, kemudian "sedang" menunjukkan ketebalan dari lahan gambut tersebut. Ketebalan dari lahan gambut dibagi menjadi 5 yaitu sangat dangkal (D0), dangkal (D1), sedang (D2), dalam (D3), dan sangat dalam (D4). D0 merupakan kedalaman lahan gambut < 50 cm. D1 kedalaman lahan gambut antara 10-50 cm, kedalaman lahan gambut D2 100-200 cm, D3 sedalam 200-400cm, dan kedalaman lahan gambut D4 > 400 cm.
Pada Gambar 1 dan Gambar 2 terdapat keterangan mengenai tipe lahan gambut yang terdapat di Sumatera dan Kalimantan. Sedangkan pada Tabel 2 dan Tabel 3 dapat dilihat luas area (Ha) dari setiap tipe lahan gambut dari pulau Sumatera dan Kalimantan. Tipe lahan gambut yang berada di Sumatera berjumlah 28 dan tipe lahan gambut di Kalimantan berjumlah 7.
Tabel 2 Luas tipe lahan gambut di Sumatera
No Tipe Gambut Luas (Ha)
1 Hemists/Saprists (60/40), sedang 1490145.52 2 Saprists/min (50/50), dangkal 16859.44 3 Saprists/Hemists (60/40), sedang 18698.39 4 Saprists/min (30/70), sedang 9911.10 5 Saprists/min (90/10), sedang 178408.66 6 Hemists (100), dalam 2200.51 7 Hemists/Saprists (60/40), dalam 639263.34 8 Hemists (100), sedang 86697.37 9 Saprists/min (50/50), dalam 7748.19 10 Hemists/min (90/10), sangat dalam 30179.83 11 Hemists/Saprists (60/40), sedang 211082.31 12 Hemists/min (30/70), dangkal 308112.73 13 Hemists/Saprists (60/40), sangat dalam 957561.63 14 Saprists/Hemists (60/40), dalam 553762.97 15 Saprists/Hemists (60/40), sedang 236659.27 16 Hemists/min (90/10), dangkal 7950.21 17 Hemists/Saprists (60/40), dangkal 49355.05 18 Hemists/min (70/30), sedang 91797.22 19 Saprists/min (30/70), dalam 12671.89 20 Hemists/min (90/10), sedang 0.63 21 Hemists/min (50/50), dangkal 2218.86
5 22 Saprists/min (50/50), sedang 118152.46
23 Hemists/min (90/10), sedang 578525.94 24 Fibrists/Saprists (60/40), sedang 10721.84 25 Saprists/Hemists (60/40), sangat dalam 1181264.70 26 Hemists/min (30/70), sedang 308958.76
27 Saprists (100), sedang 87885.62
28 Saprists (100), dalam 35182.65
Tabel 3 Luas tipe lahan gambut di Kalimantan
No Tipe Gambut Luas (Ha)
1 Hemists/Fibrists 4070888.40 2 Hemists/Fibrists/Mineral 388442.91 3 Hemists/Mineral 922584.25 4 Saprists/Mineral 108626.03 5 Saprists/Hemists/Mineral 132833.32 6 Hemists/Saprists/Mineral 133670.40 7 Hemists/Fibrists/Saprists 3028.59 Tahapan Penelitian
Tahapan-tahapan yang dilakukan pada penelitian ini dapat dilihat pada Gambar 3.
Gambar 3 Tahapan metode penelitian Pengumpulan Data
Pada tahap pengumpulan data, semua data dari WI-IP dan FIRMS dikumpulkan untuk praproses data. Dalam penelitian ini terdapat 2 format data yang akan diproses yaitu dalam format csv dan shp. Terdapat perbedaan antara lahan gambut di Sumatera dengan lahan gambut di Kalimantan. Perbedaannya
6
yaitu pada data lahan gambut Sumatera terdiri dari 3 atribut yaitu legend, landuse, dan ketebalan. Sedangkan pada data lahan gambut di Kalimantan terdiri dari 2 atribut yaitu legend dan ketebalan. Perbedaan atribut pada data lahan gambut terjadi karena ketersediaan data yang diperoleh.
Praproses Data
Terdapat beberapa tahapan dalam praproses data yaitu pembersihan data, seleksi variabel data, dan penggabungan data. Pembersihan data dilakukan untuk menghilangkan missing value. Seleksi variabel data dilakukan untuk mendapatkan data yang relevan. Serta penggabungan data sesuai dengan bentuk yang digunakan. Variabel yang diseleksi meliputi legend, landuse, dan ketebalan. Pada tahapan ini dilakukan penambahan variabel class dan digunakan saat pembuatan model klasifikasi.
Pembagian Data
Pembagian data pada tahapan penelitian dibagi menjadi data latih dan data uji. Metode yang digunakan dalam pembagian data adalah K-fold cross validation dengan nilai K=10, sehingga 10% dari data akan dijadikan sebagai data uji. Menurut Fu (1994) K-fold cross validation merupakan metode yang membagi himpunan contoh secara acak menjadi K himpunan bagian.
Pembuatan Model Klasifikasi Menggunakan Algoritme Random Forest Algoritme Random Forest (RF) merupakan pengembangan dari metode Classification and Regression Tree (CART) dengan menerapkan metode bootstrap aggregating (bagging) dan random feature selection (Breiman 2001). Algoritme RF merupakan algoritme yang cocok digunakan untuk klasifikasi data yang besar dan pada algoritme RF tidak terdapat pruning atau pemangkasan variabel seperti pada algoritme decision tree. Metode RF menggabungkan banyak pohon (tree) tidak seperti single tree yang hanya terdiri dari satu pohon untuk membuat klasifikasi dan prediction class. Pada RF pembentukan tree dilakukan dengan cara melakukan training sampel data. Sampling with replacement adalah cara yang digunakan untuk mengambil sampel data. Pemilihan variabel yang digunakan untuk split diambil secara acak. Klasifikasi dijalankan setelah semua tree terbentuk. Penentuan klasifikasi pada RF ini diambil berdasarkan vote dari masing-masing tree dan vote terbanyak yang menjadi pemenang. Arsitektur umum dari RF dapat dilihat pada Gambar 4.
7
Gambar 4 Arsitektur umum Random Forest (Verikas et al.2011)
Berikut ini adalah prosedur atau algoritme untuk membangun Random Forest pada gugus data yang terdiri dari n amatan dan p peubah penjelas (Breiman 2001; Breiman dan Cutler 2003):
1 Lakukan penarikan contoh acak berukuran n dengan pemulihan pada gugus data. Langkah ini dinamakan dengan bootstrap (bag).
2 Dengan menggunakan contoh bootstrap, pohon dibangun sampai mencapai ukuran maksimum yaitu tanpa pemangkasan (pruning). Pembangunan pohon dilakukan dengan menerapkan random feature selection yaitu m peubah penjelas dipilih secara acak dimana m << p, selanjutnya pemilah terbaik dipilih berdasarkan $m$ peubah penjelas. Ulangi langkah 1 dan 2 sebanyak k kali untuk membuat sebuah forest yang terdiri dari k pohon. Contoh dataset sederhana dapat dilihat pada Lampiran 29.
Tahapan pembuatan model klasifikasi menggunakan algoritme Random Forest dilakukan setelah membuat pemodelan data latih menggunakan package randomForest di R. Pembentukan tree pada algoritme Random Forest dilakukan dengan cara melakukan training pada sampel. Variabel yang digunakan untuk split diambil secara acak dan klasifikasi dijalankan setelah semua tree terbentuk. Penentuan klasifikasi pada Random Forest ini diambil berdasarkan vote dari masing-masing tree dan vote terbanyak yang menjadi pemenang.
Pada pembentukan Random Forest menggunkan nilai Gini Index untuk menentukan split yang akan dijadikan root/node. Berikut ini adalah rumus-rumus untuk mencari nilai Gini Index (Yin 2013):
Gini S =1 - pi2 k
i=1
(1) dimana pi adalah probabilitas dari S milik class i. Setelah menghitung nilai Gini (S), langkah berikutnya adalah menghitung nilai GiniGain.
GiniGain S = Gini (S) – Gini (A,S) = Gini (S) - |𝑆𝑖|
|𝑆| Gini (𝑆𝑖) n
i=1
(2) dimana Si adalah partisi dari S yang disebabkan oleh atribut A.
8
Perhitungan Akurasi
Perhitungan akurasi dilakukan setelah proses klasifikasi selesai dilakukan. Perhitungan ini berfungsi menunjukkan tingkat kebenaran pengkalisifikasian data terhadap data yang sebenarnya. Perhitungan akurasi dilakukan dengan menggunakan rumus sebagai berikut:
Akurasi= data uji benar klasifikasi
jumlah total data uji × 100% (3) Setelah menghitung nilai akurasi dari setiap tahun maka dilakukan penghitungan nilai precision atau nilai presisi. Rumus untuk menghitung nilai presisi (Manning et al. 2008) sebagai berikut:
Akurasi= tp
tp + fp × 100% (4) dimana tp adalah nilai true positive dan fp adalah nilai false negative. Nilai tp merupakan nilai yang sama antara data latih (predictive) dengan data uji (reference). Nilai tp + fp pada rumus 4 merupakan jumlah keseluruhan data uji. Penerapan pada Model Data Baru
Penerapan model pada data baru tahun 2015 dilakukan setelah mendapatkan dataset dengan akurasi tertinggi (2001 sampai 2014) dari masing-masing pulau. Setelah itu dataset tersebut yang akan digunakan untuk memprediksi data baru tahun 2015.
Peralatan Penelitian
Perangkat lunak yang digunakan dalam penelitian ini adalah: • Sistem operasi : Windows 7 Ultimate
• Bahasa pemrograman : R
• Antarmuka bahasa pemrograman : R Studio
• Pengolahan data spasial : QuantumGIS versi 2.6.1 • Membaca titik panas : Microsoft Excel 2007 • Pengolahan query (manajemen basis data): PostgreSql versi 1.20
Perangkat keras yang digunakan dalam penelitian ini adalah komputer personal dengan spesifikasi:
• Prosesor : Intel Core i5- 2430M CPU @ 2.40 GHz • Memory : 4 GB
• System type : 64-bit operating system • VGA : NVDIA GeForce GT540M
HASIL DAN PEMBAHASAN
Praproses DataPraproses data merupakan tahapan untuk menyeleksi variabel. Tahapan ini menggunakan QuantumGIS dan PostgreSql dalam pengolahan data titik panas dan lahan gambut. Oleh karena itu, coordinate reference system (crs) atau sistem referensi koordinat kedua data tersebut harus sesuai yaitu ESPG:32647-WGS 84/UTM Zone 47N untuk Sumatera dan ESPG:32647-WGS 84/UTM Zone 49N
9 untuk Kalimantan. Operasi spasial antara kedua data tidak dapat dilakukan jika crs tidak sama. Bumi dibagi menjadi beberapa zona yaitu antara 01 sampai dengan 60 dengan satuan meter. Sistem koordinat di Indonesia paling cocok menggunakan crs WGS84 / EPSG:4326. Pembagian zona di Indonesia dapat dilihat pada Gambar 5. Pada sistem koordinat bumi dibagi menjadi dua bagian yaitu di atas khatulistiwa sebagai bagian utara disimbolkan dengan N serta dibagian selatan disimbolkan dengan S.
Gambar 5 Zona sistem koordinat di Indonesia (Oswald dan Astrini 2012) Langkah awal dalam praproses data yaitu seleksi titik panas yang berada di atas lahan gambut, kemudian memisahkan data titik panas per tahun. Data titik panas yang dipilih adalah data titik panas yang lengkap 12 bulan. Sehingga data titik panas yang akan diolah adalah data titik panas dari tahun 2001-2014. Pemisahan data titik panas per tahun dilakukan di Quantum GIS (QGIS). Berikut ini adalah operasi di QGIS untuk memisahkan data Sumatera dan Kalimantan tahun 2001:
“acq_date”< 2002
Jumlah titik panas per tahun Sumatera dan Kalimantan dapat dilihat pada Gambar 6. Klasifikasi titik panas pada lahan gambut dapat dilakukan setelah menambahkan atribut class T (untuk titik panas) dan F (untuk non titik panas) pada dataset. Penambahan class tersebut dilakukan menggunakan PostgreSql. Sebelum menambahkan class, tambahkan persebaran non titik panas yang diperoleh dari titik-titik di luar titik panas (hotspot) menggunakan QGIS. Persebaran ini didapat dengan cara membangkitkan titik acak (random point) di sekitar titik panas. Non titik panas tersebut dibangkitkan di luar buffer dengan distance sebesar 0.01 (dalam derajat). Hasil buffer titik panas dapat dilihat pada Gambar 7.
10
Gambar 6 Jumlah titik panas per tahun
Gambar 7 Hasil buffer titik panas
Titik panas berada di bagian tengah buffer, hasil buffer titik panas yang bertumpuk satu sama lain akan dilebur menggunakan operasi dissolve yang tersedia pada QGIS. Hasil dissolve digunakan untuk memotong lahan gambut menggunakan operasi difference pada QGIS. Hal ini dilakukan untuk menghindari bercampurnya non titik panas dengan titik panas. Data non titik panas didapatkan dengan membuat random point, jumlah titik disesuaikan dengan titik panas per tahun dengan nilai confidence > 70. Hasil pembangkitan random point (non titik panas) di sekitar titik panas dapat dilihat pada Gambar 8.
11
Gambar 8 Hasil pembangkitan random point (non titik panas) disekitar titik panas
Praproses selanjutnya dilakukan import data lahan gambut dan data titik panas yang sudah terdapat non titik panas ke PostgreSql. Berikut adalah query untuk menambahkan class T dan F:
update titikpanassumatera2_2001_rep set class=’T’;
update false_alarm_2001_rep set class=’F’;
kemudian membuat tabel target dengan query sebagai berikut: CREATE TABLE target2001_1 AS
SELECT gid,the_geom,longitude,latitude,confidence,class FROM titikpanassumatera2_2001_rep
Proses selanjutnya yaitu menggabungkan data non titik panas ke dalam tabel target. Penggabungan data dilakukan dengan menggunakan query :
INSERT INTO target2001_1 (gid,the_geom,class) SELECT gid,the_geom,class
FROM false_alarm_2001_rep;
Perbandingan jumlah titik panas (T) dan non titik panas (F) pada lahan gambut seimbang (tidak ada missing value). Langkah selanjutnya adalah rename gid pada target2001_1 menjadi gid2, kemudian tambahkan gid auto number dengan cara sebagai berikut:
ALTER TABLE target2001_1 ADD COLUMN gid BIGSERIAL PRIMARY KEY;
Hal ini dilakukan agar gid asli dari data target tidak berubah. Setelah semua tahapan tersebut, berikutnya adalah pembuatan dataset yang diambil dari tabel target dan tabel lahan gambut. Query yang digunakan sebagai berikut:
CREATE TABLE dataset1 AS
SELECT t.gid,t.gid2,t.the_geom,t.confidence,g.legend, g.landuse,g.ketebalan
FROM target2001_1 as t,gambutsumatera1_out as g
12
Dataset1 terdiri dari 7 variabel yaitu gid, gid2, the_geom, confidence, legend, landuse, dan ketebalan. Variabel legend menunjukkan tipe dari lahan gambut. Dataset yang akan diolah untuk klasifikasi terdiri dari 4 variabel yaitu class, legend, landuse, dan ketebalan. Query yang digunakan untuk membuat dataset tersebut sebagai berikut:
CREATE TABLE dataset3 AS
SELECT t.class,g.legend,g.landuse,g.ketebalan FROM target2001_1 as t,gambutsumatera1_out as g WHERE ST_Within(t.the_geom, g.the_geom);
Dataset3 digunakan untuk klasifikasi menggunakan algoritme Random Forest. Pembagian Data
Pembagian data latih dan data uji pada dataset menggunakan 10-fold cross validation. Data yang digunakan merupakan dataset yang sudah tidak mengandung missing value. Dataset dibagi menjadi 10 bagian (fold). Pembentukan model klasifikasi dilakukan menggunakan data latih. Sedangkan hasil akurasi model klasifikasi diperoleh dari data uji.
Pembuatan model klasifikasi menggunakan algoritme Random Forest Jumlah tree yang akan dibangun pada algoritme Random Forest sebanyak 100. Sedangkan pembagian untuk setiap node sebanyak 3, berdasarkan jumlah variabel penjelas. Berikut ini adalah kode yang digunakan untuk membangun model menggunakan algoritme Random Forest:
>library (randomForest) >set.seed(100)
>trainData1 <- fold1[1:3156,] >testData1 <- fold1[3157:3507,]
>rf1<-randomForest(CLASS~ .,data=trainData1, ntree=100, mtry=3)
>tmp.predict.rf1 <- predict(rf1, newdata = testData1, type = "class")
>conf.mat1 <- table(testData1$CLASS, tmp.predict.rf1, dnn = c("Prediction", "Reference"))
>accuracy.percent.test1<-
100*sum(diag(conf.mat1))/sum(conf.mat1)
Data yang digunakan untuk membangun model menggunakan package randomForest di R yaitu data latih yang diberi nama trainData1. Argumen yang digunakan untuk pembagian setiap node pada tree adalah mtry dan banyaknya jumlah tree yang dibangun ditunjukkan oleh argumen ntree. Pembangunan model tersebut dilakukan sebanyak 10 kali (10-fold) menggunakan algoritme Random Forest untuk setiap tahun (2001 sampai 2014). Hasil rataan model klasifikasi (data uji) dataset Sumatera dan Kalimantan dapat dilihat pada Tabel 4.
Tabel 4 Akurasi rata-rata model klasifikasi untuk dataset tahun 2001 sampai 2014 Dataset Akurasi rata-rata Sumatera
(%)
Akurasi rata-rata Kalimantan (%)
13 2002 87.25 58.79 2003 83.69 61.52 2004 85.51 61.48 2005 78.60 64.74 2006 87.30 60.26 2007 80.39 63.03 2008 78.21 54.08 2009 82.45 59.28 2010 79.37 67.71 2011 84.41 59.55 2012 83.77 59.56 2013 84.78 55.70 2014 81.75 58.01 Rata-rata 82.52 61.16
Pada Tabel 4 nilai akurasi rata-rata model klasifikasi dataset tertinggi untuk Sumatera 87.40% dan Kalimantan 72.50% di tahun yang sama yaitu tahun 2001. Pemodelan menggunakan algoritme Random Forest yang dijalankan di R ini tidak menghasilkan model berupa tree dan vote yang terpilih. Algoritme ini menghasilkan confusion matrix dari data latih dan data uji.
Confusion matrix untuk model klasifikasi terbaik pada dataset tahun 2001 di Sumatera Kalimantan Tabel 5 dan Tabel 6.
Tabel 5 Model klasifikasi terbaik pada datast Sumatera tahun 2001
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 463 464 74 55 87.78 60 40 9 9 84.75 2 486 438 83 49 87.50 47 55 11 5 86.44 3 471 451 81 53 87.31 52 50 5 11 86.44 4 479 443 78 56 87.31 49 56 10 3 88.98 5 475 451 79 51 87.69 54 48 9 7 86.44 6 470 455 75 56 87.59 54 47 10 7 85.59 7 462 452 83 59 86.55 61 47 5 5 91.53 8 482 442 79 53 87.50 49 54 12 3 87.29 9 472 448 79 57 87.12 51 53 7 7 88.14 10 480 452 76 54 87.76 48 51 8 5 88.39 Akurasi model klasifikasi tertinggi dari 10 fold pada Tabel 5 yaitu fold ke-2. Pada Tabel 5 dan 6 tersebut terdapat 4 kriteria yaitu TP (True Positive), TN (True Negative), FP (False Positive), dan FN (False Negative). TP adalah kasus dataset titik panas di lahan gambut diprediksi benar terdapat titik panas. TN diprediksi sebagai bukan titik panas yang ada di atas lahan gambut dan benar bukan titik panas yang berada di atasnya. FP merupakan prediksi bahwa terdapat titik panas, tetapi kenyataannya tidak terdapat titik panas di lahan gambut tersebut. Sedangkan FN adalah prediksi tidak ada titik panas, tetapi sebenarnya terdapat titik panas di lahan gambut. Pada Tabel 6 akurasi model klasifikasi tertinggi yaitu fold ke-5. Akurasi yang diperhatikan untuk dataset Sumatera dan Kalimantan adalah akurasi
14
dari data uji. Akurasi model klasifikasi dataset pulau Sumatera dan Kalimantan dari tahun 2001 sampai dengan 2014 dapat dilihat pada halaman Lampiran.
Tabel 6 Model klasifikasi terbaik pada datast Kalimantan tahun 2001
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 463 464 74 55 87.78 60 40 9 9 84.75 2 486 438 83 49 87.50 47 55 11 5 86.44 3 471 451 81 53 87.31 52 50 5 11 86.44 4 479 443 78 56 87.31 49 56 10 3 88.98 5 475 451 79 51 87.69 54 48 9 7 86.44 6 470 455 75 56 87.59 54 47 10 7 85.59 7 462 452 83 59 86.55 61 47 5 5 91.53 8 482 442 79 53 87.50 49 54 12 3 87.29 9 472 448 79 57 87.12 51 53 7 7 88.14 10 480 452 76 54 87.76 48 51 8 5 88.39 Perhitungan Akurasi
Proses klasifikasi dan pembuatan model telah dilakukan pada tahapan sebelumnya. Selanjutnya perhitungan akurasi dapat dilakukan untuk menunjukkan tingkat kebenaran pengklasifikasian data dengan terhadap data yang sebenarnya. Akurasi rata-rata dari data uji Sumatera didapatkan sebesar 87.40% dan akurasi rata-rata untuk Kalimantan sebesar 72.50%.
Penerapan pada Model Data Baru
Tahapan lebih lanjut pada penelitian ini akan dilakukan percobaan untuk dataset tahun 2015. Penerapan model pada data baru dapat dilakukan setelah mendapatkan akurasi model klasifikasi tertinggi dari dataset Sumatera dan Kalimantan. Oleh karena itu model yang diperoleh dari Sumatera dan Kalimantan adalah dataset tahun 2001, kemudian diterapkan pada data baru yaitu tahun 2015. Jumlah data tahun 2015 Sumatera yang akan dijadikan data uji adalah 1056 titik, terdiri dari titik panas dan non titik panas. Sedangkan jumlah data latih Sumatera tahun 2001 adalah 1174 titik. Jumlah data tahun 2015 Kalimantan yang akan dijadikan data uji adalah 46 titik dan jumlah data latih Kalimantan tahun 2001 adalah 1778 titik.
Tabel 7 Confusion matrix untuk klasifikasi pada data Sumatera tahun 2015
Prediction Reference
False True
False 432 96
15 Tabel 8 Confusion matrix untuk klasifikasi pada data Kalimantan tahun 2015
Prediction Reference
False True
False 15 8
True 20 3
Selanjutnya data latih dan data uji untuk pulau Sumatera dan Kalimantan tersebut diolah menggunakan algoritme Random Forest untuk mendapatkan nilai akurasi. Akurasi model pada data baru Sumatera tahun 2015 adalah 60.80%. Detil dari nilai confusion matrix data Sumatera dapat dilihat pada Tabel 7. Akurasi model pada data baru Kalimantan tahun 2015 adalah 39.13%. Detil dari nilai confusion matrix data Kalimantan dapat dilihat pada Tabel 8. Pada Tabel 7 menunjukkan bahwa semua data tahun 2015 di pulau Sumatera dengan class true (merupakan titik panas) diklasifikasikan benar sebanyak 210 titik panas. Sebaliknya terdapat 96 data dengan class bukan titik panas (false) diklasifikasi salah ke class titik panas (true). Pada Tabel 8 menunjukkan bahwa terdapat 8 titik dengan class bukan titik panas (false) diklasifikasi salah ke class titik panas (true). Sedangkan data titik panas (true) yang diklasifikasikan benar sebanyak 3 titik panas. Selain informasi dari tabel confusion matrix juga dapat dihitung nilai presisi (precision). Nilai presisi ini untuk melihat titik panas yang benar diklasifikasi berdasarkan class true. Nilai presisi pada data baru tahun 2015 di Sumatera adalah 68.63%. Nilai presisi data baru tahun 2015 di Sumatera tersebut menunjukkan keakuratan hasil akurasi klasifikasi. Sedangkan untuk data baru tahun 2015 di Kalimantan presisi atau keakuratan hasil klasifikasi untuk kemunculan titik panas adalah 27.27%.
SIMPULAN DAN SARAN
SimpulanPenelitian ini menerapkan algoritme Random Forest untuk klasifikasi kemunculan titik panas pada lahan gambut di Sumatera dan Kalimantan. Dataset kemunculan titik panas terdiri dari legend, landuse, ketebalan, dan class. Akurasi rata-rata dari hasil klasifikasi untuk memprediksi kemunculan titik panas tahun 2001 pada model yang menggunakan Random Forest adalah 87.40% untuk Sumatera dan 72.50% untuk Kalimantan. Kemudian model yang diperoleh dari dataset tahun 2001 tersebut diterapkan pada data baru tahun 2015. Akurasi model yang didapatkan untuk data baru tahun 2015 Sumatera yaitu 60.80% dan akurasi model untuk Kalimantan yaitu 39.13%. Model yang dihasilkan dari algoritme Random Forest untuk data baru Sumatera berhasil mengklasifikasikan class true (merupakan titik panas) sebanyak 210 titik. Sedangkan model yang dihasilkan dari algoritme Random Forest untuk data baru Kalimantan berhasil mengklasifikasikan class true (merupakan titik panas) sebanyak 3 titik.
Saran
Saran yang dapat dilakukan untuk penelitian selanjutnya yaitu pengembangan sistem berbasis web dengan menampilkan visualisasi klasifikasi titik panas dalam bentuk peta.
16
DAFTAR PUSTAKA
Adinugroho WC, Suryadiputra INN, Saharjo BH, dan Siboro L. 2005. Panduan Pengendalian Kebakaran Hutan dan Lahan Gambut.Proyek Climate Changes, Forest and Peatlands in Indonesia.Bogor (ID): Weylands International-Indonesia Programme dan Wildlife Habitat Canada.
Breiman L. 2001. “Random Forests” dalam: Machine Learning 45, pp. 11–13. Breiman L dan A Cutler. 2003. “Manual–Setting Up, Using, And Understanding
Random Forests V4.0”. [Internet]. [Diunduh tanggal 06/06/2015 ]. Dapat diunduh dari: https://www.stat.berkeley.edu/forests_V3.1.pdf.
– 2005. “Random Forest”. [Internet]. [Diunduh tanggal 6/06/2015 ].Dapat diunduh dari: https://www.stat.berkeley.edu/~breiman/.
Fernando V, Sitanggang IS. 2014. Klasifikasi Data Spasial untuk Kemunculan Hotspot di Provinsi Riau Menggunakan Algoritme ID3. Integrasi Sains MIPA untuk mengatasi Masalah Pangan, Energi, Kesehatan, Reklamasi, dan Lingkungan; 09-11 Mei 2014. Bogor, Indonesia. Bogor (ID): SEMIRATA, pp. 428-436. ISBN: 978-602-70491-0-9.
Fu L. 1994.Neural Network in Computers Intelligence. Singapura: McGraw-Hill. Nurpratami ID, Sitanggang IS. 2015. Classification Rules for Hotspot Occurences
Using Spatial Entropy-Based Decision Tree Algorithm. The 1 st International Symposium on LAPAN-IPB Satellite for Food Security and Environmental Monitoring. Bogor, Indonesia. Bogor (ID): Procedia Environmental Sciences, pp. 120-126. DOI: 10.1016/j.proenv.2015.03.016.
Oswald P, Astrini R. 2012. Tutorial QuantumGIS Tingkat Dasar Versi 1.8.0 Lisboa. Mataram (ID): GIZ Decentralization as Contribution to Good Governance (DeCGG).
Sitanggang IS, Ismail MH. 2011. “Classification model for hotspot occurences using a decision tree method” dalam: Geomatics, Natural Hazard and Risk 2 2, pp. 111-121. DOI: 10.1080/19475705.2011.565807.
Sitanggang IS, Yaakob R, Mustapha N, Ainuddin AN. 2012. Appclication Of Classification Algorithms in Data Mining for Hotspots Occurrence Prediction in Riau Province Indonesia dalam: JATIT 43(2), pp. 214-221. ISSN: 1992-8645.
Suwanto A, Maas A, Sutaryo D, Wijaya DY, Sartono D, Achsani H, Komarsa, Hastuti S, Soli TI. Profil Ekosistem Gambut di Indonesia. Jakarta (ID).
Verikas A, Gelzinis A, Becausekiene M. 2011. Mining data with random forest: A survey and result of new tests dalam: Pattern Recognition 44, pp. 330-349. DOI: 10.1016/j.patcog.2010.08.011.
17 Lampiran 1 Akurasi model dataset pulau Sumatera tahun 2001
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 463 464 74 55 87.78 60 40 9 9 84.75 2 486 438 83 49 87.50 47 55 11 5 86.44 3 471 451 81 53 87.31 52 50 5 11 86.44 4 479 443 78 56 87.31 49 56 10 3 88.98 5 475 451 79 51 87.69 54 48 9 7 86.44 6 470 455 75 56 87.59 54 47 10 7 85.59 7 462 452 83 59 86.55 61 47 5 5 91.53 8 482 442 79 53 87.50 49 54 12 3 87.29 9 472 448 79 57 87.12 51 53 7 7 88.14 10 480 452 76 54 87.76 48 51 8 5 88.39
Lampiran 2 Akurasi model dataset pulau Sumatera tahun 2002
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 2936 3074 397 501 87.00 347 315 52 54 86.20 2 2939 3074 397 498 87.04 353 316 51 48 87.11 3 2930 3066 386 526 6.80 317 351 35 65 86.98 4 2918 3089 357 544 86.96 307 353 39 69 85.94 5 2956 3050 405 497 86.94 329 336 47 56 86.59 6 2954 3053 378 523 86.96 2908 3082 384 534 86.71 7 2908 3082 384 534 86.71 337 340 32 59 88.15 8 2969 3043 407 489 87.03 333 345 43 47 88.28 9 2954 3046 404 504 86.86 31 1784 36 168 89.90 10 2974 3049 401 488 87.14 147 1144 572 153 86.65 Lampiran 3 Akurasi model dataset pulau Sumatera tahun 2003
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 2398 2587 371 582 83.95 250 296 45 69 82.73 2 2377 2602 386 573 83.85 277 271 40 72 83.03 3 2421 2577 363 577 84.17 232 301 58 69 80.76 4 2386 2594 362 596 83.87 258 295 48 59 83.79 5 2355 2600 399 584 83.45 293 262 38 67 84.09 6 2347 2578 388 625 82.94 270 310 23 57 87.88 7 2357 2588 370 623 83.28 258 299 42 61 84.39 8 2365 2601 392 580 83.63 289 273 33 65 85.15 9 2392 2585 375 586 83.82 256 294 45 65 83.33 10 2343 2614 359 624 83.45 260 278 48 72 81.76
18
Lampiran 4 Akurasi model dataset pulau Sumatera tahun 2004
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 3785 4313 418 964 85.42 404 495 41 114 85.29 2 3775 4298 459 948 85.16 451 466 44 93 87.00 3 3943 4164 571 802 85.52 445 456 76 77 85.48 4 3745 4383 373 979 85.74 432 469 42 111 85.48 5 3759 4370 361 990 85.75 402 502 34 116 85.77 6 3817 4254 500 909 85.14 449 461 52 92 86.34 7 3993 4142 609 736 85.81 450 446 70 88 85.01 8 4007 4116 605 752 85.69 425 482 64 83 86.05 9 3776 4356 395 953 85.78 405 474 42 133 83.40 10 3812 4292 424 958 85.43 386 508 43 111 85.31 Lampiran 5 Akurasi model dataset pulau Sumatera tahun 2005
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 7123 7690 1748 2333 78.40 797 862 197 244 79.00 2 7136 7691 1734 2333 78.74 794 856 216 234 78.57 3 7139 7685 1766 2304 78.46 808 843 203 246 78.62 4 7108 7754 1724 2308 78.66 808 830 189 273 78.00 5 7161 7676 1762 2295 78.53 793 883 176 248 79.81 6 7095 7752 1725 2322 78.47 811 842 178 269 78.71 7 7138 7682 1749 2325 78.44 783 885 181 251 79.43 8 7156 7732 1698 2308 78.80 755 866 201 278 77.19 9 7126 7738 1718 2312 78.67 799 821 220 260 77.14 10 7114 7683 1766 2337 78.29 793 873 175 253 79.56 Lampiran 6 Akurasi model dataset pulau Sumatera tahun 2006
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 7949 7867 1146 1173 87.21 839 933 129 114 87.94 2 7881 7945 1151 1158 87.27 905 859 120 131 87.54 3 7893 7917 1160 1165 87.18 895 874 124 122 87.79 4 7886 7928 1150 1171 87.20 902 863 134 116 87.59 5 7941 7892 1139 1163 87.31 846 909 135 125 87.10 6 7931 7911 1146 1147 87.36 866 879 139 131 86.60 7 7935 7883 1150 1167 87.22 854 922 120 119 88.14 8 7913 7941 1147 1134 87.42 885 854 133 143 86.30 9 7870 7947 1162 1156 87.22 915 855 111 134 87.84 10 7906 7949 1144 1136 87.43 883 853 129 150 86.15
19 Lampiran 7 Akurasi model dataset pulau Sumatera tahun 2007
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 1116 1213 242 321 80.53 132 125 27 38 79.81 2 1130 1204 241 317 80.71 117 137 25 43 78.88 3 1113 1217 242 320 80.57 136 125 23 38 81.06 4 1118 1213 234 327 80.60 124 130 30 38 78.88 5 1113 1204 250 325 80.12 131 134 19 38 82.30 6 1127 1209 230 326 80.77 123 132 36 31 79.19 7 1130 1196 241 325 80.43 113 145 25 39 80.12 8 1113 1207 243 329 80.22 131 131 26 34 81.37 9 1104 1208 241 339 79.94 135 135 23 29 83.85 10 1141 1199 229 329 80.75 104 144 35 33 78.48 Lampiran 8 Akurasi model dataset pulau Sumatera tahun 2008
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 183 186 52 54 77.68 22 19 7 5 77.36 2 193 183 50 49 79.16 17 26 5 5 81.13 3 190 178 59 48 77.47 22 21 6 4 81.13 4 187 198 47 43 81.05 23 13 6 11 67.92 5 199 181 51 44 80.00 15 22 10 6 69.81 6 184 184 56 51 77.47 27 18 6 2 84.91 7 187 184 57 47 78.11 24 17 6 6 77.36 8 187 182 59 47 77.68 26 17 6 4 81.13 9 201 168 61 45 77.68 15 31 4 3 86.79 10 190 190 50 47 79.66 21 17 7 6 74.51 Lampiran 9 Akurasi model dataset pulau Sumatera tahun 2009
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 3440 3542 711 786 82.34 399 379 79 86 82.50 2 3428 3563 689 799 82.45 400 381 78 84 82.82 3 3431 3543 689 816 82.25 388 409 70 76 84.52 4 3439 3577 674 789 82.75 388 381 79 95 81.55 5 3435 3572 674 798 82.73 387 388 77 91 82.18 6 3498 3493 717 771 82.45 367 407 94 75 82.08 7 3460 3543 692 784 82.59 371 396 80 96 81.34 8 3420 3566 680 813 82.39 386 400 65 92 83.35 9 3407 3580 675 817 82.40 394 381 75 93 82.18 10 3456 3539 680 812 82.42 351 415 77 91 82.01
20
Lampiran 10 Akurasi model dataset pulau Sumatera tahun 2010
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 1020 990 256 228 80.59 78 85 20 25 78.37 2 977 988 264 265 78.79 92 77 22 17 81.25 3 1015 986 264 229 80.23 82 78 23 25 76.92 4 975 998 250 271 79.11 85 81 22 20 79.81 5 1042 919 326 207 78.63 89 74 32 13 78.37 6 1007 996 250 241 80.31 82 80 25 21 77.88 7 943 1000 243 308 77.91 75 98 10 25 83.17 8 1048 915 333 198 78.71 93 70 33 12 78.37 9 978 1000 254 262 79.31 90 74 23 21 78.85 10 1018 979 259 238 80.07 79 89 24 16 80.77 Lampiran 11 Akurasi model dataset pulau Sumatera tahun 2011
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 3350 3129 695 463 84.84 371 325 94 59 81.98 2 3359 3117 710 451 84.80 368 327 89 65 81.86 3 3380 3066 734 457 84.40 362 352 91 44 84.10 4 3343 3101 731 462 84.38 388 335 76 50 85.16 5 3376 3082 721 458 84.56 363 348 92 46 83.75 6 3353 3087 723 474 84.33 374 357 76 42 86.10 7 3270 3148 698 521 84.04 400 329 68 52 85.87 8 3274 3127 673 563 83.82 352 369 74 54 84.92 9 3219 3194 621 603 83.97 332 381 47 89 83.98 10 3294 3106 724 517 83.76 391 339 74 41 86.39 Lampiran 12 Akurasi model dataset pulau Sumatera tahun 2012
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 3300 3663 485 857 83.84 357 416 50 100 83.75 2 3271 3673 490 871 83.61 379 402 49 93 84.62 3 3299 3653 477 876 83.71 347 417 67 92 82.77 4 3280 3646 487 892 83.40 354 435 46 88 85.48 5 3308 3655 483 859 83.84 344 421 55 103 82.88 6 3263 3691 483 868 83.73 386 390 50 97 84.07 7 3270 3664 487 884 83.49 378 414 49 82 85.81 8 3235 3729 453 888 83.85 378 377 55 113 81.80 9 3253 3689 474 889 83.59 369 388 63 103 82.02 10 3244 3673 471 919 83.27 352 426 44 99 84.47
21 Lampiran 13 Akurasi model dataset pulau Sumatera tahun 2013
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 4237 5257 337 1372 84.75 458 596 34 157 84.66 2 4228 5254 331 1390 84.65 471 597 42 135 85.78 3 4217 5285 324 1377 84.82 478 574 41 152 84.50 4 4198 5276 330 1399 84.57 488 586 32 139 86.27 5 4236 5243 341 1383 84.61 466 609 31 139 86.35 6 4224 5266 338 1375 85.01 471 590 30 154 85.22 7 4222 5277 331 1373 84.79 468 575 41 161 83.78 8 4225 5305 331 1342 85.07 474 546 42 183 81.93 9 4236 5283 313 1371 84.97 443 593 35 174 83.21 10 4209 5264 330 1402 84.54 474 596 34 139 86.08 Lampiran 14 Akurasi model dataset pulau Sumatera tahun 2014
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 10939 10082 2746 1919 81.84 1204 1117 325 208 81.32 2 10908 10055 2772 1951 81.61 1209 1156 287 202 82.87 3 10907 10113 2723 1943 81.83 1219 1089 345 201 80.87 4 10924 10051 2790 1921 81.66 1230 1136 293 195 82.90 5 10916 10086 2785 1899 81.76 1238 1101 298 217 81.96 6 10929 10095 2759 1903 81.85 1218 1101 315 220 81.25 7 10946 10044 2786 1910 81.72 1208 1143 297 206 82.38 8 10900 10099 2787 1900 81.75 1242 1097 287 228 81.96 9 10974 10068 2767 1877 81.92 1191 1108 327 228 80.55 10 10960 10068 2754 1904 81.87 1182 1142 306 224 81.43 Lampiran 15 Akurasi model dataset pulau Kalimantan tahun 2001
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 552 606 194 248 72.38 60 68 21 29 71.91 2 537 617 190 256 72.13 70 64 18 26 75.28 3 544 612 181 263 72.25 60 69 27 22 72.47 4 555 609 187 249 72.75 59 70 23 26 72.47 5 559 605 190 246 72.75 55 76 18 29 73.60 6 546 618 187 249 72.75 66 63 21 28 72.47 7 551 612 184 253 72.69 50 75 18 35 70.22 8 533 625 183 259 72.38 69 57 24 28 70.79 9 543 614 185 258 72.31 58 70 20 30 71.91 10 542 621 181 258 72.60 59 71 16 30 73.86
22
Lampiran 16 Akurasi model dataset pulau Kalimantan tahun 2002
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 4129 3792 2921 2616 58.86 454 417 347 278 58.22 2 4153 3790 2924 2591 59.02 430 419 344 303 56.75 3 4111 3793 2941 2613 58.73 472 416 327 281 59.36 4 4090 3788 2974 2606 58.54 493 421 294 288 61.10 5 4123 3791 2968 2576 58.81 460 418 300 318 58.69 6 4108 3790 2946 2614 58.69 475 419 322 280 59.76 7 4122 3808 2928 2600 58.92 461 401 340 294 57.62 8 4137 3780 2933 2608 58.83 446 429 335 286 58.49 9 4129 3773 2938 2618 58.72 454 436 330 276 59.49 10 4145 3776 2939 2604 58.83 438 433 329 290 58.46 Lampiran 17 Akurasi model dataset pulau Kalimantan tahun 2003
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 1214 998 816 581 61.29 145 107 84 65 62.84 2 1195 1004 805 605 60.93 137 112 84 68 62.09 3 1233 990 805 581 61.60 129 115 95 62 60.85 4 1177 1004 794 634 60.43 130 124 83 64 63.34 5 1227 993 812 577 61.51 134 113 87 67 61.60 6 1223 991 805 590 61.35 123 114 95 69 59.10 7 1213 1011 808 577 61.62 149 94 92 66 60.60 8 1175 1022 781 631 60.88 139 107 95 60 61.35 9 1218 992 813 586 61.24 141 113 87 60 63.34 10 1225 999 802 583 61.62 135 106 98 62 60.10 Lampiran 18 Akurasi model dataset pulau Kalimantan tahun 2004
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 2713 2052 1815 1179 61.39 285 245 199 134 61.41 2 2642 2116 1763 1238 61.32 291 241 191 140 61.65 3 2715 2083 1802 1159 61.84 307 207 219 130 59.56 4 2602 2178 1731 1248 61.61 318 217 185 143 61.99 5 498 7614 188 3813 66.97 283 271 183 126 64.19 6 2647 2153 1719 1240 61.86 275 242 197 149 59.91 7 2649 2115 1779 1216 61.40 287 244 173 159 61.53 8 2624 2163 1717 1255 61.70 299 232 199 133 61.53 9 2627 2151 1728 1253 61.58 298 234 198 133 61.65 10 2629 2163 1714 1261 61.70 293 232 202 128 61.40
23 Lampiran 19 Akurasi model dataset pulau Kalimantan tahun 2005
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 1263 877 742 385 64.68 124 103 93 43 62.53 2 1237 884 749 397 64.92 140 99 83 41 65.84 3 1257 879 748 383 65.38 130 101 87 45 63.64 4 1133 866 757 511 61.19 122 101 87 53 61.43 5 1249 883 750 385 65.26 138 97 85 43 64.74 6 1248 884 761 374 65.26 139 96 74 54 64.74 7 1236 885 758 388 64.00 151 94 78 40 67.49 8 1244 884 748 391 65.14 143 95 88 37 65.56 9 1251 871 753 392 64.95 136 109 82 36 67.49 10 1254 881 752 380 65.35 133 99 83 48 63.91 Lampiran 20 Akurasi model dataset pulau Kalimantan tahun 2006
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 4409 6391 2566 4563 60.24 502 716 288 487 61.11 2 4455 6355 2576 4543 60.29 458 737 293 505 59.96 3 4474 6305 2674 4476 60.12 530 702 280 481 61.82 4 4489 6331 2631 4478 60.35 485 698 301 509 59.36 5 4454 6344 2613 4518 60.23 479 716 288 510 59.96 6 4434 6344 2591 4560 60.11 479 751 275 488 61.72 7 4404 6366 2629 4530 77.32 521 689 277 506 60.71 8 4430 6408 2570 4521 60.45 482 692 291 528 58.91 9 4516 6332 2627 4454 60.51 485 682 320 506 58.55 10 4486 6336 2660 4455 60.33 515 685 280 505 60.45 Lampiran 21 Akurasi model dataset pulau Kalimantan tahun 2007
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 323 371 173 229 63.32 35 43 22 22 63.93 2 304 397 152 243 63.96 32 45 15 30 63.11 3 301 397 152 246 63.69 35 45 15 27 65.57 4 294 398 154 250 63.14 35 43 14 30 63.93 5 300 403 147 246 64.14 31 40 19 32 58.20 6 251 406 149 290 59.95 40 40 14 28 65.57 7 301 394 151 250 63.41 32 47 17 26 64.75 8 321 341 198 236 60.40 29 55 15 23 68.85 9 282 403 150 261 62.50 43 40 16 23 68.03 10 314 405 140 239 65.48 22 36 28 34 48.33
24
Lampiran 22 Akurasi model dataset pulau Kalimantan tahun 2008
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 207 190 174 158 54.46 26 19 22 14 26.00 2 162 276 91 200 60.08 11 28 10 32 48.15 3 207 244 125 153 61.87 24 23 13 21 58.02 4 229 180 180 140 56.10 29 20 25 7 60.49 5 256 147 216 110 55.28 30 16 26 9 56.79 6 255 174 189 111 58.85 35 13 29 4 59.26 7 255 141 222 111 54.32 37 11 31 2 59.26 8 229 188 171 141 57.20 19 29 17 16 59.26 9 155 281 93 200 59.81 20 24 7 30 54.32 10 196 226 137 170 57.89 17 31 11 22 59.26 Lampiran 23 Akurasi model dataset pulau Kalimantan tahun 2009
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 3688 3624 2511 2426 59.69 419 401 269 272 60.25 2 3709 3634 2496 2410 59.95 390 401 274 296 58.12 3 4066 3217 2881 2085 59.46 453 347 360 201 58.78 4 4590 2732 3374 1553 59.78 491 283 416 171 56.87 5 4214 3098 3018 1919 59.69 447 372 317 225 60.18 6 4159 3152 2987 1951 59.69 477 335 331 218 59.66 7 3707 3606 2519 2417 59.70 405 397 283 276 58.93 8 4082 3198 2923 2046 59.43 470 341 343 207 59.59 9 3678 3609 2537 2425 59.49 434 395 264 268 60.91 10 4121 3166 2963 1999 59.49 462 348 328 223 59.52 Lampiran 24 Akurasi model dataset pulau Kalimantan tahun 2010
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 86 77 45 36 66.80 11 9 5 3 71.43 2 85 75 48 36 65.57 11 10 3 4 75.00 3 86 74 48 36 65.57 9 11 3 5 71.43 4 92 73 46 33 67.62 7 13 4 4 71.43 5 89 62 61 32 61.89 13 6 7 2 67.86 6 90 75 48 31 67.62 10 8 5 5 64.29 7 88 76 46 34 67.21 12 10 4 2 78.57 8 89 81 41 33 69.67 10 5 9 4 53.57 9 94 69 50 31 66.80 6 9 8 5 53.57 10 89 74 55 34 64.68 9 5 2 4 70.00
25 Lampiran 25 Akurasi model dataset pulau Kalimantan tahun 2011
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 1122 1436 728 1041 59.12 126 170 70 114 61.67 2 1269 1276 877 905 58.82 141 131 119 89 56.67 3 1066 1541 625 1095 60.25 116 161 76 127 57.71 4 116 180 64 120 61.67 1074 1513 666 1074 59.79 5 1074 1513 666 1074 59.79 126 161 63 130 59.79 6 1087 1461 691 1088 58.89 125 177 74 104 62.92 7 1166 1347 804 1010 58.08 120 173 80 107 61.04 8 1066 1509 657 1095 59.51 120 177 61 122 61.88 9 1058 1540 636 1093 60.04 124 162 65 129 59.58 10 1087 1537 632 1073 60.61 95 166 69 149 54.49 Lampiran 26 Akurasi model dataset pulau Kalimantan tahun 2012
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 953 1796 503 1334 59.94 94 192 57 167 56.08 2 933 1776 516 1361 59.07 114 212 44 140 63.92 3 944 1782 508 1352 59.44 104 206 52 148 60.78 4 947 1802 497 1340 59.94 102 186 63 159 56.47 5 935 1775 511 1365 59.09 111 208 54 137 62.55 6 948 1790 506 1342 59.70 99 199 53 159 58.43 7 943 1793 509 1341 59.66 103 195 51 161 58.43 8 947 1772 505 1362 59.29 99 207 64 140 60.00 9 944 1793 499 1350 59.68 102 195 61 152 58.24 10 928 1801 498 1363 59.46 118 189 60 139 60.67 Lampiran 27 Akurasi model dataset pulau Kalimantan tahun 2013
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 699 441 543 307 57.29 62 42 80 38 46.85 2 688 361 640 301 52.71 84 50 55 33 60.36 3 687 431 564 308 56.18 73 51 60 38 55.86 4 550 512 492 436 53.37 50 66 36 70 52.25 5 681 435 557 317 56.08 77 48 66 31 56.31 6 638 444 561 347 54.37 85 48 53 36 59.91 7 644 443 544 359 54.62 72 47 72 31 53.60 8 692 434 551 313 56.58 67 49 72 34 52.25 9 669 386 617 318 53.02 87 51 52 32 62.16 10 683 434 564 317 55.91 74 49 59 32 57.48
26
Lampiran 28 Akurasi model dataset pulau Kalimantan tahun 2014
Fold Data latih Data uji
TP TN FP FN Akurasi TP TN FP FN Akurasi 1 4533 1797 3578 883 58.66 470 186 434 109 54.71 2 3565 2740 2693 1793 58.43 408 285 277 229 57.80 3 3589 2714 2714 1814 58.41 401 298 309 191 58.30 4 4025 2136 3251 1379 57.09 514 199 409 77 59.47 5 3534 2768 2647 1842 58.40 414 275 305 205 57.46 6 4456 1838 3539 958 58.33 480 192 426 101 56.05 7 3617 2624 2792 1758 57.84 420 311 268 200 60.97 8 3841 2370 3015 1565 57.56 393 319 291 196 59.38 9 4299 1946 3441 1105 57.87 505 188 420 86 57.80 10 3599 2710 2682 1800 58.47 373 324 279 223 58.13 Lampiran 29 Contoh dataset sederhana Kalimantan
No Ketebalan Tipe Class
1 50-100 Hemists/min T 2 50-100 Hemists/min T 3 50-100 Hemists/fib F 4 100-200 Hemists/fib T 5 100-200 Hemists/fib F 6 200-400 Hemists/fib F 7 400-800 Hemists/fib F 8 400-800 Hemists/min T 9 800-1200 Hemists/fib T 10 800-1200 Hemists/fib T
Diketahui dataset Kalimantan pada Lampiran 29: n = 10 baris
p=3 kolom m=2, m << p
1 Memilih contoh acak dari 10 baris dataset 2 Membangun sebuah “random” tree
a. Pilih m (2) atribut dari seluruh (3) atribut
b. Contoh: Ketebalan, Tipe: dari 2 atribut tersebut dihitung nilai Gini Index-nya. Nilai yang paling tinggi dijadikan node (split).
Gini index (class) P(T) = 6 10 = 3 5 P(F) = 4 10 = 2 5 Gini class =1 – [ (P(T))2 + (P(F))2 ] Gini class =1 – [ (3 5) 2 + (2 5) 2 ] Gini class =1 – [ 9 25 + 4 25 ]
27 Gini class =12 25= 0.48 P(T) = 6 10 = 3 5 P(F) = 4 10 = 2 5 Gini class =1 –[ (3 5) 2 + (2 5) 2 ] Gini class =1 –[ 9 25 + 4 25 ] Gini class =12 25= 0.48 Ketebalan: P(50-100) = 3 10 , T=2; F=1 P(100-200) = 2 10 , T=1; F=1 P(200-400) = 1 10 , T=0; F=1 P(400-800) = 2 10 , T=1; F=1 P(800-1200) = 2 10 , T=2; F=0 Gini index ketebalan:
Gini (ketebalan=50-100) =1 –[ (P(T|50-100))2 + (P(F|50-100))2 ] Gini (ketebalan=50-100) =1 –[ (2 3) 2 + (1 3) 2 ] Gini (ketebalan=50-100) =1 –[ (4 9) 2 + (1 9) 2 ] Gini (ketebalan=50-100) =4 9= 0.44 Gini (ketebalan=100-200) =1 –[ (P(T|100-200))2 + (P(F|100-200))2 ] Gini (ketebalan=100-200) =1 –[ (1 2) 2 + (1 2) 2 ] Gini (ketebalan=100-200) =1 2= 0.5 Gini (ketebalan=200-400) =1 –[ (P(T|200-400))2 + (P(F|200-400))2 ] Gini (ketebalan=200-400) =1 –[ (0)2 + (1)2 ] Gini (ketebalan=200-400) = 1-1 = 0 Gini (ketebalan=400-800) =1 –[ (P(T|400-800))2 + (P(F|400-800))2 ] Gini (ketebalan=400-800) =1 –[ (1 2) 2 + (1 2) 2 ] Gini (ketebalan=400-800) =1 2= 0.5 Gini (ketebalan=800-1200) =1 –[ (P(T|800-1200))2 + (P(F|800-1200))2 ] Gini (ketebalan=800-1200) =1 –[(2 2) 2 + (0)2 ] Gini (ketebalan=200-400) = 1-1 = 0
GiniGain (ketebalan)= Gini (class) – P(ketebalan) * Gini (ketebalan)
n i=1 GiniGain (ketebalan)= 0.48 - [ 3 10× 4 9+ 2 10× 1 2+ 1 10×0+ 2 10× 1 2+ 2 10×0] GiniGain (ketebalan)= 0.15
Gini index tipe:
Tipe:
P(Hemists/min) = 3
10 , T=3; F=0
P(Hemists/fib) = 7
28
Gini (tipe=Hemists/min) =1 –[ (P(T|Hemists/min))2 + (P(F|Hemists/min))2 ] Gini (tipe=Hemists/min) =1 –[ (3
3)
2 + (0)2 ] Gini (tipe=Hemists/min) = 0
Gini (tipe=Hemists/fib) =1 –[ (P(T|Hemists/min))2 + (P(F|Hemists/min))2 ] Gini (tipe=Hemists/min) =1 –[ (3 7) 2 + (4 7) 2 ] Gini (tipe=Hemists/fib) = 24 49= 0.49 GiniGain (tipe)= 0.48 - [ 3 10× 0+ 7 10× 24 49] GiniGain (tipe)= 0.48 – 0.343 = 0.137
Pilih nilai GiniGain yang paling tinggi nilainya, maka yang menjadi root untuk tree pertama adalah Ketebalan.
Berikutnya ambil baris yang ada 50-100:
No Ketebalan Tipe Class
1 50-100 Hemists/min T
2 50-100 Hemists/min T
3 50-100 Hemists/fib F
Gini index (class) P(T) = 2 3 P(F) = 1 3 Gini class =1 – [ (2 3) 2 + (1 3) 2 ] Gini class =1 – 5 9= 0.44 Gini index tipe:
P(Hemists/min) = 2
3 , T=2; F=0
P(Hemists/fib) = 1
3 , T=0; F=1
Gini (tipe=Hemists/min) =1 –[ (P(T|Hemists/min))2 + (P(F|Hemists/min))2 ] Gini (tipe=Hemists/min) =1 –[ (2
2)
2 + (0)2 ] Gini (tipe=Hemists/min) = 0
Gini (tipe=Hemists/fib) =1 –[ (P(T|Hemists/min))2 + (P(F|Hemists/min))2 ] Gini (tipe=Hemists/min) =1 –[ (0)2 + (1)2 ]
29 GiniGain (tipe)= 0.44 - [2 3× 0+ 1 3×0] GiniGain (tipe)= 0.44
No Ketebalan Tipe Class
7 400-800 Hemists/fib F
8 400-800 Hemists/min T
Gini index (class) P(T) = 1 2 P(F) = 1 2 Gini class =1 – [ (1 2) 2 + (1 2) 2 ] Gini class =1 –1 2= 0.5 Gini index tipe:
P(Hemists/min) = 1
2 , T=1; F=0
P(Hemists/fib) = 1
2 , T=0; F=1
Gini (tipe=Hemists/min) =1 –[ (P(T|Hemists/min))2 + (P(F|Hemists/min))2 ] Gini (tipe=Hemists/min) =1 –[ (0)2 + (1)2 ]
Gini (tipe=Hemists/min) = 0
Gini (tipe=Hemists/fib) =1 –[ (P(T|Hemists/min))2 + (P(F|Hemists/min))2 ] Gini (tipe=Hemists/min) =1 –[ (1)2 + (0)2 ] Gini (tipe=Hemists/fib) = 0 GiniGain (tipe)= 0.5 - [1 2× 0+ 1 2×0] GiniGain (tipe)= 0.5
30 Tree 1
Selanjutnya lakukan hal yang sama untuk membangun tree yang lainnya sebanyak k, dalam contoh ini k=3.
Tree yang ke-2 root-nya masih sama yaitu ketebalan (50-100 dan 200-400). Ambil baris yang ada 200-400:
No Ketebalan Tipe Class
6 200-400 Hemists/fib F
Tree 2
Tree yang ke-3 root-nya masih sama yaitu ketebalan (800-1200 dan 20-100). Ambil baris yang ada 80-1200:
No Ketebalan Tipe Class
9 800-1200 Hemists/fib T
10 800-1200 Hemists/fib T
31
Kombinasi tree yang terbentuk dapat menghasilkan ukuran dan bentuk yang berbeda-beda karena setiap pembentukan tree dilakukan penarikan contoh secara acak. Setelah tree-tree terbentuk dilakukan prediksi class terhadap 2 data uji seperti pada tabel di bawah ini.
No Ketebalan Tipe Class
1 500-1200 Hemists/min ?
2 400-800 Hemists/fib ?
Data uji no 1 dan 2 akan dicari class-nya, maka telusuri tree-tree yang telah dibuat.
Data uji no 1 Tree 1: T Tree 2: T Tree 3: T
Majority vote untuk data uji 1 adalah T (true) Data uji no 2
Tree 1: F
Tree 2: Tidak menghasilkan klasifikasi karena tidak ada atribut yang match Tree 3: Tidak menghasilkan klasifikasi karena tidak ada atribut yang match Majority vote untuk data uji 1 adalah F (false)