• Tidak ada hasil yang ditemukan

Pruning pada Fuzzy Decision Tree dalam Klasifikasi Data Iklim dan Titik Api di Daerah Tjilik Riwut, Palangkaraya, Kalimantan Selatan

N/A
N/A
Protected

Academic year: 2017

Membagikan "Pruning pada Fuzzy Decision Tree dalam Klasifikasi Data Iklim dan Titik Api di Daerah Tjilik Riwut, Palangkaraya, Kalimantan Selatan"

Copied!
58
0
0

Teks penuh

(1)

PRUNING

PADA

FUZZY DECISION TREE

DALAM

KLASIFIKASI DATA IKLIM DAN TITIK API DI DAERAH

TJILIK RIWUT, PALANGKARAYA, KALIMANTAN SELATAN

AKHMAD AKBAR

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

PRUNING

PADA

FUZZY DECISION TREE

DALAM

KLASIFIKASI DATA IKLIM DAN TITIK API DI DAERAH

TJILIK RIWUT, PALANGKARAYA, KALIMANTAN SELATAN

AKHMAD AKBAR

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

(3)

ABSTRACT

AKHMAD AKBAR. Pruning on Fuzzy Decision Tree in Classification of Climatology and Hotspot at Tjilik Riwut, Palangkaraya, South Kalimantan. Supervised by ANNISA.

Forest fire is influenced by several factors, such as humidity, solar radiation intensity, regional temperature, and rainfall. This research aimed at finding the information and knowledge from hotspot and climate data, especially those four attributes. The research data was taken from Tjilik Riwut, Palangkaraya, South Kalimantan in year 2001-2004. Data mining technique used for extracting the information and knowledge is classification using decision tree method. In this research, fuzzy aproach is adapted to solve uncertainty of data. To improve the accuracy of classification process, pruning tree method is utilized. Tree that has the highest accuracy is converted to be the rule. The formed rule shows that the amount of hotspot is inversely proportional with the scale of humidity. This research also proves that pruning process in a tree can improve the accuracy of classification process.

(4)

Judul Skripsi : Pruning pada Fuzzy Decision Tree dalam Klasifikasi Data Iklim dan Titik Api di Daerah Tjilik Riwut, Palangkaraya, Kalimantan Selatan

Nama : Akhmad Akbar

NRP : G64063468

Menyetujui:

Pembimbing

Annisa, S.Kom, M.Kom NIP 19790731 200501 2 002

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Agus Buono, M.Si, M.Kom NIP 19660702 199302 1 001

(5)

RIWAYAT HIDUP

Penulis yang dilahirkan di Kediri, Jawa Timur, pada tanggal 9 Juli 1987, merupakan anak ketiga dari tiga bersaudara dengan ayah bernama Slamet Riadi dan Ibu bernama Chadidjah. Pada tahun 2006, penulis lulus dari Sekolah Menengah Atas Negeri 1 Kediri dan diterima di Program Studi Ilmu Komputer, Institut Pertanian Bogor melalui jalur Seleksi Penerimaan Mahasiswa Baru (SPMB).

Selama aktif sebagai mahasiswa, penulis juga aktif di berbagai organisasi, di antaranya: LDK Al Hurriyah IPB, Kesatuan Aksi Mahasiswa Muslim Indonesia Komisariat IPB dan Daerah Bogor, Kaukus Pemuda dan Mahasiswa Demokrasi (KPMD) Bogor, dan beberapa organisasi mahasiswa lainnya. Di samping itu, penulis juga pernah bergabung dengan organisasi pemuda dengan nama Purna Paskibraka Indonesia Daerah Kota Kediri di bidang pembinaan SDM.

(6)

PRAKATA

Alhamdulillahi Rabbil ‘alamin. Segala puji dan syukur penulis panjatkan kepada Allah

Subhanahuwata’ala atas limpahan rahmat, kemurahan, dan hidayah-Nya sehingga tugas akhir dengan judul Pruning pada Fuzzy Decision Tree dalam Klasifikasi Data Iklim dan Titik Api di Daerah Tjilik Riwut, Palangkaraya, Kalimantan Selatan dapat diselesaikan. Shalawat serta salam juga penulis ucapkan kepada junjungan Nabi Muhammad Shallalahuwaalaihiwassalam beserta seluruh sahabat dan umatnya hingga akhir zaman.

Penyelesaian tugas akhir ini tidak terlepas dari bantuan beberapa pihak. Oleh karena itu, penulis ingin menyampaikan terima kasih kepada semua pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain:

1 Rama dan Umi sebagai motivasi terbesar dan sumber nasihat atas doa, bimbingan, kesabaran, dan keikhlasan mendidik penulis. Hal yang sama juga untuk kedua kakak tercinta dan keponakan-keponakan.

2 Ibu Annisa, S.Kom, M.Kom selaku dosen pembimbing yang selalu memberikan saran dan arahan selama penelitian dan penulisan tugas akhir ini.

3 Bapak Toto Haryanto, S.Kom, M.Si dan Bapak Endang Purnama Giri, S.Kom, M.Kom yang telah bersedia menjadi dosen penguji.

4 Seluruh dosen, staf pengajar, staf tata usaha, hingga cleaning service di Dept. Ilmu Komputer atas bantuan dan pelayanannya.

5 Rekan-rekan mahasiswa bimbingan Ibu Annisa, S.Kom, M.Kom terutama Remarchtito dan Dedek atas bantuan, informasi, saran dan kerjasamanya selama penyelesaian tugas akhir ini.

6 Rekan-rekan yang mengingatkan, membantu dan memberi motivasi dalam penyelesaian tugas akhir, yaitu Rahmat Firdaus, Satriyo, Fitri, Ust. Fendi, Danang, Mas Tulus, Mas Sugi, Cici, Ichi, Iin, Keke, Vida, Kang Jay, Kang Dadan, Arifin, dan Uda Redo.

7 Para ustad yang memberi suplemen rohani dengan sangat optimal dan ikhlas.

8 Rekan-rekan yang rela meminjamkan fasilitasnya untuk penyelesaian tugas akhir ini, yakni Didik Rahmawan, Mas Dito, dan Bang Nizar.

9 Keluarga besar LDK Al Hurriyyah, KAMMI IPB, KAMMI Daerah Bogor, KAMMI Wilayah Megapolitan, PIA Smas’t, dan BKB Nurul Fikri Bogor atas semua dukungannya.

10 Teman-teman Ilmu Komputer angkatan 43 yang tentu tidak bisa disebutkan satu persatu.

Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu selama pengerjaan penyelesaian tugas akhir ini yang tidak dapat disebutkan satu-persatu. Semoga penelitian ini dapat memberikan manfaat.

Bogor, Juni 2012

(7)

v

DAFTAR ISI

Halaman

DAFTAR TABEL ... ... vi

DAFTAR GAMBAR... ... vi

DAFTAR LAMPIRAN ... ... vi

PENDAHULUAN Latar Belakang ... ... 1

Tujuan ... ... 1

Ruang Lingkup ... ... 1

Manfaat Penelitian ... ... 1

TINJAUAN PUSTAKA Knowledge Data Discovery ... 1

Data Mining... ... 2

Klasifikasi... ... 2

Decision Tree... ... 2

Fuzzy ... ... 2

Fuzzy Decision Tree ... ... 3

Entropy dan Information Gain... 3

Threshold... ... 3

Fuzzy ID3 (FID3) ... 4

Overfitting ... ... 4

Pruning ... ... 4

METODE PENELITIAN Pembersihan Data ... ... 5

Transformasi Data ... ... 5

Aplikasi Teknik Data Mining ... ... 5

Representasi Pengetahuan ... 5

Lingkungan Pengembangan ... ... 6

HASIL DAN PEMBAHASAN Pembersihan data ... ... 6

Transformasi data ... 6

Data Mining ... ... 8

Training ... ... 8

Testing ... ... 10

Pruning ... ... 10

ChiSquare Pruning ... ... 10

Rule Post Pruning... .... 11

KESIMPULAN DAN SARAN Kesimpulan ... ... 12

Saran ... ... 12

DAFTAR PUSTAKA ... ... 12

(8)

vi

DAFTAR TABEL

Halaman

1 Contoh persebaran atribut untuk proses pruning chi square... 4

2 Tahapan-tahapan penelitian ... 5

3 Daftar nilai entropy dan information gain ... 9

4 Confusion matrix hasil uji pada tree ... 10

5 Sebaran nilai atribut Curah Hujan ... 10

6 Sebaran nilai atribut Curah Hujan setelah perhitungan ... 10

7 Confusion matrix hasil uji pada tree dengan pruning chi square ... 11

8 Confusion matrix hasil uji pada tree dengan rule post pruning... 11

9 Daftar nilai akurasi tree ... 11

DAFTAR GAMBAR

Halaman 1 Tahap-tahap dalam proses KDD (Han & Kamber 2001) ... 2

2 Metodologi penelitian ... 5

3 Himpunan fuzzy atribut penyinaran ... 7

4 Himpunan fuzzy atribut temperatur ... 7

5 Himpunan fuzzy atribut curah hujan ... 8

6 Himpunan fuzzy atribut kelembaban ... 8

7 Hasil ekspansi training set berdasarkan atribut Kelembaban ... 9

DAFTAR LAMPIRAN

Halaman 1 Contoh data mentah sebelum pembersihan data ... 15

2 Contoh data hasil proses pembersihan data ... 17

3 Contoh data hasil proses fuzzyfikasi dan data training ... 18

4 Struktur tree sebelum di-pruning ... 19

5 Struktur tree setelah chi square pruning. ... 20

6 Struktur tree setelah rule post pruning. ... 21

7 Aturan (rule) yang dihasilkan pada tree tanpa pruning. ... 22

8 Aturan yang dihasilkan pada tree dengan metode chi square pruning. ... 23

(9)

PENDAHULUAN

Latar Belakang

Kasus kebakaran hutan di Indonesia merupakan salah satu bencana alam yang sering terjadi. Beberapa faktor cuaca yang mempengaruhinya ialah temperatur, curah hujan, radiasi matahari, kelembaban, stabilitas udara, kecepatan angin dan arah angin secara langsung (Thoha 2001 dalam Dedek 2011).

Indikator kebakaran hutan yang bisa dijadikan acuan adalah jumlah titik api (hotspot). Hotspot merupakan titik-titik di permukaan bumi yang menjadi indikator adanya kebakaran hutan dan lahan. Salah satu cara pencegahan kebakaran hutan yang dapat dilakukan adalah dengan mengetahui hubungan antara faktor cuaca yang ada di suatu wilayah dengan jumlah hotspot yang muncul. Metode klasifikasi dengan menggunakan decision tree

dapat digunakan untuk membuat sebuah

classifier yang berguna untuk melihat pola / hubungan tersebut.

Data iklim dan hotspot sering kali tidak bisa didekati melalui pendekatan crisp (tegas). Hal ini dikarenakan nilai atribut yang sangat berdekatan mampu memberi pengaruh yang berbeda di dalam pembentukan hotspot. Untuk mengatasi hal tersebut, diperlukan pendekatan dengan kaidah fuzzy. Penerapan kaidah fuzzy di dalam suatu decision tree sering dikenal sebagai fuzzy decision tree.

Hasil dari klasifikasi dapat dilihat dari tingkat akurasi yang dihasilkan. Namun, sering kali model decision tree yang dihasilkan mengalami masalah overfitting. Overfitting di dalam decision tree menghasilkan suatu ke-adaan yang lebih kompleks daripada yang diperlukan. Hal ini juga membuat tingkat akurasi yang dihasilkan tidak cukup baik untuk mengklasifikasikan data baru. Oleh karena itu, diperlukan cara untuk meningkatkan akurasi dari model tree yang dihasilkan.

Salah satu metode yang bisa digunakan untuk meningkatkan akurasi dari tree adalah

pruning. Pruning bekerja dengan prinsip memangkas atau menyederhanakan struktur

tree. Pruning diharapkan mampu meningkatkan akurasi yang dihasilkan dalam proses klasifikasi secara signifikan.

Penelitian ini mencoba menemukan hubungan antara faktor-faktor cuaca dengan jumlah hotspot yang dibentuknya menggunakan teknik klasifikasi menggunakan konsep fuzzy

dengan metode decision tree. Untuk meningkatkan akurasi dalam proses klasifikasi,

diterapkan juga metode pruning. Model tree

dengan nilai akurasi tertinggi diharapkan mampu memberikan suatu model atau aturan yang bisa mengklasifikasikan jumlah hotspot

berdasarkan pola pada iklim di daerah tersebut.

Tujuan

Tujuan dari penelitian ini adalah:

1 Menerapkan teknik data mining berupa klasifikasi dengan metode fuzzy decision tree.

2 Menerapkan teknik pruning pada tree.

3 Menemukan aturan klasifikasi pada data titik api (hotspot) sehingga dapat diketahui kelas jumlah hotspot berdasarkan pada pola data iklim di daerah tersebut.

Ruang Lingkup

Ruang lingkup penelitian ini dibatasi pada:

1 Penerapan algoritme ID3 dalam Fuzzy Decision Tree pada data titik api (hotspot) di daerah Tjilik Riwut, Palangkaraya, Kalimantan Selatan.

2 Membangun suatu model klasifikasi untuk mengetahui tingkat potensi kebakaran hutan di daerah terkait. Hal ini meliputi informasi dari atribut temperatur, curah hujan, penyinaran matahari, dan kelembaban

3 Penelitian ini menggunakan teknik data mining yaitu klasifikasi dengan metode

decision tree. Namun, untuk mengatasi adanya ketidaktepatan, pendekatan fuzzy

digunakan sebagai bantuan.

4 Penerapan pruning (pemangkasan) tree

untuk menyederhanakan aturan klasifikasi yang ada.

Manfaat Penelitian

Penelitian ini diharapkan dapat menunjukkan potensi kebakaran hutan berdasarkan jumlah hotspot yang ada sehingga dapat menjadi alat bantu oleh pihak yang berwenang dalam mengantisipasi dan deteksi dini kebakaran hutan.

TINJAUAN PUSTAKA

Knowledge Data Discovery (KDD)

(10)

1 Pembersihan Data

Pembersihan terhadap data dilakukan untuk menghilangkan data yang tidak konsisten atau data yang mengandung

noise. 2 Integrasi data

Proses integrasi data dilakukan untuk menggabungkan data dari berbagai sumber.

3 Seleksi data

Proses seleksi data digunakan untuk mengambil data yang relevan digunakan dalam proses analisis.

4 Transformasi data

Proses mentransformasikan atau menggabungkan data ke dalam bentuk yang tepat untuk di-mining.

5 Data mining

Data mining merupakan proses penting yang menerapkan metode-metode cerdas untuk mengekstraksi pola-pola dalam data.

6 Evaluasi pola

Evaluasi pola diperlukan untuk mengidentifikasi beberapa pola yang menarik yang merepresentasikan pengetahuan.

7 Representasi pengetahuan

Penggunaan visualisasi dan teknik representasi untuk menunjukkan pengetahuan hasil penggalian gunung data kepada pengguna.

Tahapan di dalam proses KDD akan ditunjukkan oleh Gambar 1.

Gambar 1 Tahap-tahap dalam proses KDD (Han&Kamber 2001).

Data Mining

Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber

2001). Data mining merupakan kumpulan proses yang mengaplikasikan komputer dan berbagai macam teknik untuk menemukan informasi dari sekumpulan data. Data mining

dibagi menjadi dua kategori besar, yaitu

predictive data mining dan descriptive data mining. Predictive data mining berupaya menganalisis data dengan tujuan membuat suatu model dan memprediksi perilaku dari kumpulan data yang baru. Descriptive data mining lebih pada upaya menjelaskan sekumpulan data dengan ringkas yang menjelaskan sifat-sifat menarik dari data.

Klasifikasi

Klasifikasi adalah suatu cara yang digunakan untuk membedakan objek, kelas, atau konsep pada suatu ruang data. Klasifikasi bertujuan memodelkan suatu fungsi yang dapat digunakan untuk mengetahui kelas dari suatu objek yang kelasnya tidak dikenali.

Proses klasifikasi dibagi menjadi dua, yakni tahap learning dan testing (Han & Kamber 2001). Pada tahap learning, sebagian data yang telah diketahui label kelasnya (training set) digunakan untuk membentuk model. Selanjutnya, pada tahap testing, model yang sudah terbentuk diuji dengan menggunakan sebagian data lain (test set) untuk mengetahui akurasi dari model yang dihasilkan. Jika akurasi yang didapatkan mencukupi, model tersebut dapat dipakai untuk memprediksi kelas data yang belum diketahui.

Decision Tree

Decision tree merupakan suatu pendekatan yang sangat populer dan praktis dalam machine learning untuk menyelesaikan permasalahan klasifikasi. Metode ini digunakan untuk memperkirakan nilai diskret dari fungsi target. Fungsi pembelajaran direpresentasikan oleh sebuah decision tree (Liang 2005).

Decision tree merupakan himpunan aturan IF...THEN. Setiap pathdalam tree dihubungkan dengan sebuah aturan. Premis aturan terdiri atas sekumpulan node yang ditemui, sedangkan kesimpulan aturan terdiri atas kelas yang terhubung dengan leaf dari path (Marsala 1998 dalam Romansyah et al.2009).

Fuzzy

(11)

suatu himpunan tujuan dengan derajat keanggotaan tertentu (Smith 2003).

Secara formal, definisi dari himpunan fuzzy

adalah sebagai berikut:

Jika X merupakan suatu kumpulan objek yang secara umum dilambangkan dengan x, himpun-an fuzzy A pada X merupakan sebuah himpunan dengan formulasi sebagai berikut:

A = {(x, µA (x))| x ɛ X}

Nilai µA (x) disebut sebagai fungsi atau derajat

keanggotaan x dalam A yang memetakan X ke ruang keanggotaan M (Zimmerman 1991 dalam Smith 2003).

Fuzzy Decision Tree

Fuzzy Decision Tree merupakan perluasan ide dari teori klasik tentang proses klasifikasi yang kita kenal sebagai Decision Tree. Node

dari tree dengan derajat satu atau disebut daun (leaf) merupakan label dari konsep klasifikasi, sedangkan node dengan derajat lebih tinggi dibentuk dari sekumpulan aturan menggunakan

operator “OR”, “AND”, dan “NOT” (Rhyne &

Smith 1999 dalam Smith 2003).

Fuzzy Decision Tree memungkinkan untuk menggunakan nilai-nilai numeric-symbolic

selama konstruksi atau saat mengklasifikasikan kasus-kasus baru. Manfaat dari teori himpunan

fuzzy dalam decision tree ialah meningkatkan kemampuan dalam memahami decision tree

ketika menggunakan atribut-atribut kuantitatif. Bahkan dengan penggunaan teknik fuzzy dapat meningkatkan ketahanan saat melakukan klasifikasi kasus-kasus baru (Marsala 1998 dalam Romansyah et al 2009).

Entropy dan Information Gain

Information gain adalah suatu nilai statistik yang digunakan untuk memilih atribut yang akan mengekspansi tree dan menghasilkan node

baru pada algoritme ID3. Suatu entropy

dipergunakan untuk mendefinisikan nilai

information gain. Entropy dirumuskan sebagai berikut: ) ( log * )

( 2 i

N i i

s S P P

H

Pi adalah rasio dari kelas Ci pada himpunan

contoh S = {x1,x2,…,xk}.

S C x P

k

j j i i

 

 1

Untuk menghitung nilai information gain

dari suatu atribut A, digunakan persamaan sebagai berikut:

   ) ( ) ( | | | | ) ( ) , ( A Values v v v S H S S S H A S G

dengan bobot Wi =

|

|

|

|

S

S

v

adalah rasio dari data

dengan atribut v pada himpunan contoh.

Pada fuzzy ID3, fuzzy entropy dirumuskan sebagai berikut: ) ( log * ) ( )

( N 2 i

i i s

f S H S P P

H  

Untuk menentukan fuzzy entropy dan

information gain dari suatu atribut A pada algoritme fuzzy ID3 (FID3), digunakan persamaan sebagai berikut:

S S A S H N j ij C i N j ij f

 1  log2 

) , ( (5) ) , ( * | | | | ) ( )

( H S A

S S S

H S

G f v

N A v

v f

f  

Dengan µij adalah nilai keanggotaan dari pola

ke-j untuk kelas ke-i. Hf(S) menunjukkan

entropy dari himpunan S dari data pelatihan pada node. |Sv| adalah ukuran dari subset Sv

S

dari data pelatihan xj dengan atribut v. |S|

menunjukkan ukuran dari himpunan S

(Romansyah et al 2009).

Threshold

Jika proses learning dari FDT dihentikan sampai semua data contoh pada masing-masing

leaf-node menjadi anggota sebuah kelas, akan dihasilkan akurasi yang rendah. Oleh karena itu, untuk meningkatkan akurasinya, proses

learning harus dihentikan lebih awal atau melakukan pemangkasan tree secara umum (Liang 2005). Untuk itu, diberikan 2 (dua) buah

threshold yang harus terpenuhi jika tree akan diekspansi, yaitu:

Fuzziness control threshold (θr)

Jika proporsi himpunan data dari kelas Ck

lebih besar atau sama dengan nilai threshold

θr, ekspansi tree dihentikan. Sebagai contoh:

jika diberikan θr adalah 85%, pada sebuah

sub-dataset rasio dari kelas 1 adalah 90% dan kelas 2 adalah 10%, maka ekspansi tree

dihentikan.

Leaf decision threshold (θn)

Jika banyaknya anggota himpunan data pada suatu node lebih kecil daripada threshold θn, ekspansi tree dihentikan.

(12)

memiliki 600 contoh dengan θn adalah 2%.

Jika jumlah data contoh pada sebuah node lebih kecil dari 12 (2% dari 600), ekspansi

tree dihentikan (Romansyah et al. 2009).

Fuzzy ID3 (FID3)

Algoritme ID3 (Iterative Dichotomiser 3) pertama kali dikenalkan oleh Quinlan. Algoritme ini menggunakan teori informasi untuk menentukan atribut yang paling informatif. Namun, ID3 ternyata sangat tidak stabil dalam melakukan penggolongan karena adanya gangguan kecil pada data pelatihan. Logika fuzzy dapat memberikan suatu peningkatan dalam melakukan penggolongan di saat pelatihan. Algoritme fuzzy ID3 merupakan algoritme yang efisien untuk membuat suatu

fuzzy decision tree (Liang 2005).

Overfitting

Overfitting merupakan masalah yang sering muncul di dalam upaya klasifikasi. Overfitting

di dalam decision tree menghasilkan sesuatu yang lebih kompleks daripada yang dibutuhkan. Gejala yang ditunjukkan di dalam overfitting

memberi informasi kebaikan akurasi pada data training, namun memberikan akurasi yang buruk pada data testing. Di samping itu,

overfitting mengakibatkan semakin besar ukuran dari tree (ditinjau dari jumlah node-nya), justru memberi nilai akurasi yang rendah dalam proses klasifikasi. Pruning merupakan cara yang baik untuk menghindari atau mengatasi

overfitting. Pasca pruning tingkat akurasi dalam proses klasifikasi bisa meningkat (Tan et al

2005).

Pruning

Pruning (pemangkasan tree) merupakan bagian dari proses pembentukan decision tree. Saat pembentukan decisiontree, beberapa node merupakan outlier maupun hasil dari noise data. Penerapan pruning pada decision tree dapat mengurangi outlier maupun noise data pada

decision tree awal sehingga dapat meningkatkan akurasi pada klasifikasi data (Han & Kamber 2001 dalam Budi 2010).

Prinsip pruning terbagi menjadi dua: Pre-pruning dan post pruning. Pre-pruning

merupakan proses pemangkasan saat tree belum terbentuk secara sempurna. Salah satu metode

pre-pruning adalah metode chi square. Metode ini menghitung keterkaitan atau hubungan setiap atribut terhadap atribut kelasnya sehingga dapat diketahui apakah atribut yang bersangkutan bisa menjadi classifier yang baik atau tidak.

Misalkan didapatkan suatu atribut dengan m

kategori dan n kategori kelas. Langkah awal chi square adalah membentuk tabel sederhana seperti berikut:

Tabel 1 Contoh persebaran atribut untuk proses

pruning chi square

Kate-gori1

Kate-gori 2

Kate- gori m

Jumlah

K 1 E11 E12 E13 ∑1m

K n E21 E22 E23 ∑2m

jumla h

Ea Eb Ec ∑1m+

∑2m Lalu, dengan melihat pada tabel sebaran chi square , X2= {α;(m-1)*(n-1)}

Kemudian, dilakukan perhitungan seperti berikut:

e11 = (∑1m * Ea ) / (∑1m+ ∑2m)

e12 = (∑1m * Eb ) / (∑1m+ ∑2m)

e13 = (∑1m * Ec ) / (∑1m+ ∑2m)

e21 = (∑2m * Ea ) / (∑1m+ ∑2m)

e22 = (∑2m * Eb) / (∑1m+ ∑2m)

e23 = (∑2m * Ec) / (∑1m+ ∑2m)

Berikutnya adalah menghitung nilai X2dari data berikut:

X2hitung= (E11- e11)2 / e11 + (E12- e12)2 / e12 +

(E13- e13)2 / e13 + (E21- e21)2 / e21 +

(E22- e22)

2

/ e22 + (E23- e23)

2 / e23

Kemudian, dibandingkan nilai X2 dengan nilai X2hitung. Jika didapatkan nilai X2hitung yang lebih besar dari X2, atribut yang bersangkutan tidak bisa dihilangkan dalam proses pengembangan tree. Namun, jika nilai X2 hitung lebih kecil dari X2, atribut tersebut bisa diabaikan di dalam proses ekspansi tree.

Berbeda prinsip dengan pre-pruning, post pruning bekerja setelah tree terbentuk dengan sempurna. Salah satu metode dari post pruning

adalah rule post pruning. Metode ini berusaha untuk menyederhanakan rule dengan me-motong antecedent atau leaf pada model tree

dengan prinsip seperti berikut (Mitchell 1997):

1 Infer tree as well as possible.

2 Convert tree to equivalent set of rules. 3 Prune each rule by removing any

(13)

4 Sort final rules by their estimated accuracy and consider them in this sequence when classifying.

Metode rule post pruning membutuhkan suatu alat bantu berupa validation set. Validation set merupakan bagian dari training set yang digunakan sebagai objek uji awal dari

rule yang dihasilkan dari proses pruning.

Sebagai contoh, jika didapatkan suatu rule

yang menyatakan R1 = “ If A and B and C Then

D “, metode rule post pruning membuat rule

tersebut menjadi R2 = “If A and B Then D”. Kemudian, R2 diujikan terhadap validation set

dan diperhatikan apakah nilai akurasi yang dihasilkan oleh R2 lebih baik daripada R1. Jika nilai akurasi R2 lebih baik daripada R1, pruning

berhasil dan R2 digunakan. Namun, jika sebaliknya, R2 tidak digunakan.

METODE PENELITIAN

Tahapan yang dilakukan pada penelitian ini dapat dilihat pada Gambar 2. Tahap-tahap yang dilakukan di dalam penelitian ini dijelaskan sebagai berikut:

a Pembersihan data

Pembersihan data dilakukan jika terdapat

noise, nilai kosong (null value), atau duplikasi data. Pada tahap ini juga dipilih atribut yang dibutuhkan di dalam proses klasifikasi.

b Transformasi data

Data yang sudah dibersihkan kemudian diubah menjadi bentuk yang tepat untuk

di-mining. Pada proses ini, data iklim dan titik

api sudah ditransformasikan ke dalam bentuk fuzzy.

c Aplikasi teknik data mining

Pada data diterapkan teknik data mining. Untuk menemukan suatu model sistem atau aturan untuk klasifikasi, digunakan metode

fuzzy decision tree. Tahapan pada metode tersebut adalah sebagai berikut:

1 Menentukan banyaknya training dan

testing set yang akan digunakan.

2 Memilih besarnya threshold yang akan digunakan.

3 Membangun fuzzy decision tree dengan algoritme Fuzzy ID3.

4 Menerapkan proses pruning pada tree

yang terbentuk.

d Representasi pengetahuan

Tahap ini merupakan tahap akhir. Pada

Tabel 2 Tahapan-tahapan penelitian Langkah

ke-n Proses Penjelasan

1 Pengadaan data Data iklim dan hotspot siap untuk diolah.

2 Pembersihan data Pemilihan atribut data. Data yang mengandung noise, null value, atau duplikat dibersihkan.

3 Transformasi data Data diubah menjadi bentuk fuzzy.

4 Aplikasi data mining :

a. Pembagian data

b.Menentukan

threshold

c.Membangun

fuzzy decision tree

d.Pruning

e.Testing

Menentukan jumlah training set dan testing set yang akan dipakai.

Menentukan fuzziness control thres-hold (θr ) dan leaf

decision threshold (θn)

Konstruksi fuzzy decision tree dengan algoritme fuzzy ID3.

Menerapkan proses pruning pada tree yang terbentuk. Menguji model tree yang terbentuk menggunakan data uji. 5 Representasi

pengetahuan

(14)

tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika untuk selanjutnya dievaluasi hasil pengetahuan yang didapatkan.

Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

Lingkungan Pengembangan

Penelitian ini menggunakan perangkat keras dan perangkat lunak dengan spesifikasi sebagai berikut:

1 Perangkat keras

a Intel® Core i3 Processor @ 2.13 GHz.

b Memori DDR2 1 GB. c Harddisk 320 GB. d Keyboard dan mouse.

2 Perangkat lunak

a Windows 7 Professional Edition. b XAMPP versi 1.7.3.

c Microsoft Office 2007. d PHP 5.3.0.

e Notepad++.

HASIL DAN PEMBAHASAN

Pembersihan Data

Data pada penelitian ini merupakan nilai kuantitatif faktor-faktor cuaca pada daerah Tjilik Riwut, Palangkaraya, Kalimantan Selatan. Pencatatan dilakukan pada tahun 2001-2004 oleh Balai Besar Meteorologi dan Geofisika Wilayah III, Stasiun Meteorologi Tjilik Riwut. Pembersihan data diawali dengan memilih atribut apa saja yang akan dipakai sebagai alat untuk mengklasifikasikan data. Dari data, didapatkan enam atribut, yaitu: temperatur (˚C), curah hujan (mm), penyinaran (%),

kelembaban udara (%), tekanan udara (mb), dan kecepatan angin. Namun, untuk proses klasifikasi pada penelitian ini, atribut tekanan udara dan kecepatan angin tidak diikutsertakan. Hal ini dikarenakan interval antara nilai minimum dan maksimum pada kedua atribut tersebut sangat pendek.

Pada atribut kelembaban udara dan temperatur, diambillah nilai rata-ratanya. Hal ini sebagai representasi keteraturan dari kejadian yang menyangkut kedua atribut tersebut.

Pada tahap ini juga, dipilih record data dengan mempertimbangkan jumlah kelas. Hal

ini penting untuk membuat model sistem yang baik dalam proses klasifikasi. Karena jika terjadi ketidakseimbangan jumlah record kelas target, pemodelan yang dihasilkan akan kurang baik.

Selanjutnya, pembersihan data dilakukan terhadap data yang memiliki nilai kosong dan / atau duplikat. Setelah dilakukan pembersihan terhadap record yang mengandung nilai kosong dan / atau duplikat diperoleh data siap pakai sebanyak 250 record. Contoh hasil dari proses pembersihan data dapat dilihat pada Lampiran 2.

Transformasi Data

Penelitian ini menerapkan salah satu teknik

data mining, yaitu fuzzy decision tree. Oleh karena itu, data yang digunakan harus direpresentasikan ke dalam bentuk fuzzy. Proses diawali dengan membuat fungsi nilai keanggotaan (membership function) pada masing-masing atribut yang dipakai. Hal ini adalah bagian dari penerapan prinsip fuzzy yang menjadi pedoman penelitian.

Pada kasus-kasus tertentu yang menggunakan konsep fuzzy, tidak ditemukan referensi atau pakar yang mampu menjelaskan

range nilai setiap atribut sebagai pedoman pembentukan membership function. Hal ini bisa diatasi dengan cara lain, seperti survey, polling,

atau hasil dari proses learning (Suyanto 2008).

Pada penelitian ini, tidak didapati referensi ataupun pakar yang menjelaskan range nilai setiap atribut. Oleh karena itu, dilakukan eksperimen sebanyak tiga kali sebelum diformulasikan menjadi membership function

pada proses fuzzyfikasi.

Contoh transformasi data ke dalam bentuk

fuzzy pada atribut terpilih ialah sebagai berikut:

 Atribut penyinaran matahari

Atribut ini dibagi menjadi 4 kelompok. Rendah (x < 25%), sedang (25% <= x < 50%), tinggi (50% <= x < 75%), dan sangat tinggi (x >= 75%). Dari pembagian itu, dapat ditentukan

membership function dari himpunan fuzzy

rendah, sedang, tinggi, dan sangat tinggi untuk atribut penyinaran matahari seperti berikut:

(15)









50

;

0

50

40

;

10

40

40

25

;

1

25

15

;

10

15

15

;

0

)

(

x

x

x

x

x

x

x

x

sedang









75

;

0

75

65

;

10

65

65

50

;

1

50

40

;

10

50

40

;

0

)

(

x

x

x

x

x

x

x

x

tinggi





75

;

1

75

65

;

10

75

65

;

0

)

(

x

x

x

x

x

gi sangatting

Himpunan fuzzy untuk atribut penyinaran mataharidigambarkan melalui kurva berbentuk trapesium seperti pada Gambar 3.

Gambar 3 Himpunan fuzzy atribut penyinaran.

 Atribut temperatur

Pada atribut temperatur, dilakukan pem- bagian sebanyak 3 kelompok. Rendah (x < 23

˚C), sedang (23 ˚C <= x < 28 ˚C), dan tinggi (x >= 28 ˚C). Pembagian itu menghasilkan

membership function rendah, sedang, dan tinggi.





25

;

0

25

23

;

2

23

23

;

1

)

(

x

x

x

x

x

rendah









28

;

0

28

26

;

2

26

26

25

;

1

25

23

;

2

25

23

;

0

)

(

x

x

x

x

x

x

x

x

sedang





28

;

1

28

26

;

2

28

26

;

0

)

(

x

x

x

x

x

tinggi

Himpunan fuzzy untuk atribut temperatur digambarkan melalui kurva berbentuk trapesium seperti pada Gambar 4.

Gambar 4 Himpunan fuzzy atribut temperatur.

 Atribut curah hujan

(16)

Himpunan fuzzy untuk atribut curah hujan digambarkan melalui kurva berbentuk trapesium seperti pada Gambar 5.

Gambar 5 Himpunan fuzzy atribut curah hujan.

 Atribut kelembaban udara

Atribut kelembaban udara dibagi sebanyak 4 kelompok. Rendah (x < 25 %), sedang (25 % <= x < 50 %), tinggi (50 % <= x < 75 %), dan sangat tinggi (x >= 75 %). Pembagian tersebut menghasilkan membership function seperti berikut:





70

;

0

70

65

;

5

65

65

;

1

)

(

x

x

x

x

x

rendah









80

;

0

80

75

;

5

75

75

70

;

1

70

65

;

5

70

65

;

0

)

(

x

x

x

x

x

x

x

x

sedang









90

;

0

90

85

;

5

85

85

80

;

1

80

75

;

5

80

75

;

0

)

(

x

x

x

x

x

x

x

x

tinggi





90

;

1

90

85

;

5

90

85

;

0

)

(

x

x

x

x

x

gi sangatting

Himpunan fuzzy untuk atribut kelembaban udara digambarkan melalui kurva berbentuk trapesium seperti pada Gambar 6.

Gambar 6 Himpunan fuzzy atribut kelembaban.

 Atribut hotspot

Atribut hotspot berisi tentang kategori jumlah titik api atau hotspot. Atribut ini merupakan kelas target. Atribut ini diberikan

kode “1” dan “2”. Kelas “1” menunjukkan

bahwa jumlah hotspot sebanyak x ≤ 70. Kelas

“2” menunjukkan jumlah hotspot sebanyak x >

70.

Data atribut temperatur, curah hujan, kelembaban udara, dan penyinaran matahari

kemudian ditransformasikan menjadi bentuk

fuzzy dengan menghitung membership value

berdasarkan membership function pada setiap himpunan atribut. Selanjutnya, nilai yang dipakai di dalam proses pengklasifikasian adalah nilai dari membership value dari masing-masing atribut. Contoh hasil dari proses transformasi dapat dilihat pada Lampiran 3.

Data Mining

Pada tahap ini, dilakukan teknik data mining

menggunakan algoritme FID3 untuk membangun fuzzy decision tree (FDT). Data yang telah ditransformasi dibagi menjadi data latih (training set) dan data uji (test set). Pada penelitian ini, data latih yang digunakan sebanyak 80 % dari keseluruhan (200 record), sedangkan data uji yang digunakan sebanyak 20 % (50 record).

Training

Fase training dilakukan untuk membangun FDT dengan menggunakan algoritme FID3. Tahap training berfungsi untuk memodelkan algoritme yang dipakai dalam proses klasifikasi ini.

(17)

mampu merepresentasikan algoritme yang dipakai dengan baik.

Pada contoh training set tersebut, akan diterapkan algoritme fuzzy ID3 untuk mendapatkan model dan aturan klasifikasi. Adapun langkah-langkah pembentukan aturan klasifikasi dengan algoritme fuzzy ID3 adalah sebagai berikut:

1 Membuat root node dari semua data

training yang ada dengan memberi nilai derajat keanggotaan untuk semua record

sama dengan 1.

2 Menghitung fuzzy entropy dan

information gain dari training set yang ada. Hasil perhitungan fuzzy entropy dan

information gain akan ditunjukkan melalui Tabel 3.

Tabel 3 Daftar nilai entropy dan

information gain

Nilai Hasil

Fuzzy Entropy 0.9949

IG Penyinaran (S) 0.0163

IG Temperatur (T) 0.1134

IG Curah Hujan (CH) 0.0449

IG Kelembaban (L) 0.2041

3 Dari hasil perhitungan dipilih nilai

information gain yang terbesar, yaitu atribut Kelembaban. Atribut tersebut akan digunakan untuk mengekspansi tree

sebagai root-node. Namun, pada sub-node berikutnya atribut yang telah digunakan tidak dipakai lagi dalam mengekspansi tree.

4 Data training diekspansi berdasarkan atribut Kelembaban sehingga diperoleh gambar pembentukan tree seperti Gambar 7.

Gambar 7 Hasil ekspansi berdasarkan atribut Kelembaban.

Nilai derajat keanggotaan yang baru masing-masing record pada sub-node diperoleh dari hasil perkalian antara derajat keanggotaan pada root node dan derajat keanggotaan atribut yang digunakan untuk

mengekspansi tree. Misalkan, untuk sub-node dengan nilai atribut rendah, nilai derajat keanggotaan dari data no.73 µl = 0.6

dan derajat keanggotaan dari data no.73 pada root node adalah 1, maka pada node

berikutnya nilai derajat keanggotaannya menjadi

baru

root

node10.60.6

5 Menghitung proporsi dari setiap kelas yang ada pada tiap-tiap node. Misalkan, untuk sub-node dengan nilai keanggotaan atribut tinggi, proporsi kelasnya adalah:

K1 = 0.7 + 0.5 = 1.2 K2 = 1 + 1 = 2 Proporsi kelas 1

% 5 . 37 % 100 * 2 1 1    K K K

Proporsi kelas 2

% 5 . 62 % 100 * 2 1 2    K K K

6 Pada penelitian ini, digunakan fuzziness control threshold (θr ) sebesar 75% dan

leaf decision threshold (θn) sebesar 3%.

Kedua threshold ini didapatkan dari evaluasi kinerja pada penelitian sebelumnya (Romansyah et al 2009). Kedua threshold ini berfungsi untuk menentukan ekspansi sub-node. Misalkan pada sub-node dengan nilai atribut tinggi. Berdasarkan nilai proporsi kelas 1 (37.5%) dan kelas 2 (62.5%) yang lebih kecil dari θr (75%) dan

banyaknya data atau record pada sub-node tersebut lebih besar dari θn, maka

sub-node tersebut akan terus diekspansi. Lain halnya jika θr yang digunakan

adalah 50%, sub-node tersebut tidak akan diekspansi.

(18)

Dari hasil pembentukan tree didapatkan sebanyak 38 rule / aturan yang dapat digunakan untuk mengklasifikasikan suatu data masukan.

Rule yang dihasilkan pada proses training

secara lengkap dapat dilihat pada Lampiran 7.

Testing

Setelah didapatkan model tree secara lengkap, tree kemudian diubah menjadi rule. Langkah berikutnya adalah menguji akurasi dari model tree tersebut. Setiap record data dimasukkan kepada model tree yang sudah terbentuk. Pada penelitian ini, diujikan 50

record data yang sudah disiapkan pada testing set. Akurasi yang didapatkan dari proses

testing ditunjukkan pada Tabel 4.

Nilai akurasi yang didapatkan adalah seperti berikut: 0 3 8 39 0 39    

x 100 % = 78 %

Pruning

Perlakuan selanjutnya adalah proses memangkas tree yang disebut dengan pruning.

Pemangkasan ini bertujuan menyederhanakan

rule atau struktur tree yang dihasilkan namun dengan tidak merusak atau mengurangi tingkat akurasi dalam proses klasifikasi.

Secara garis besar, ada dua kaidah pruning.

Pertama, kaidah pre-pruning. Pada kaidah ini, dilakukan pemangkasan sebelum tree terbentuk secara sempurna. Salah satu metode yang menerapkan kaidah ini adalah metode chi-square. Pada metode chi-square, atribut-atribut yang sudah ditentukan sebagai classifier

kemudian dihitung keterkaitannya terhadap atribut kelas yang dimaksud. Di akhir perhitungan, akan didapatkan atribut mana yang bisa dihilangkan atau diabaikan dalam proses klasifikasi.

Kedua, kaidah post pruning. Berbeda dengan sebelumnya, kaidah ini diterapkan pada model tree yang secara sempurna telah terbentuk. Pada penelitian ini, dipilih metode

rule post pruning. Pada metode rule post pruning, model tree diubah ke dalam bentuk

rule. Kemudian, dari setiap rule dilakukan proses penghapusan anteseden dari rule yang menyebabkan penurunan akurasi pada

validation set yang telah ditentukan. Kemudian, langkah berikutnya adalah pengurutan rule

berdasarkan nilai akurasi rule yang terbesar.

Pre-pruning dengan metode chi-square

Pada tahap ini, dilakukan dulu perhi-tungan keterkaitan hubungan antara atribut-atribut yang ada dengan atribut-atribut kelas. Sebagai contoh, hasil perhitungan hubungan atribut Curah Hujan (CH) dengan atribut kelas dapat dilihat pada Tabel 5.

α = 0.05

X2{0.05; (2-1)*(4-1)}={0.05;3} = 7.815 (dilihat dari tabel sebaran chi-square

Walpole 1993)

e11 = (109)*(185)/200 = 100.825

e12 = (109)*(7)/200 = 3.815

e13 = (109)*(5)/200 = 2.725

e14 = (109)*(3)/200 = 1.635

e21 = (91)*(185)/200 = 84.175

e22 = (91)*(7)/200 = 3.185

e23 = (91)*(5)/200 = 2.275

e24 =(91)*(3)/200 = 1.365

Kemudian, nilai setiap elemen perhitungan dimasukkan lagi dalam tabel seperti pada Tabel 6.

Berikutnya, dilakukan operasi matematika terhadap nilai awal dan nilai akhir seperti berikut:

X2 = (96-100.825)2 /100.825 + (7-3.815)2/ 3.815 + (3-2.275)2/2.275 +

(3-1.635)2/1.635 + (89-84.175)2/84.175

+ (0-3.185)2/3.185 + (2-2.275)2 /

2.275 + (0-1.365)2 / 1.365

= 8.92

Tabel 5 Sebaran nilai atribut Curah Hujan

rendah sedang tinggi

sangat

tinggi jumlah

K 1 96 7 3 3 109

K 2 89 0 2 0 91

jumlah 185 7 5 3 200

Tabel 4 Confusion matrix hasil uji pada tree

Prediksi

Kel.1 Kel.2

Aktual Kel.1 39 8

Kel.2 3 0

Tabel 6 Sebaran nilai atribut Curah Hujan setelah perhitungan

rendah sedang tinggi

sangat

tinggi jumlah

K 1 100.825 3.815 2.725 1.635 109

K 2 84.175 3.185 2.275 1.365 91

(19)

Tabel 7 Confusion matrix hasil uji pada tree

dengan pruning chi square

Prediksi

Kel.1 Kel.2

Aktual Kel.1 40 7

Kel.2 3 0

Tabel 8 Confusion matrix hasil uji pada tree

dengan rule post pruning

Prediksi

Kel.1 Kel.2

Aktual Kel.1 Kel.2 39 3 8 0

Tampak pada hasil perhitungan bahwa

X2dari hasil hitung lebih besar dari X2dari tabel sehingga atribut Curah Hujan (CH) tidak bisa diabaikan atau dihilangkan dalam proses klasifikasi.

Dari proses perhitungan seluruh atribut yang menjadi classifier dalam penelitian ini, didapatkan kesimpulan bahwa atribut yang bisa diabaikan atau dihilangkan dalam proses klasifikasi adalah atribut Penyinaran (S). Langkah selanjutnya adalah dilakukan pengembangan model tree tanpa menyertakan atribut tersebut.

Dari proses pruning dengan metode chi-square, didapatkan 17 rule. Rule yang di-hasilkan pada proses pruning dengan chi square secara lengkap dapat dilihat pada Lampiran 8. Hasil dari pruning dengan me-tode chi-square kemudian diuji dengan

testing set. Data uji atau testing set sebanyak 50 record diujicobakan terhadap tree yang terbentuk. Hasil akurasi pada metode chi square pruning dapat dilihat pada Tabel 7.

Nilai akurasi yang didapatkan adalah seperti berikut: 0 3 7 40 0 40   

x 100 % = 80 %

Post pruning dengan metode rule post

Sebelum memasuki pruning dengan metode ini, perlu disiapkan validation set. Validation set merupakan bagian dari

training set yang digunakan sebagai evaluasi awal terhadap rule yang terbentuk sebelum pada akhirnya diujikan terhadap testing set.

Pada penelitian ini, disiapkan 25 record validation set.

Pruning dilakukan terhadap rule yang sudah terbentuk pada tree sebelum dipangkas. Kemudian, anteseden di-hilangkan satu per satu dengan tetap melihat tingkat akurasinya. Berikutnya adalah memberi peringkat terhadap rule yang terbentuk bergantung pada nilai akurasi terbesar di dalam mengklasifikasikan

validation set. Hasilnya adalah didapatkan 26 rule dengan nilai akurasi terbesar sebesar 100 % pada rule“If L tinggi AND T tinggi

AND CH sedang THEN Kelas 1.” dan nilai

akurasi terkecil sebesar 85.7 % pada rule“If

L tinggi AND T sedang AND S rendah

THEN Kelas 1”. Hasil pruning dengan

metode rule post pruning kemudian diujikan terhadap testing set. Hasil akurasi pada metode rule post pruning dapat dilihat pada Tabel 8.

Nilai akurasi yang didapatkan adalah seperti berikut: 0 3 8 39 0 39    

x 100 % = 78 %

Perbandingan akurasi dari model tree

sebelum dan sesudah mendapat perlakuan

pruning akan ditunjukkan oleh Tabel 9.

Tabel 9 Daftar nilai akurasi tree

Perlakuan Akurasi Rule

Tanpa pruning 78 % 38

Pre-Pruning 80 % 17

Post Pruning 78 % 26

Nilai akurasi pada tiap-tiap perlakuan pada Tabel 9 menunjukkan bahwa tree yang terbentuk pada awal ekspansi (tree tanpa

pruning) mengalami suatu gejala overfitting.

Hal ini terbukti dengan kondisi ukuran tree

yang besar ataupun rule yang kompleks, justru tidak memberikan nilai akurasi yang baik dalam proses klasifikasi. Karenanya, tree dengan gejala overfitting perlu di-prune. Dari hasil penelitian, dapat diketahui bahwa proses

pruning bisa meningkatkan tingkat akurasi secara signifikan.

Dari ketiga perlakuan di atas, terlihat bahwa

tree dengan perlakuan pre-pruning chi square

menghasilkan nilai akurasi terbesar dibanding-kan dengan tree tanpa proses pruning dan tree

dengan perlakuan rule post pruning sehingga hasil akhir dari penelitian ini didapatkan 17 aturan / rule yang bisa mengklasifikasikan jumlah hotspot berdasarkan pada pola nilai atribut data iklim yang dipakai dengan akurasi sebesar 80 %.

(20)

tanpa pruning, didapatkan 38 rule, sedangkan pada tree dengan perlakuan rule post pruning

didapatkan rule sebanyak 26 buah. Dengan rule post pruning, tree dapat dipahami dengan lebih mudah dan ringkas.

Dari ketiga perlakuan di atas, didapatkan juga suatu ruleyang konstan, yaitu “If L rendah

THEN Kelas 2” dan “If L sangat tinggi THEN

Kelas 1”. Kedua rule ini menyatakan bahwa

tingkat kelembaban suatu daerah berbanding terbalik dengan jumlah hotspot yang dihasilkan di daerah tersebut. Rule yang serupa didapatkan dari hasil penelitian sebelumnya (Apriyani 2011). Di antaranya ialah “If Kelembaban tinggi

Then Jumlah Hotspot sedikit” dengan nilai

confidence sebesar 89,29%. Dengan kata lain, semakin rendah nilai kelembaban menghasilkan jumlah hotspot yang semakin banyak. Sebaliknya, semakin tinggi nilai kelembaban di suatu daerah akan menghasilkan jumlah hotspot

yang semakin sedikit.

KESIMPULAN DAN SARAN

Kesimpulan

Dari percobaan yang dilakukan terhadap data iklim dan titik api didapatkan beberapa kesimpulan sebagai berikut:

1 Algoritme FID3 dapat diterapkan pada proses klasifikasi jumlah titik api (hotspot) berdasarkan nilai atribut data iklim.

2 Didapatkan model aturan (rule) yang bisa digunakan untuk memprediksi jumlah titik api berdasarkan atribut-atribut yang telah disertakan.

3 Dari aturan yang dihasilkan, dapat diketahui suatu hubungan jumlah hotspot

yang terbentuk berbanding terbalik dengan tingkat kelembaban udara yang mempengaruhinya.

4 Melalui penelitian ini, ditunjukkan bahwa proses pruning bisa meningkatkan akurasi tree dalam upaya klasifikasi atau mereduksi jumlah rule

yang terbentuk namun tetap dengan akurasi yang sama.

Saran

Pada penelitian ini, masih terdapat beberapa kekurangan yang bisa diperbaiki pada penelitian selanjutnya. Beberapa saran yang dapat dilakukan antara lain:

1 Memperhitungkan variabel luasan daerah yang diteliti atau menggunakan tambahan data spasial.

2 Menambah atribut yang menjadi

classifier.

3 Menggunakan bantuan konsep clustering

di dalam penyusunan membership function.

4 Sistem yang dipakai mampu menampilkan hasil klasifikasi dari ketiga perlakuan tree sehingga pengguna mam-pu melakukan perbandingan dari hasil ketiga perlakuan tree.

DAFTAR PUSTAKA

Apriyani D. 2011. Fuzzy association rules mining pada data klimatologi dan jumlah

hotspot di Kalimantan Tengah dan Kalimantan Selatan [skripsi]. Bogor: Fakultas Matematika dan Ilmi Pengetahuan Alam, Institut Pertanian Bogor.

Budi M, Karyadin R, Hartono SW. 2010. Perbandingan algoritme pruning pada

decision tree yang dikembangkan dengan algoritme CART. Jurnal Ilmiah Ilmu Komputer 15(2): 7-13.

Kamber M, Han J. 2001. Data Mining Concepts & Techniques. San Fransisco: Morgan Kaufman.

Liang G. 2005. A Comparative Study of Three Decision Tree algorithms: ID3, Fuzzy ID3, and Probabilistic Fuzzy ID3. Rotterdam: Informatics & Economics Erasmus University Rotterdam.

Marsala C. 1998. Application of Fuzzy Rule Induction to data Mining. Paris: University Pierre et Marie Curie.

Mitchell TM. 1997. Machine Learning.

Houston: McGraw Hill.

Rhyne RD, Smith JF. 1999. A Resource Manager for Distributed Resources: Fuzzy Decision Trees and Genetic Optimization.

Las Vegas: CSREA Press.

Romansyah F, Sitanggang IS, Nurdiati S. 2009.

Fuzzy decision tree dengan algoritme ID3 pada data diabetes. Internetworking Indonesia Journal 1(2) : 2-13.

Smith JF. 2003. Fuzzy Logic Resource Manager: Evolving Fuzzy Decision Tree Structure that Adapts in Real-Time.

Washington: Naval Research.

Suyanto. 2008. Soft Computing: Membangun Mesin ber-IQ Tinggi. Bandung: Informatika.

Tan S, Kumar P, Steinbach M. 2005.

(21)

Thoha AS. 2008. Penggunaan data hotspot

untuk monitoring kebakaran hutan dan lahan di Indonesia. http://repository.usu.ac.id/ bitstream/123456789/919/1/132259563(1).p df. [5 Jul 2012].

Walpole R.E. 1993. Pengantar Statistika. Rahmat F, penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari:

Introduction of Statistics.

(22)
(23)
(24)
(25)

Lampiran 2 Contoh data hasil proses pembersihan data

ID

Temperatur

Curah Hujan

Penyinaran

Kelembaban Kelas

1

27 2 81 83

1

2

26 2 33 91

1

3

25 17 28 91

1

4

26 11 71 87

1

5

26 5 51 87

1

6

24 56 0 91

1

7

27 17 66 83

1

8

25 1 28 91

1

9

26 8 92 85

1

10

26 18 75 85

1

11

25 34 0 96

1

12

26 81 76 87

1

(26)

Lampiran 3 Contoh data hasil proses fuzzyfikasi dan data training

ID Sinar MF rend ah

MF seda ng

MF tinggi

MF sangat tinggi

Tem perat ur

MF ren dah

MF sed ang

MF tinggi

Cura h hujan

MF ren dah

MF sed ang

MF tin ggi

MF sanga t tinggi

Kele mbab an

MF ren dah

MF sed ang

MF tinggi

MF sangat tinggi

Kelas

hotspot

1 81 0 0 0 1 27 0 0,2 0,8 2 1 0 0 0 83 0 0 0 1 1

2 33 0 1 0 0 26 0 0,1 0,9 2 1 0 0 0 91 0 0 0 1 1

3 28 0 1 0 0 25 0 1 0 17 0,3 0,7 0 0 91 0 0 0 1 1

4 71 0 0 0,6 0,4 26 0 0,1 0,9 11 0,9 0,1 0 0 87 0 0 0 1 1

5 51 0 0 1 0 26 0 0,1 0,9 5 1 0 0 0 87 0 0 0 1 1

6 0 1 0 0 0 24 0 1 0 56 0 0 1 0 91 0 0 0 1 1

7 66 0 0 0,1 0,9 27 0 0,2 0,8 17 0,3 0,7 0 0 83 0 0 0 1 1

8 28 0 1 0 0 25 0 1 0 1 1 0 0 0 91 0 0 0 1 1

9 92 0 0 0 1 26 0 0,1 0,9 8 1 0 0 0 85 0 0 0 1 1

(27)
(28)

Lampiran 5 Struktur tree setelah chi square pruning.

(29)

Lampiran 6 Struktur tree setelah rule post pruning.

(30)

Lampiran 7 Aturan (rule) yang dihasilkan pada tree tanpa pruning.

1. If L rendah THEN Kelas 2.

2. If L sedang AND CH rendah AND T rendah THEN Kelas 1.

3. If L sedang AND CH rendah AND T sedang AND S rendah THEN Kelas 1.

4. If L sedang AND CH rendah AND T sedang AND S sedang THEN Kelas 2.

5. If L sedang AND CH rendah AND T sedang AND S tinggi THEN Kelas 1.

6. If L sedang AND CH rendah AND T sedang AND S sangat tinggi THEN Kelas 1.

7. If L sedang AND CH rendah AND T tinggi AND S rendah THEN Kelas 1.

8. If L sedang AND CH rendah AND T tinggi AND S sedang THEN Kelas 2.

9. If L sedang AND CH rendah AND T tinggi AND S tinggi THEN Kelas 1.

10. If L sedang AND CH rendah AND T tinggi AND S sangat tinggi THEN Kelas 1.

11. If L sedang AND CH sedang THEN Kelas 1.

12. If L sedang AND CH tinggi THEN Kelas 1.

13. If L sedang AND CH sangat tinggi THEN Kelas 1.

14. If L tinggi AND T rendah THEN Kelas 1.

15. If L tinggi AND T sedang AND S rendah AND CH rendah THEN Kelas 1.

16. If L tinggi AND T sedang AND S rendah AND CH sedang THEN Kelas 1.

17. If L tinggi AND T sedang AND S rendah AND CH tinggi THEN Kelas 1.

18. If L tinggi AND T sedang AND S rendah AND CH sangat tinggi THEN Kelas 1.

19. If L tinggi AND T sedang AND S sedang AND CH rendah THEN Kelas 1.

20. If L tinggi AND T sedang AND S sedang AND CH sedang THEN Kelas 1.

21. If L tinggi AND T sedang AND S sedang AND CH tinggi THEN Kelas 1.

22. If L tinggi AND T sedang AND S sedang AND CH sangat tinggi THEN Kelas 1.

23. If L tinggi AND T sedang AND S tinggi AND CH rendah THEN Kelas 1.

24. If L tinggi AND T sedang AND S tinggi AND CH sedang THEN Kelas 1.

25. If L tinggi AND T sedang AND S tinggi AND CH tinggi THEN Kelas 1.

26. If L tinggi AND T sedang AND S tinggi AND CH sangat tinggi THEN Kelas 1.

27. If L tinggi AND T sedang AND S sangat tinggi AND CH rendah THEN Kelas 1.

28. If L tinggi AND T sedang AND S sangat tinggi AND CH sedang THEN Kelas 1.

29. If L tinggi AND T sedang AND S sangat tinggi AND CH tinggi THEN Kelas 1.

30. If L tinggi AND T sedang AND S sangat tinggi AND CH sangat tinggi THEN Kelas 1.

31. If L tinggi AND T tinggi AND CH rendah AND S rendah THEN Kelas 1.

32. If L tinggi AND T tinggi AND CH rendah AND S sedang THEN Kelas 2.

33. If L tinggi AND T tinggi AND CH rendah AND S tinggi THEN Kelas 1.

34. If L tinggi AND T tinggi AND CH rendah AND S sangat tinggi THEN Kelas 1.

35. If L tinggi AND T tinggi AND CH sedang THEN Kelas 1.

36. If L tinggi AND T tinggi AND CH tinggi THEN Kelas 1.

37. If L tinggi AND T tinggi AND CH sangat tinggi THEN Kelas 1.

(31)

Lampiran 8 Aturan yang dihasilkan pada tree dengan metode chi square pruning.

1. If L rendah THEN Kelas 2.

2. If L sedang AND CH rendah AND T rendah THEN Kelas 1.

3. If L sedang AND CH rendah AND T sedang THEN Kelas 1.

4. If L sedang AND CH rendah AND T tinggi THEN Kelas 1.

5. If L sedang AND CH sedang THEN Kelas 1.

6. If L sedang AND CH tinggi THEN Kelas 1.

7. If L sedang AND CH sangat tinggi THEN Kelas 1.

8. If L tinggi AND T rendah THEN Kelas 1.

9. If L tinggi AND T sedang AND CH rendah THEN Kelas 1.

10.If L tinggi AND T sedang AND CH sedang THEN Kelas 1.

11.If L tinggi AND T sedang AND CH tinggi THEN Kelas 1.

12.If L tinggi AND T sedang AND CH sangat tinggi THEN Kelas 1.

13.If L tinggi AND T tinggi AND CH rendah THEN Kelas 1.

14.If L tinggi AND T tinggi AND CH sedang THEN Kelas 1.

15.If L tinggi AND T tinggi AND CH tinggi THEN Kelas 1.

16.If L tinggi AND T tinggi AND CH sangat tinggi THEN Kelas 1.

(32)

Lampiran 9 Aturan yang dihasilkan pada tree dengan metode rule post pruning.

1.If L rendah THEN Kelas 2.

2.If L sedang AND CH rendah AND T rendah THEN Kelas 1.

3.If L sedang AND CH rendah AND T sedang AND S rendah THEN Kelas 1.

4.If L sedang AND CH rendah AND T sedang AND S sedang THEN Kelas 2.

5.If L sedang AND CH rendah AND T sedang AND S tinggi THEN Kelas 1.

6.If L sedang AND CH rendah AND T sedang AND S sangat tinggi THEN Kelas 1.

7.If L sedang AND CH rendah AND T tinggi AND S rendah THEN Kelas 1.

8.If L sedang AND CH rendah AND T tinggi AND S sedang THEN Kelas 2.

9.If L sedang AND CH rendah AND T tinggi AND S tinggi THEN Kelas 1.

10.If L sedang AND CH rendah AND T tinggi AND S sangat tinggi THEN Kelas 1.

11. If L sedang AND CH sedang THEN Kelas 1.

12.If L sedang AND CH tinggi THEN Kelas 1.

13. If L sedang AND CH sangat tinggi THEN Kelas 1.

14. If L tinggi AND T rendah THEN Kelas 1.

15. If L tinggi AND T sedang AND S rendah THEN Kelas 1.

16. If L tinggi AND T sedang AND S sedang THEN Kelas 1.

17. If L tinggi AND T sedang AND S tinggi THEN Kelas 1.

18. If L tinggi AND T sedang AND S sangat tinggi THEN Kelas 1.

19. If L tinggi AND T tinggi AND CH rendah AND S rendah THEN Kelas 1.

20. If L tinggi AND T tinggi AND CH rendah AND S sedang THEN Kelas 2.

21. If L tinggi AND T tinggi AND CH rendah AND S tinggi THEN Kelas 1.

22. If L tinggi AND T tinggi AND CH rendah AND S sangat tinggi THEN Kelas 1.

23. If L tinggi AND T tinggi AND CH sedang THEN Kelas 1.

24. If L tinggi AND T tinggi AND CH tinggi THEN Kelas 1.

25. If L tinggi AND T tinggi AND CH sangat tinggi THEN Kelas 1.

(33)

ABSTRACT

AKHMAD AKBAR. Pruning on Fuzzy Decision Tree in Classification of Climatology and Hotspot at Tjilik Riwut, Palangkaraya, South Kalimantan. Supervised by ANNISA.

Forest fire is influenced by several factors, such as humidity, solar radiation intensity, regional temperature, and rainfall. This research aimed at finding the information and knowledge from hotspot and climate data, especially those four attributes. The research data was taken from Tjilik Riwut, Palangkaraya, South Kalimantan in year 2001-2004. Data mining technique used for extracting the information and knowledge is classification using decision tree method. In this research, fuzzy aproach is adapted to solve uncertainty of data. To improve the accuracy of classification process, pruning tree method is utilized. Tree that has the highest accuracy is converted to be the rule. The formed rule shows that the amount of hotspot is inversely proportional with the scale of humidity. This research also proves that pruning process in a tree can improve the accuracy of classification process.

(34)

PENDAHULUAN

Latar Belakang

Kasus kebakaran hutan di Indonesia merupakan salah satu bencana alam yang sering terjadi. Beberapa faktor cuaca yang mempengaruhinya ialah temperatur, curah hujan, radiasi matahari, kelembaban, stabilitas udara, kecepatan angin dan arah angin secara langsung (Thoha 2001 dalam Dedek 2011).

Indikator kebakaran hutan yang bisa dijadikan acuan adalah jumlah titik api (hotspot). Hotspot merupakan titik-titik di permukaan bumi yang menjadi indikator adanya kebakaran hutan dan lahan. Salah satu cara pencegahan kebakaran hutan yang dapat dilakukan adalah dengan mengetahui hubungan antara faktor cuaca yang ada di suatu wilayah dengan jumlah hotspot yang muncul. Metode klasifikasi dengan menggunakan decision tree

dapat digunakan untuk membuat sebuah

classifier yang berguna untuk melihat pola / hubungan tersebut.

Data iklim dan hotspot sering kali tidak bisa didekati melalui pendekatan crisp (tegas). Hal ini dikarenakan nilai atribut yang sangat berdekatan mampu memberi pengaruh yang berbeda di dalam pembentukan hotspot. Untuk mengatasi hal tersebut, diperlukan pendekatan dengan kaidah fuzzy. Penerapan kaidah fuzzy di dalam suatu decision tree sering dikenal sebagai fuzzy decision tree.

Hasil dari klasifikasi dapat dilihat dari tingkat akurasi yang dihasilkan. Namun, sering kali model decision tree yang dihasilkan mengalami masalah overfitting. Overfitting di dalam decision tree menghasilkan suatu ke-adaan yang lebih kompleks daripada yang diperlukan. Hal ini juga membuat tingkat akurasi yang dihasilkan tidak cukup baik untuk mengklasifikasikan data baru. Oleh karena itu, diperlukan cara untuk meningkatkan akurasi dari model tree yang dihasilkan.

Salah satu metode yang bisa digunakan untuk meningkatkan akurasi dari tree adalah

pruning. Pruning bekerja dengan prinsip memangkas atau menyederhanakan struktur

tree. Pruning diharapkan mampu meningkatkan akurasi yang dihasilkan dalam proses klasifikasi secara signifikan.

Penelitian ini mencoba menemukan hubungan antara faktor-faktor cuaca dengan jumlah hotspot yang dibentuknya menggunakan teknik klasifikasi menggunakan konsep fuzzy

dengan metode decision tree. Untuk meningkatkan akurasi dalam proses klasifikasi,

diterapkan juga metode pruning. Model tree

dengan nilai akurasi tertinggi diharapkan mampu memberikan suatu model atau aturan yang bisa mengklasifikasikan jumlah hotspot

berdasarkan pola pada iklim di daerah tersebut.

Tujuan

Tujuan dari penelitian ini adalah:

1 Menerapkan teknik data mining berupa klasifikasi dengan metode fuzzy decision tree.

2 Menerapkan teknik pruning pada tree.

3 Menemukan aturan klasifikasi pada data titik api (hotspot) sehingga dapat diketahui kelas jumlah hotspot berdasarkan pada pola data iklim di daerah tersebut.

Ruang Lingkup

Ruang lingkup penelitian ini dibatasi pada:

1 Penerapan algoritme ID3 dalam Fuzzy Decision T

Gambar

Tabel 1  Contoh persebaran atribut untuk proses pruning chi square
Gambar 2  Metodologi penelitian.
Gambar 4  Himpunan fuzzy atribut temperatur.
Gambar 6  Himpunan fuzzy atribut kelembaban.  Atribut hotspot
+7

Referensi

Dokumen terkait

Pada kotoran manusia yang merupakan campuran tinja dan air seni yang relative kaya akan senyawa nitrat, proses dekomposisi terjadi melalui siklus nitrogen.. relative kaya akan

Analisa solvabilitas mengukur kemampuan perusahaan menutupi seluruh kewajiban-kewajibannya.Solvabilitas juga mengindikasikan jumlah modal yang dikeluarkan oleh investor dalam

Gambaran bahwa perusahaan yang menerapkan prinsip-prinsip GCG akan lebih meningkatkan peranan audit internal ,melaksanakan etika bisnis, menjalankan pedoman perilaku yang

Proses pendidikan merupakan proses yang berlangsung seumur hidup, yaitu sejak manusia lahir sampai meninggal dunia dan berlangsung di lingkungan keluarga,

Berdasarkan hasil penelitian nilai rata – rata dari penilaian recall test kelompok kontrol pre test sebesar 4.8 dengan nilai maksimum 8 sebanyak 1 responden, dimana responden

Dari proses activity diagram bobot kriteria, calon anggota Legislatif Dewan Perwakilan Rakyat Daerah Kota Medan dapat memulai dengan memilih menu kriteria, yang

Bahwa Saksi tidak mengetahui keberadaan Terdakwa selama meninggalkan dinas kesatuan tanpa ijin yang sah dari Dansatnya dan Saksi selaku atasan Terdakwa telah

Perumusan, penetapan, dan pelaksanaan kebijakan dibidang tata ruang, infrastruktur keagrariaan/pertanahan hukum keagrariaan/pertanahan, penataan agraria/pertanahan,