PERBANDINGAN ALGORITME PRUNING PADA DECISION TREE YANG DIKEMBANGKAN DENGAN ALGORITME CART MARTIN BUDI

(1)

PERBANDINGAN ALGORITME PRUNING

PADA DECISION TREE YANG DIKEMBANGKAN DENGAN

ALGORITME CART

MARTIN BUDI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2009

(2)

PERBANDINGAN ALGORITME PRUNING

PADA DECISION TREE YANG DIKEMBANGKAN DENGAN

ALGORITME CART

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh :

MARTIN BUDI

G64104021

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2009

(3)

ABSTRAK

MARTIN BUDI. Perbandingan Algoritme Pruning pada Decision Tree yang Dikembangkan dengan Algoritme CART. Dibimbing oleh RINDANG KARYADIN dan SONY HARTONO WIJAYA.

Perkembangan teknologi yang begitu cepat, ikut berakibat kepada proses pengumpulan data. Penerapan Data Mining sangat berguna untuk memanfaatkan tumpukan data akibat dari mudahnya pengumpulan data. Salah satu metode yang sering digunakan dalam Data Mining adalah decision tree. Pruning merupakan bagian dari proses pembentukan decision tree. Saat pembentukan decision tree, beberapa node merupakan outlier maupun hasil dari noise data. Penerapan pruning pada decision tree, dapat mengurangi outlier maupun noise data pada decision tree awal sehingga dapat meningkatkan akurasi pada klasifikasi data. Oleh sebab itu pemilihan algoritme pruning yang tepat perlu dilakukan untuk mendapat hasil klasifikasi yang maksimal.

Penelitian ini menggunakan data profile pelanggan dari perusahaan penyedia kredit. Data tersebut diperoleh dari bank data pada University of California. Data yang digunakan pada penelitian ini memiliki 20 variabel dengan dua buah kelas dan berjumlah 1000 instance. Dari 20 variabel yang ada pada data, 13 variabel merupakan data kualitatif dan sisanya merupakan data bertipe numerik.

Pada Penelitian ini dibandingkan tiga algoritme pruning, yaitu Cost Complexity Pruning (CCP), Reduced Error Pruning (REP), Error Based Pruning (EBP). Ketiga algoritme tersebut melakukan pruning pada decision tree yang dikembangkan dengan algoritme Classification and Regression Tree (CART). Perbandingan algoritme dilakukan berulang-ulang pada kondisi data yang berbeda baik dari segi jumlah instance maupun variabel data. Perbandingan algoritme yang dilakukan meliputi perbandingan nilai akurasi dari decision tree yang terbentuk, serta waktu proses dari ketiga algoritme pruning.

Hasil penelitian menunjukkan bahwa algoritme CCP merupakan algoritme dengan waktu eksekusi tercepat hampir untuk setiap pruning pada data dengan jumlah variabel berbeda-beda. Pada rataan error rate seluruh percobaan, algoritme REP akan menghasilkan error rate paling kecil. Walaupun error rate algoritme REP lebih baik, error rate tersebut tidak berbeda jauh dengan nilai error rate algoritme EBP, namun dengan nilai error rate yang mendekati serupa, EBP menghasilkan decision tree yang jauh lebih simpel daripada algoritme REP.

Kata kunci: Decision tree, Classification and Regression Tree (CART), Cost Complexity Pruning (CCP), Reduced Error Pruning (REP), Error Based Pruning (EBP)

(4)

Judul Skripsi : Perbandingan Algoritme Pruning pada Decision Tree yang

Dikembangkan dengan Algoritme CART

Nama

: Martin Budi

NIM

: G64104021

Menyetujui:

Pembimbing I,

Pembimbing II,

Rindang Karyadin, S.T., M.Kom.

Sony Hartono W., S.Kom., M.Kom.

NIP 132311915

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Dr. drh. Hasim, DEA

NIP 131578806

(5)

RIWAYAT HIDUP

Penulis dilahirkan di Bandar Lampung pada tanggal 25 Maret 1986 dari ayah Budiman Perangin-angin dan ibu Renny Ginting. Penulis merupakan putra ketiga dari tiga bersaudara.

Tahun 2004 penulis lulus dari SMU Negeri 2 Bandara Lampung. Pada tahun yang sama penulis diterima di Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Intitut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Pada tahun 2007 penulis menjalankan praktik lapang di Balai Besar Industri Agro (BBIA) selama kurang lebih dua bulan.

(6)

PRAKATA

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas segala berkat karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Tema yang dipilih pada karya ilmiah ini adalah Data Mining, dengan judul Perbandingan Algoritme Pruning pada Decision Tree yang dikembangkan dengan Algoritme CART.

Penyelesaian karya ilmiah ini tidak lepas dari bantuan beberapa pihak, karena itu penulis mengucapkan terima kasih kepada:

1 Kedua orangtua, papa Budiman Perangin-angin (alm.) untuk semangat yang selalu tinggal dan mama Renny Ginting atas doa, semangat dan kasih sayang yang tak pernah putus. 2 Kak Dina, Bang Apri yang selalu memacu semangat serta memotivasi penulis.

3 Bapak Rindang Karyadin, S.T., M.Kom. selaku pembimbing I, Bapak Sony Hartono Wijaya, S.Kom., M.Kom. selaku pembimbing II atas waktu dan pengetahuan yang sangat berharga selama bimbingan.

4 Ibu Annisa, S.Kom., M.Kom. selaku moderator dan penguji.

5 Teman-teman satu bimbingan: Pras, Putri, Toro atas saran, kritik dan dukungannya dalam baik senang maupun sedih.

6 Rekan-rekan Ilkomerz41 atas segala suka dan duka dalam kebersamaan.

7 William, Jefry, Budi, Arip, Salamun, Afreeze, Didit, Yohan, Edo, Mada, Sandro, Sam dan Fikri atas kebersamaan, canda tawa, dan pengalaman yang tak terlupakan di pondok emperor. 8 Rekan-rekan Komisi Literatur PMK IPB untuk bantuan doa dan hangatnya kebersamaan. 9 Mayland Romaria untuk segala dukungan, doa, semangat dan kebersamaan.

10 Seluruh staf dan karyawan Departemen Ilmu Komputer, serta pihak lain yang telah membantu.

Sebagaimana manusia yang tidak luput dari kesalahan, penulis menyadari bahwa karya ilmiah ini jauh dari sempurna. Namun penulis berharap semoga karya ilmiah ini dapat bermanfaat.

Bogor, Februari 2009

(7)

iv

DAFTAR ISI

Halaman DAFTAR TABEL ... v DAFTAR GAMBAR ... v DAFTAR LAMPIRAN ... v PENDAHULUAN... 1 Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup ... 1 TINJAUAN PUSTAKA ... 1 Data mining ... 1 Klasifikasi ... 1 Decision Tree ... 2

Classification and Regression Trees (CART) ... 2

Pruning ... 3

Cost Complexity Pruning (CCP) ... 3

Reduced Error Pruninng (REP) ... 3

Error Based Pruning (EBP) ... 3

K-Fold Cross Validation ... 4

METODE PENELITIAN ... 4

Studi Literatur ... 4

Pengumpulan Data ... 4

Data Mining ... 4

Analisis Hasil ... 5

HASIL dan PEMBAHASAN ... 5

Data ... 5

Data Mining ... 5

Analisis Hasil ... 5

KESIMPULAN dan SARAN ... 9

Kesimpulan ... 9

Saran ... 9

(8)

v

DAFTAR TABEL

Halaman

1 Error rate pada decision tree dengan berbagai jumlah instance data. ... 6

2 Error rate pada decision tree dengan berbagai jumlah variabel data. ... 7

DAFTAR GAMBAR

Halaman 1 Metode penelitian. ... 4

2 Error rate pada decision tree dengan berbagai jumlah instance data. ... 6

3 Rataan error rate pada decision tree dengan berbagai jumlah instance data. ... 7

4 Error rate pada decision tree dengan berbagai jumlah variabel data. ... 7

5 Rataan error rate pada decision tree dengan berbagai jumlah variabel data. ... 8

6 Rataan error rate keseluruhan perulangan. ... 8

7 Rataan selisih node. ... 8

8 Rataan waktu klasifikasi decision tree yang telah di pruning ... 8

9 Waktu eksekusi pada data dengan berbagai jumlah instance. ... 9

10 Waktu eksekusi pada data dengan berbagai variabel. ... 9

DAFTAR LAMPIRAN

Halaman 1 Contoh data profile pelanggan ... Error! Bookmark not defined. 2 Hasil perbandingan pruning ... 15

(a) Hasil perbandingan pruning menggunakan 250 data ... 15

(b) Hasil perbandingan pruning menggunakan 500 data ... 16

(c) Hasil perbandingan pruning menggunakan 750 data ... 17

(d) Hasil perbandingan pruning menggunakan 1000 data ... 18

(e) Hasil perbandingan pruning menggunakan 5000 data ... 19

(f) Hasil perbandingan pruning menggunakan 10000 data ... 20

(g) Hasil perbandingan pruning menggunakan data dengan 19 variabel ... 21

(h) Hasil perbandingan pruning menggunakan data dengan 17 variabel ... 22

(i) Hasil perbandingan pruning menggunakan data dengan 15 variabel ... 23

(j) Hasil perbandingan pruning menggunakan data dengan 13 variabel ... 24

(k) Hasil perbandingan pruning menggunakan data dengan 10 variabel ... 25

(l) Hasil perbandingan pruning menggunakan data dengan 8 variabel ... 26

(9)

1

PENDAHULUAN

Latar Belakang

Perkembangan teknologi yang begitu cepat, ikut berakibat kepada proses pengumpulan data. Semakin mudah pengumpulan data menyebabkan terjadinya penumpukan data. Penerapan Data Mining sangat berguna untuk memanfaatkan tumpukan data agar lebih bermanfaat.

Data mining merupakan salah satu tahapan dalam proses Knowledge Discovery in Database (KDD) yang melakukan ekstraksi informasi atau pola penting dalam data berukuran besar (Han & Kamber 2006). Teknik yang dapat digunakan pada implementasi data mining adalah klasifikasi dan prediksi, association rule, dan clustering. Klasifikasi merupakan metode yang berfungsi untuk menemukan model yang membedakan kelas data, sehingga klasifikasi dapat memperkirakan label kelas dari suatu objek yang belum diketahui. Salah satu metode klasifikasi yang sering digunakan adalah decision tree.

Pruning merupakan bagian dari proses pembentukan decision tree. Saat pembentukan decision tree, beberapa node merupakan outlier maupun hasil dari noise data. Penerapan pruning pada decision tree, dapat mengurangi outlier maupun noise data pada

decision tree awal sehingga dapat

meningkatkan akurasi pada klasifikasi data (Han & Kamber 2006). Oleh sebab itu pemilihan algoritme pruning yang tepat perlu dilakukan untuk mendapat hasil klasifikasi yang maksimal.

Pada penelitian yang dilakukan oleh Esposito et al. (1997), algoritme Reduced Error Pruning (REP) disimpulkan sebagai algoritme yang menghasilkan subtree terkecil dengan error rate minimum. Penelitian Esposito et al. (1997) menggunakan algoritme C4.5 untuk membangun decision tree yang

di-pruning. Berbeda dengan penelitian

sebelumnya, penelitian ini membandingkan pengunaan algoritme pruning pada decision

tree yang dibangun dengan algoritme

Classification and Regression Tree (CART). Algoritme CART biasa menggunakan Cost Complexity Pruning (CCP) sebagai algoritme pruning-nya. Pada penelitian ini algoritme pruning CCP dibandingkan dengan dua algortime pruning lain yaitu REP dan Error Based Pruning (EBP).

Tujuan

Tujuan penelitian ini adalah:

1 Menerapkan teknik CCP , REP dan EBP pada metode klasifikasi decision tree dengan algoritme CART.

2 Membandingkan nilai akurasi dari decision tree yang terbentuk, serta waktu proses yang dihasilkan oleh algoritme pruning CCP , REP dan EBP.

Ruang Lingkup

Ruang lingkup dalam penelitian ini adalah: 1 Perbandingan hasil algoritme pruning meliputi nilai akurasi dari decision tree yang terbentuk, serta waktu proses dari ketiga algoritme pruning.

2 Penelitian ini menggunakan salah satu teknik data mining yaitu teknik klasifikasi dengan menggunakan metode decision tree. Teknik decision tree yang digunakan yaitu CART.

TINJAUAN PUSTAKA

Data Mining

Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2006). Temuan Data mining adalah informasi baru dan nontrivial dalam data yang berjumlah besar. Hal tersebut adalah hasil penggabungan dari usaha manusia dan komputer (Kantardzic 2003).

Berdasarkan sudut pandang analisis data, data mining dapat diklasifikasikan menjadi dua kategori, yaitu descriptive data mining dan predictive data mining. Descriptive data mining terfokus pada usaha untuk menemukan pola yang mendeskripsikan data yang dapat diinterpretasikan oleh manusia. Descriptive data mining menghasilkan informasi baru dan

nontrivial berdasarkan himpunan data yang

tersedia. Predictive data mining terfokus pada usaha untuk menghasilkan model yang tergambar lewat data yang diberikan. Predictive data mining melibatkan beberapa variabel dalam himpunan data untuk memprediksikan nilai variabel lain yang tidak diketahui (Kantardzic 2003).

Klasifikasi

Klasifikasi adalah salah satu teknik data mining yang dapat menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk

(10)

2 mengetahui kelas atau objek yang memiliki

label kelas yang tidak diketahui. Klasifikasi termasuk ke dalam kategori predictive data mining. Model yang diturunkan didasarkan pada analisis dari training data (Han & Kamber 2006).

Proses klasifikasi dibagi menjadi dua fase yaitu learning dan testing. Pada fase learning, data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase testing, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui (Han & Kamber 2006).

Decision Tree

Decision tree merupakan salah satu teknik klasifikasi yang popular dan banyak digunakan dalam data mining dan machine learning. Decision tree terdiri dari internal

node dan leaf node. Internal node

menggambarkan variabel data yang akan diuji, dan leaf node menggambarkan distribusi kelas dari data yang digunakan. Decision tree digunakan untuk mengklasifikasikan suatu sampel data yang tidak dikenal (Han & Kamber 2006).

Pembentukan decision tree terdiri dari beberapa tahap, yaitu (Han & Kamber 2006) :

1 Konstruksi pohon, yaitu pembuatan

pohon yang diawali dengan

pembentukan bagian akar, kemudian data dibagi berdasarkan atribut-atribut yang cocok untuk dijadikan leaf node. 2 Pemangkasan pohon (tree pruning),

yaitu proses pemangkasan cabang pohon yang berguna untuk meningkatkan nilai akurasi dari proses klasifikasi data. Dua metode tree pruning, yaitu :

- prepruning : pemangkasan yang dilakukan sejak proses pembentukan tree.

- postpruning : pemangkasan yang dilakukan setelah tree terbentuk. 3 Pembentukan aturan keputusan, yaitu

membuat aturan keputusan berdasarkan model pohon yang representasikan dengan aturan IF-THEN.

Algoritme Decision tree banyak digunakan dalam proses data mining karena memiliki

beberapa kelebihan yaitu (Gehrke et al. 1998) :

1 Mudah untuk dinterpretasikan.

2 Proses konstruksi yang relatif lebih cepat dari metode lain.

3 Memiliki nilai akurasi yang baik pada proses klasifikasi.

Classification and Regression Trees (CART)

CART adalah metode yang menggunakan data histori untuk membangun sebuah decision tree. Decision tree yang dihasilkan kemudian digunakan untuk klasifikasi data yang baru (Timofeev 2004).

Metode CART pertama kali dikemukakan oleh Breiman pada tahun 1984. Metode CART menggunakan metode decision tree yang hanya memiliki cabang dua buah, atau yang biasa disebut dengan binary tree (Larose 2005).

CART melakukan pemisahan secara rekursif nilai dari record data menjadi bagian-bagian data yang memiliki kesamaan. CART membentuk pohon dengan mencari ke semua variabel untuk mencari tempat percabangan yang paling optimal dengan menggunakan Persamaan 1. Gini ∑ GiniD………..(1) dengan: Gini 1

GiniA(D) = nilai Gini dari data jika dipartisi

dengan parameter A.

k = jumlah pembagian data, pada CART k = 2.

= nilai perbandingan jumlah data

D dengan jumlah data partisi ke-i.

m = jumlah kelas data yang ada.

= nilai perbandingan jumlah data Di dengan jumlah data kelas ke-j .

Nilai Gini adalah nilai kemurnian dari partisi data. Semakin kecil nilai Gini dari sebuah data maka nilai kemurniannya semakin baik (Han & Kamber 2006).

(11)

3 Nilai Gini akan mencapai nilai minimun

jika pemisahan data yang dilakukan menyebabkan data yang terpisah mendekati homogen.

Dapat disimpulkan bahwa pembentukan tree yang baik terjadi jika setiap node hasil pemisahan memiliki keseragaman pada data serta jumlah data yang merata pada masing masing node hasil pemisahan (Larose 2005).

Pruning

Setelah pembentukan pohon dilakukan, beberapa leaf node akan mengalami anomali akibat dari noise. Pruning perlu dilakukan pada pohon yang sudah terbentuk untuk mengurangi anomali yang terjadi. Algoritme CART menggunakan pendekatan postpruning untuk melakukan pemangkasan. Algoritme postpruning yang digunakan adalah algoritme cost complexity pruning (Larose 2005) .

Cost Complexity Pruning (CCP)

Proses awal dari algoritme Cost

complexity pruning adalah menentukan nilai

alpha, yaitu derajat kompleksitas sebuah pohon keputusan. Perhitungan nilai alpha menggunakan Persamaan 2 (Quinlan 1987).

!

………..….

(2) dengan: rT$ ∑_∑'()*_+&%& '()* …………..(3) dengan:

r(,) = error rate pada subtree ,. -. = jumlah data dengan kelas

minoritas pada node s. /. = jumlah data pada node s. . = node anggota subtree ,.

01 2 ………...(4) dengan:

01 = error rate dari node t.

-1 = jumlah data dengan kelas minoritas pada node t.

/1 = jumlah data pada node t. = parameter kompleksitas, / = jumlah leaf node pada pohon ,.

Pada setiap internal node dilakukan perhitungan nilai alpha dengan menggunakan

persamaan di atas. Internal node dengan nilai alpha yang paling kecil akan dipangkas. Pohon yang dipangkas akan dihitung nilai error rate. Hal tersebut diperoleh dari test set yang dimasukkan ke dalam aturan pohon keputusan. Perhitungan alpha terus dilakukan hingga tidak terdapat lagi internal node pada pohon keputusan.

Seluruh nilai error rate dari pemangkasan dengan nilai alpha yang mendekati serupa satu dengan yang lain akan dijumlahkan dan dihitung nilai rata-ratanya. Nilai rata-rata tersebut akan dibandingkan dengan seluruh nilai rataan misclassification error yang ada. Nilai alpha dengan error rate paling kecil akan digunakan sebagai alpha pada pemangkasan pohon keputusan.

Reduced Error Pruninng (REP)

REP merupakan salah satu algoritme

pruning yang dikemukakan oleh Quinlan

(1987). Algoritme ini membagi data menjadi dua yaitu train set dan test set. Setiap internal

node pada pohon yang dihasilkan, dihitung

berapa nilai error rate internal node tersebut menggunakan Persamaan 3. Kemudian dengan Persamaan 4 dihitung nilai error rate node tersebut apabila node merupakan leaf

node. Hasil perhitungan keduanya

dibandingkan, dan pruning dilakukan jika error rate hasil Persamaan 4 lebih kecil daripada error rate Persamaan 3.

Apabila perubahan status pada node dari internal node menjadi leaf node memiliki nilai

error rate yang sama atau lebih rendah

daripada jika node tersebut menjadi internal node maka pruning dilakukan. Proses tersebut terus dilakukan hingga terbentuk pohon keputusan dengan error rate yang terbaik dan jumlah aturan yang optimal (Quinlan 1987).

Error Based Pruning (EBP)

Algoritme EBP biasa digunakan pada algoritme decision tree c4.5 . Algoritme ini mengizinkan pergantian subtree dengan salah satu dari leaf node-nya untuk membuat decision tree yang lebih simpel.

EBP mulai melakukan pruning pada internal node dari bagian bawah decision tree. Pemeriksaan setiap internal node dilakukan dengan menggunakan Persamaan 5.

-`1 4 -`, 5 .167-` ,8 … 5

dengan:

(12)

4 e`(Tt) = error rate subtree dengan internal

node t (Ripley 1996).

.167-` ,8 ;-`, < /1 -`,//1> ?@ dengan :

/1 = jumlah node yang diperiksa error rate-nya.

Apabila nilai error rate menjadi lebih kecil maka pruning subtree dilakukan (Quinlan 1992).

Algoritme CART memiliki beberapa keunggulan dibandingkan dengan metode lainnya yaitu (Lewis 2000 ; Timofeev 2004): 1 non-parametric, sehingga tidak

memerlukan asumsi dalam pemilihan variabel.

2 Mudah menangani outlier, karena CART memisahkan outlier pada node yang berbeda sehingga efek negatif dari outlier dapat dihindari.

3 Memiliki waktu proses yang cepat. 4 Baik dalam menangani ketidaklengkapan

data. Data dengan nilai prediktor variabel yang tidak lengkap tetap dapat digunakan untuk membangun decision tree.

5 Tree dari metode CART mudah diinterpretasikan oleh orang awam.

K-Fold Cross Validation

K-fold Cross Validation yang biasa disebut

rotation estimation, membagi data A secara

acak menjadi k bagian subset A_B, A_D, … , A_E yang saling bebas. Masing-masing subset AB, AD, … , AE yang dihasilkan k-fold cross validation memiliki jumlah yang mendekati keseragaman. Dengan menggunakan k-fold

cross validation proses pelatihan dan

pengujian dilakukan sebanyak k kali. Setiap ulangan ke- F GHB, D, … , EI pelatihan dilakukan dengan menggunakan data A\A_F dan pengujian dengan menggunakan data A_F (Kohavi 1995).

Dengan menggunakan cross-validation, nilai error rate yang dihasilkan merupakan jumlah seluruh kesalahan klasifikasi dibagi dengan jumlah seluruh data yang digunakan. Sistem ini diharapkan akan menghasilkan nilai error rate yang mewakili keseluruhan klasifikasi.

METODE PENELITIAN

Penelitian ini menerapkan tahapan yang tertuang dalam suatu Metodologi Penelitian sebagai terlihat pada Gambar 1.

Gambar 1 Metode penelitian.

Studi Literatur

Studi literatur dilakukan dengan memperdalam algoritme-algoritme yang akan dibandingkan. Informasi yang diperoleh berasal dari beberapa sumber seperti : jurnal, buku dan artikel di internet.

Pengumpulan Data

Penelitian ini menggunakan data profile pelanggan dari perusahaan penyedia kredit. Data tersebut diperoleh dari bank data pada University of California (Asuncion & Newman 2007). Contoh data dapat dilihat pada Lampiran 1.

Data Mining

Teknik data mining dengan metode decision tree terdiri dari dua tahapan, yaitu: 1 Pembentukan Tree

Pada tahap ini akan dibentuk suatu tree yang terdiri dari node awal, leaf sebagai

Mulai Studi Literatur Pengumpulan Data DATA Pembangunan Decision tree Analisis Hasil Dokumentasi Selesai EBP REP CCP Pembagian Data Training Set Test set pruning

(13)

5 distribusi kelas dan batang yang

menggambarkan hasil keluaran dari pengujian. Pengujian dilakukan pada atribut tertentu dari data. Pemilihan atribut dilakukan setiap kali kedalaman tree bertambah. Pemilihan atribut dilakukan dengan menggunakan Persamaan 1. Atribut dengan nilai GiniA(D) paling kecil adalah atribut yang akan digunakan. 2 Pemangkasan Tree

Pemangkasan tree dilakukan dengan menggunakan tiga algoritme yaitu : CCP, REP dan EBP.

Analisis Hasil

Analisis dilakukan dengan

membandingkan hasil decision tree yang dilakukan oleh algoritme pruning CCP, REP, EBP. Analisis dilakukan berulang-ulang pada data dengan jumlah instance dan variabel yang berbeda-beda. Hal yang diamati adalah nilai error rate dari decision tree, jumlah node yang dikurangi, serta waktu eksekusi masing-masing algoritme.

HASIL dan PEMBAHASAN

Data

Data yang digunakan pada penelitian ini memiliki 20 variabel dengan dua buah kelas dan berjumlah 1000 instance. Dari 20 variabel yang ada pada data, 13 variabel merupakan data kualitatif dan sisanya merupakan data bertipe numerik. Data tersebut sudah baik karena tidak memiliki missing value.

Pada penelitian ini tidak dilakukan data

preprocessing. Preprocessing tidak dilakukan

karena data yang digunakan sudah mengalami proses tersebut.

Data dengan jumlah instance 5000 dan 10000 mendapat tambahan data yang berasal dari pembangkitan data secara acak. Walaupun dibangkitkan secara acak, nilai variabel kelas dari setiap instance yang ada diperoleh dari klasifikasi berdasarkan decision tree yang dibangun dengan data asli.

Data Mining

Proses awal dari Penelitian ini adalah pembangunan decision tree. Decision tree dibangun dengan menggunakan algoritme CART.

1 Pembentukan Tree

Pembentukan tree dilakukan dengan membagi data menjadi 4 bagian (S1,..,S4) yang

memiliki jumlah merata. Secara bergantian tiga bagian data digunakan untuk membangun decision tree dan satu bagian lainnya sebagai data testing.

Pembentukan tree dilakukan berulang-ulang yaitu pada data dengan jumlah instance 250, 500, 1000, 5000, dan 10000. Selain itu pembentukan tree juga dilakukan pada data dengan jumlah variabel yang berbeda-beda. Pembentukan tree dilakukan pada data dengan jumlah variabel yang dikurangi sebanyak 1, 3, 5, 7, 10, dan 15 variabel.

2 Pemangkasan Tree

Pemangkasan tree dilakukan dengan menggunakan tiga algoritme, yaitu CCP, REP dan EBP. Penerapan algoritme CCP agak sedikit berbeda dengan dua algoritme lainnnya. Sebelum melakukan pruning, algoritme CCP terlebih dahulu menentukan nilai alpha. Penentuan nilai alpha dimulai dengan membagi data menjadi 10 bagian (S1,….,S10) dengan algoritme 10-folds cross.

Secara bergantian sembilan bagian data digunakan untuk membangun decision tree dan satu bagian yang lain sebagai data testing. Dari perlakuan tersebut, CCP akan menghasilkan berbagai nilai alpha serta error rate, dari seluruh nilai tersebut dicari nilai alpha dengan error rate minimum. Nilai alpha yang akan digunakan sebagai standar pruning algoritme CCP.

Berbeda dengan CCP, algoritme REP dan EBP tidak perlu menentukan nilai khusus sebagai standar pruning. Algoritme REP dan EBP langsung melakukan pruning pada decision tree yang dihasilkan.

Analisis Hasil

Analisis hasil percobaan dilakukan dengan membandingkan hasil decision tree yang dilakukan oleh algoritme pruning CCP, REP, EBP. Hasil perbandingan algoritme pruning pada data dengan variabel maupun jumlah instance yang berbeda dapat dilihat pada Lampiran 2.

Rataan nilai error rate dari decision tree hasil pruning dengan tiga buah algoritme serta error rate decision tree sebelum mengalami pruning disajikan pada Tabel 1.

(14)

6 Tabel 1 Error rate pada decision tree dengan berbagai jumlah instance data.

Algoritme

Pruning

Error Rate

250 data 500 data 750 data 1000 data 5000 data 10000 data

CCP _0.3543 _0.318 _0.3133 _0.3076 _0.2194 _0.1944

REP _0.3481 _0.3076 _0.3037 _0.2984 _0.2187 _0.1931

EBP _0.3544 _0.3152 _0.2997 _0.3004 _0.2169 _0.1918

Tree Awal

0.3639 0.3344 0.3255 0.3322 0.2123 0.1506

Dari Tabel 1 terlihat bahwa error rate setelah dilakukan pruning untuk data dengan jumlah instance kurang dari sama dengan 1000 lebih baik daripada nilai error rate sebelum dilakukan pruning. Namun untuk data dengan jumlah instance lebih dari 1000, terlihat bahwa nilai error rate decision tree awal lebih baik daripada nilai error rate setelah tree di-pruning.

Secara global nilai error rate yang paling baik untuk data dengan instance kurang dari sama dengan 1000 dihasilkan oleh algoritme REP. Untuk data dengan jumlah instance lebih dari 1000, nilai error rate yang paling baik dihasilkan oleh algoritme EBP.

Data dengan jumlah 5000 dan 10000 diperoleh dengan cara dibangkitkan secara acak dari data yang ada. Nilai rataan ragam dari data awal adalah 996015.15. Sedangkan nilai ragam untuk 5000 dan 10000 adalah 4154527.8 dan 4142692.469. Nilai ragam dari data tersebut lebih besar dari nilai ragam data awal. Nilai ragam yang lebih besar menunjukkan bahwa data tersebut kurang seragam.

Keragamaan yang besar cenderung akan meningkatkan probabilitas terjadinya kesalahan. Oleh sebab itu nilai error rate pada suatu decision tree yang dibangun pada satu bagian data belum tentu mewakili bagian data yang lain. Karena itu perlu diterapkan standar deviasi agar nilai error rate yang dihasilkan lebih relevan. EBP menerapkan standar deviasi pada proses pruningnya dengan tujuan untuk memperoleh error rate yang lebih baik. Terlihat pada Tabel 1 nilai error rate pada data dengan nilai ragam yang besar yaitu 5000 dan 10000 data, error rate EBP lebih baik daripada error rate algoritme lainnya.

Gambar 2 merupakan grafik error rate pada decision tree dengan berbagai jumlah

instance data. Pada Gambar 2 terlihat bahwa

nilai error rate ketiga algoritme pruning semakin baik sejalan dengan jumlah data yang semakin bertambah.

Gambar 2 Error rate pada decision tree dengan berbagai jumlah instance data.

Pruning pada data dengan instance lebih dari jumlah instance data asli cenderung mengalami overprune. Hal tersebut terlihat dari nilai error rate yang dihasilkan lebih besar daripada error rate decision tree awal. Overprune dapat disebabkan oleh pendugaan yang salah pada saat penentuan nilai kelas data saat pembangkitan data secara acak.

Decision tree yang digunakan untuk

klasifikasi dibangun menggunakan data yang asli yang berjumlah 1000 instance. Sedangkan jumlah data yang akan diklasifikasikan berjumlah lebih dari 1000 instance. Hal tersebut yang memungkinkan terjadinya kesalahan klasifikasi yang mengakibatkan terjadinya overprune. 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Er ro r ra te Jumlah data CCP REP EBP Tree Awal

(15)

Tabel 2 Error rate pada decision tree Algoritme Pruning 20 variabel variabel CCP 0.3076 0.3086 REP 0.2984 0.2996 EBP 0.3004 0.3016 Tree Awal 0.3278 0.3276

Gambar 3 merupakan grafik rataan nilai error rate pada decision tree

jumlah instance data. Pada grafik terlihat bahwa secara global nilai error rate

tree yang mengalami pruning daripada decision tree awal. Gambar 3 juga menunjukkan bahwa REP menghasilkan decision tree

rate yang paling rendah dibandingkan dengan algoritme lain.

Gambar 3 Rataan error rate

tree dengan berbagai jumlah

instance data.

Serupa dengan Tabel 1, Tabel 2 juga memperlihatkan nilai error rate

tree hasil pruning dengan tiga buah algoritme dan error rate decision tree

mengalami pruning. Berbeda dengan

data yang digunakan untuk membangun decision tree pada Tabel 2 merupakan data dengan jumlah instance 1000. Serta jumlah variabel yang digunakan berbeda

jumlah variabel data asli.

Pada Tabel 2 terlihat bahwa untuk data dengan jumlah variabel lebih dari 5 untuk ketiga algoritme pruning memiliki nilai rate yang lebih baik daripada nilai

decision tree awal. Sedangkan pada data dengan 5 variabel, error rate

dihasilkan oleh decision tree kemudian diikuti oleh algoritme

0.2837

0.277

0.278

CCP REP EBP

decision tree dengan berbagai jumlah variabel data.

Error Rate 19 variabel 17 variabel 15 variabel 13 variabel 10 variabel 8 variabel 0.3086 0.3164 0.3094 0.3128 0.315 0.3364 0.2996 0.2938 0.2878 0.3006 0.3062 0.3338 0.3016 0.2972 0.2898 0.2962 0.2946 0.3138 0.3276 0.3278 0.3122 0.324 0.3194 0.3628

Gambar 3 merupakan grafik rataan nilai decision tree dengan berbagai Pada grafik terlihat error rate decision pruning lebih baik awal. Selain itu, juga menunjukkan bahwaalgoritme decision tree dengan error yang paling rendah dibandingkan dengan

rror rate pada decision dengan berbagai jumlah Serupa dengan Tabel 1, Tabel 2 juga error rate dari decision dengan tiga buah algoritme decision tree sebelum . Berbeda dengan Tabel 1, data yang digunakan untuk membangun

pada Tabel 2 merupakan data 1000. Serta jumlah variabel yang digunakan berbeda-beda dari Pada Tabel 2 terlihat bahwa untuk data iabel lebih dari 5 untuk memiliki nilai error yang lebih baik daripada nilai error rate awal. Sedangkan pada data error rate paling kecil decision tree awal yang kemudian diikuti oleh algoritme EBP, sebagai

algoritme yang menghasilkan terkecil setelah decision tree awal.

Semakin kecil nilai variabel akan berpengaruh pada jumlah

dihasilkan oleh decision tree. Semakin sedikit node sama saja dengan semakin sedikit aturan yang terbentuk pada decision tree

Jumlah aturan pada decision tree pada keakuratan klasifikasi decision tree tersebut berpengaruh pada proses pemilahan data saat pembangunan decision tree Pemilahan data yang kurang baik menyebabkan peningkatan nilai

pada setiap node. Hal tersebut yang menyebabkan terjadinya overprune

Gambar 4 menunjukkan bahwa nilai rate yang paling baik untuk data dengan jumlah variabel lebih dari sama dengan 15 dihasilkan oleh algoritme REP.

dengan jumlah variabel kurang dari 15, nilai error rate yang paling baik dihasilkan oleh algoritme EBP.Sedangkan pada data dengan 5 variabel terjadi overprune, hal tersebut terlihat dari nilai error rate ketiga algoritme yang lebih besar daripada nilai decision tree

Gambar 4 Error rate pada decision tree dengan berbagai jumlah variabel data.

0.278

0.285

EBP Tree Awal

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 5 8 10 13 15 17 19 20 Er ro r ra te Jumlah Variabel 7 8 variabel 5 variabel 0.3364 0.3168 0.3338 0.3096 0.3138 0.308 0.3628 0.3202

algoritme yang menghasilkan error rate awal.

Semakin kecil nilai variabel akan

node yang

. Semakin sedikit a saja dengan semakin sedikit aturan decision tree tersebut. berpengaruh decision tree. Hal tersebut berpengaruh pada proses pemilahan

decision tree.

ilahan data yang kurang baik menyebabkan peningkatan nilai error rate . Hal tersebut yang

overprune.

njukkan bahwa nilai error yang paling baik untuk data dengan lebih dari sama dengan 15 dihasilkan oleh algoritme REP. Untuk data dengan jumlah variabel kurang dari 15, nilai yang paling baik dihasilkan oleh algoritme EBP.Sedangkan pada data dengan 5 , hal tersebut terlihat ketiga algoritme yang decision tree awal.

decision tree dengan berbagai jumlah variabel

20 CCP REP EBP Tree Awal

(16)

Dengan demikian pada kondisi tersebut, decision tree yang paling baik dihasilkan apabila decision tree tersebut tidak mengalami pruning.

Gambar 5 adalah grafik rataan nilai rate pada decision tree

jumlah variabel data. Pada grafik terlihat bahwa nilai rataan error rate

yang mengalami pruning lebih baik daripada decision tree awal.

Gambar 5 Rataan error rate pada tree dengan berbagai jumlah variabel data.

Hal tersebut tidak berbeda dengan percobaan yang dilakukan pada data dengan berbagai jumlah instance. Selain itu,

5 juga menunjukkan bahwa EBP menghasilkan decision tree

error rate yang paling rendah dibandingkan dengan algoritme lain. Dengan demikian pruning dengan algoritme EBP yang dilakukan pada data dengan

yang berbeda, akan cenderung memiliki nilai error rate yang lebih baik.

Hasil rataan error rate secara keseluruhan dapat dilihat pada Gambar 6.

mewakili seluruh error rate baik percobaan dengan jumlah

yang berbeda-beda maupun percobaan dengan berbagai jumlah variabel.

Gambar 6 Rataan error rate perulangan. 0.3071 0.2944 _0.2933 CCP REP EBP 0.295 0.2862 0.2865 CCP REP EBP

Dengan demikian pada kondisi tersebut, yang paling baik dihasilkan tersebut tidak mengalami adalah grafik rataan nilai error dengan berbagai Pada grafik terlihat error rate decision tree lebih baik daripada

pada decision dengan berbagai jumlah

Hal tersebut tidak berbeda dengan percobaan yang dilakukan pada data dengan Selain itu, Gambar juga menunjukkan bahwa rataan algoritme decision tree dengan nilai yang paling rendah dibandingkan . Dengan demikian dengan algoritme EBP yang dilakukan pada data dengan jumlah variabel akan cenderung memiliki nilai secara keseluruhan dapat dilihat pada Gambar 6. Gambar 6 error rate yang dihasilkan, baik percobaan dengan jumlah instance data beda maupun percobaan dengan

error rate keseluruhan

Gambar 6 menunjukkan nilai yang tidak jauh berbeda dengan Gambar 3. Pada 6 terlihat bahwa rataan nilai decision tree yang mengalami pruning baik daripada decision tree awal.

juga menunjukkan bahwa algoritme REP menghasilkan decision tree dengan

yang paling rendah dibandingkan dengan algoritme lain.

Gambar 7 Rataan selisih node Gambar 6 menunjukkan bahwa

rate yang dihasilkan algoritme REP

tidak jauh berbeda. Namun dari dapat dilihat bahwa rataan node yang di oleh masing-masing algoritme cukup jauh berbeda. Pada Gambar 7 terlihat bahwa rata rata algoritme EBP mampu memangkas kurang lebih 70 persen dari jumlah keseluruhan node. Hal tersebut cukup berbeda dengan algoritme REP yang rata

memangkas 52 persen dari node

Sehingga dapat dikatakan bahwa dengan nilai error rate yang tidak jauh berbeda, algoritme EBP mampu memangkas node lebih banyak daripada algoritme REP. Semakin banyak node yang berkurang pada decision tree akan cenderung semakin cepat decision tree tersebut melakukan klasifikasi.

Gambar 8 merupakan grafik nilai rataan waktu klasifikasi masing-masing

yang telah mengalami pruning.

Gambar 8 Rataan waktu klasifikasi tree yang telah di pruning

0.2933 0.3148

EBP Tree Awal

0.2865 0.3009

EBP Tree Awal

32.76% 52.70% 70.02% CCP REP 0.77 0.76 CCP REP 8 menunjukkan nilai yang tidak

. Pada Gambar nilai error rate pruning lebih awal. Gambar 6 lgoritme REP dengan error rate yang paling rendah dibandingkan dengan

node. menunjukkan bahwa nilai error

algoritme REP dan EBP tidak jauh berbeda. Namun dari Gambar 7 yang di prune masing algoritme cukup jauh terlihat bahwa rata-rata algoritme EBP mampu memangkas

n dari jumlah . Hal tersebut cukup berbeda an algoritme REP yang rata-rata hanya node yang ada. Sehingga dapat dikatakan bahwa dengan nilai yang tidak jauh berbeda, algoritme lebih banyak Semakin banyak decision tree maka decision tree Gambar 8 merupakan grafik nilai rataan masing decision tree

Rataan waktu klasifikasi decision pruning

70.02%

EBP

0.71

(17)

9 Gambar 8 menunjukkan bahwa decision tree

yang menggunakan algoritme EBP sebagai algoritme pruning memiliki waktu klasifikasi paling cepat. Algoritme EBP merupakan algoritme yang menghasilkan decision tree paling ringkas dibandingkan dengan dua algoritme lain. Sedangkan algoritme CCP merupakan algoritme yang menyisakan node paling banyak setelah proses pruning. Dengan konsidi tersebut, decision tree hasil pruning dengan algoritme CCP merupakan decision tree dengan waktu klasifikasi terlama. Sehingga dapat disimpulkan bahwa jumlah node pada decision tree akan berpengaruh pada waktu klasifikasi decision tree tersebut. Selain mengukur error rate dan selisih node, perbandingan ketiga algoritme dapat dilihat dari waktu eksekusi ketiga algoritme tersebut. Waktu yang digunakan oleh masing-masing algoritme dapat dilihat pada Gambar 9 dan 10. Gambar 9 menunjukkan waktu eksekusi algoritme pruning pada data dengan jumlah instance yang berbeda-beda. Walaupun Gambar 8 memperlihatkan bahwa masing-masing algoritme cenderung memiliki waktu eksekusi yang serupa, data dengan jumlah instance 750 dan 1000 menunjukkan bahwa waktu eksekusi algoritme CCP lebih cepat dibandingkan dua algoritme lainnya.

Gambar 9 Waktu eksekusi pada data dengan berbagai jumlah instance.

Gambar 10 Waktu eksekusi pada data dengan berbagai variabel.

Nilai waktu eksekusi algoritme pruning pada data dengan jumlah variabel berbeda-beda dapat dilihat pada Gambar 10. Pada Gambar 10 terlihat bahwa meningkatnya jumlah variabel pada data akan berpengaruh pada waktu eksekusi algoritme pruning. Semakin banyak variabel pada data maka semakin banyak waktu yang digunakan untuk proses pruning. Pada grafik terlihat bahwa algoritme CCP memiliki waktu eksekusi yang lebih cepat daripada algoritme lainnya hampir pada setiap perulangan kecuali pada data dengan 5 dan 19 variabel.

KESIMPULAN DAN SARAN

Kesimpulan

Penelitian ini menerapkan ketiga algoritme pruning pada decision tree yang dibangun dengan algoritme CART. Masing-masing algoritme pruning menghasilkan decision tree yang lebih simpel.

Hasil penelitian yang dilakukan menunjukkan bahwa pada rataan error rate seluruh percobaan, algoritme REP akan menghasilkan error rate paling kecil. Hasil tersebut tidak berbeda dengan penelitian sebelumnya oleh Esposito et al. (1997). Walaupun error rate algoritme REP lebih kecil, error rate tersebut hanya berbeda 0.5% dengan nilai error rate algoritme EBP. Dengan nilai error rate yang mendekati serupa, EBP menghasilkan decision tree yang jauh lebih simpel daripada algoritme REP.

Saran

Saran yang dapat dilakukan pada penelitian selanjutnya ialah :

1. Perbandingan algoritme pruning dilakukan pada data dengan kelas data lebih dari dua. 2. Melakukan perbandingan algoritme pruning pada decision tree dengan algoritme lainnya seperti Supervised Learning In Quest (SLIQ) atau Scalable Parallelizable Induction of Decision Tree (SPRINT), kemudian hasilnya bisa dibandingkan dengan penelitian ini.

0 1 2 3 4 5 6 W a k tu (m s) Jumlah Data CCP REP EBP 0 0.2 0.4 0.6 0.8 1 1.2 1.4 5 10 13 15 17 19 20 W a k tu(m s) Jumlah Variabel CCP REP EBP

(18)

10

DAFTAR PUSTAKA

Asuncion A. & Newman DJ. (2007). UCI Machine Learning Repository [http://www.ics.uci.edu/~mlearn/MLRe pository.html]. Irvine, CA: University of California, School of Information and Computer Science.

Esposito F, Donato M, Giovanni S. 1997. A Comparative Analysis of Methods for Pruning Decision Trees [catatan penelitian]. IEEE Transactions on Pattern Analysis and Machine Intelligence vol. 19, hlm. 476-491. Gehrke J, Ramakrishnan R, Ganti V. 1998.

RainForest – A Framework for Fast Decision Tree Construction of Large Database [skripsi]. Madison : Department of Computer Sciences , University of Wisconsin.

Han J, Kamber M. 2006. Data Mining: Concepts and Techniques. Ed ke-2. USA: Academic Press.

Kantardzic M. 2003. Data Mining: Concepts, Models, Methods, and Algorithms. Wiley-Interscience.

Kohavi R. 1995. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. Di dalam: Proceedings of the International Joint Conference on Artificial Intelligence; 1995. San Mateo, CA : Morgan Kaufmann. hlm 1137-1143.

Larose TD. 2005. Discovering Knowledge in Data : an Introduction to Data Mining. USA : John Wiley & Sons, Inc. Lewis RJ. 2000. An Introduction to

Classification and Regression Tree (CART) Analysis [tesis]. California : Department of Emergency Medicine Harbor, UCLA Medical Center. Quinlan JR. 1987. Simplifying Decision Trees

[catatan penelitian]. International Journal of Man-Machine Studies vol. 27, hlm. 221-234.

Quinlan JR. 1992. C4.5: Programs for

Machine Learning. San Mateo,

CA:Morgan Kaufmann.

Ripley BD. 1996. Pattern Recognition and

Neural Networks. Cambridge :

Cambridge University Press.

Timofeev R. 2004. Classification and Regression Trees (CART) Theory and Application [tesis]. Berlin : Center of Applied Statistics and Economics, Humboldt University.

(19)

(20)

No Sal Mon His Pur Amt Acc Work Rate Stat Gua Res Prop Age IP Home Cre Job PM Phone FW Class

1 A11 6 A34 A43 1169 A65 A75 4 A93 A101 4 A121 67 A143 A152 2 A173 1 A192 A201 1

2 A12 48 A32 A43 5951 A61 A73 2 A92 A101 2 A121 22 A143 A152 1 A173 1 A191 A201 2

3 A14 12 A34 A46 2096 A61 A74 2 A93 A101 3 A121 49 A143 A152 1 A172 2 A191 A201 1

4 A11 42 A32 A42 7882 A61 A74 2 A93 A103 4 A122 45 A143 A153 1 A173 2 A191 A201 1

5 A11 24 A33 A40 4870 A61 A73 3 A93 A101 4 A124 53 A143 A153 2 A173 2 A191 A201 2

6 A14 36 A32 A46 9055 A65 A73 2 A93 A101 4 A124 35 A143 A153 1 A172 2 A192 A201 1

7 A14 24 A32 A42 2835 A63 A75 3 A93 A101 4 A122 53 A143 A152 1 A173 1 A191 A201 1

8 A12 36 A32 A41 6948 A61 A73 2 A93 A101 2 A123 35 A143 A151 1 A174 1 A192 A201 1

9 A14 12 A32 A43 3059 A64 A74 2 A91 A101 4 A121 61 A143 A152 1 A172 1 A191 A201 1

10 A12 30 A34 A40 5234 A61 A71 4 A94 A101 2 A123 28 A143 A152 2 A174 1 A191 A201 2

11 A12 12 A32 A40 1295 A61 A72 3 A92 A101 1 A123 25 A143 A151 1 A173 1 A191 A201 2

12 A11 48 A32 A49 4308 A61 A72 3 A92 A101 4 A122 24 A143 A151 1 A173 1 A191 A201 2

13 A12 12 A32 A43 1567 A61 A73 1 A92 A101 1 A123 22 A143 A152 1 A173 1 A192 A201 1

14 A11 24 A34 A40 1199 A61 A75 4 A93 A101 4 A123 60 A143 A152 2 A172 1 A191 A201 2

15 A11 15 A32 A40 1403 A61 A73 2 A92 A101 4 A123 28 A143 A151 1 A173 1 A191 A201 1

16 A11 24 A32 A43 1282 A62 A73 4 A92 A101 2 A123 32 A143 A152 1 A172 1 A191 A201 2

17 A14 24 A34 A43 2424 A65 A75 4 A93 A101 4 A122 53 A143 A152 2 A173 1 A191 A201 1

18 A11 30 A30 A49 8072 A65 A72 2 A93 A101 3 A123 25 A141 A152 3 A173 1 A191 A201 1

19 A12 24 A32 A41 12579 A61 A75 4 A92 A101 2 A124 44 A143 A153 1 A174 1 A192 A201 2

20 A14 24 A32 A43 3430 A63 A75 3 A93 A101 2 A123 31 A143 A152 1 A173 2 A192 A201 1

Keterangan :

Atribut 1 (Sal) : (kualitatif)

Pendapatan per tahun A11 : ... < 0 DM

A12 : 0 <= ... < 200 DM A13 : ... >= 200 DM

A14 : Tidak memilki rekening

L am p ira n 1 C o n to h d at a p ro fil e p el an g g an 1 2

(21)

13 Lanjutan

Atribut 2 (Mon) : (numerik)

Lama waktu kredit (dalam bulan). Atribut 3 (His) : (kualitatif)

Pengalaman Kredit

A30 : tidak ada / semua kredit lunas

A31 : semua kredit pada perusahaan sudah lunas A32 : kredit masih berjalan dengan angsuran tepat waktu A33 : keterlambatan pembayaran pada kredit sebelumnya A34 : tabungan kritis/ ada kredit lainnya (bukan di perusahaan ini) Atribut 4 (Pur) : (kualitatif)

Tujuan kredit A40 : mobil (baru)

A41 : mobil (bekas) A42 : perlengkapan rumah A43 : radio/TV

A44 : domestic appliances A45 : perbaikan A46 : pendidikan A47 : liburan A48 : retraining A49 : bisnis A410 : lain-lain Atribut 5 (Amt) : (numerik)

Jumlah kredit Attibute 6 (Acc) : (kualitatif)

Tabungan

A61 : ... < 100 DM A62 : 100 <= ... < 500 DM A63 : 500 <= ... < 1000 DM A64 : .. >= 1000 DM A65 : Tidak memiliki tabungan Atribut 7 (Work) : (kualitatif)

Lama bekerja A71 : pengangguran A72 : ... < 1 tahun A73 : 1 <= ... < 4 tahun A74 : 4 <= ... < 7 tahun A75 : .. >= 7 tahun Atribut 8 (Rate) : (numerik)

Installment rate in percentage of disposable income Atribut 9 (Stat) : (kualitatif)

Status dan jenis kelamin A91 : pria : bercerai/berpisah

A92 : wanita : bercerai/berpisah/menikah A93 : pria : lajang

A94 : pria : menikah/duda A95 : wanita : lajang

(22)

14 Lanjutan

Atribut 10 (Gua) : (kualitatif)

pelanggan lainnya / penjamin A101 : tidak ada

A102 : pelangganlain A103 : penjamin Atribut 11 (Res) : (numerik)

Lama menetap Atribut 12 (Prop) : (kualitatif)

Properti

A121 : real estate

A122 : jika bukan A121 : building society savings agreement/ jaminan hidup

A123 : jika bukan A121/A122 : mobil atau lainnya, tidak pada Atribut 6

A124 : tidak diketahui / tidak memiliki properti Atribut 13 (Age) : (numerik)

Umur (dalam tahun) Atribut 14 (IP) : (kualitatif)

Rencana kredit lainnya

A141 : bank A142 : toko A143 : tidak ada Atribut 15 (Home): (kualitatif)

Kepemilikan rumah A151 : sewa A152 : hak milih A153 : bebas Atribut 16 (Cre) : (numerik)

Jumlah kredit pada bank

Atribut 17 (Job) : (kualitatif) Pekerjaan

A171 : pengangguran/ tanpa keahlian - tanpa tempat tinggal A172 : tanpa keahlian – memiliki tempat tinggal

A173 : pekerja dengan keahlian / pejabat

A174 : managemen/ wirausaha / pekerja berkualitas tinggi / pejabat militer Atribut 18 (PM) : (numerik)

Jumlah orang yang bertanggung jawab Atribut 19 (Phone): (kualitatif)

Telepon A191 : tidak ada

A192 : ada, teregistrasi dengan nama pelanggan Atribut 20 (FW) : (kualitatif)

pekerja asing A201 : ya A202 : tidak Atribut 21 (Class): (kualitatif) kelas

1 : resiko kredit baik 2 : resiko kredit buruk

(23)

15 Lampiran 2 Hasil perbandingan pruning

a Hasil perbandingan pruning menggunakan 250 data

U la n g an k e-CCP REP EBP Tree Awal E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) C la ss t im e (m s) E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) cl as s ti m e (m s) E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) C la ss t im e (m s) 1 _0.317 _{111 95} ₁₆ _0.438 _0.088 _0.27 _{111 47} ₆₄ _0.443 _0.053 _0.27 _{111 19} ₉₂ _0.472 _0.053 _0.381 2 _0.254 _{109 101} ₈ _0.306 _0.121 _0.254 _{109 75} ₃₄ _0.451 _0.085 _0.238 _{109 33} ₇₆ _0.425 _0.088 _0.254 3 _0.323 _{105 13} ₉₂ _0.1 _0.037 _0.323 _{105 13} ₉₂ _0.241 _0.029 _0.306 ₁₀₅ ₃ ₁₀₂ _0.256 _0.029 0.34 4 _0.339 ₈₉ ₈₉ ₀ _0.159 _0.079 _0.306 ₈₉ ₅₅ ₃₄ _0.409 _0.068 _0.339 ₈₉ ₂₇ ₆₂ _0.456 _0.057 _0.339 5 _0.429 ₁₂₇ ₃ ₁₂₄ _0.251 _0.022 _0.429 ₁₂₇ ₃ ₁₂₄ _0.339 _0.019 _0.429 ₁₂₇ ₃ ₁₂₄ _0.386 _0.021 _0.476 6 _0.429 ₁₁₇ ₃ ₁₁₄ _0.19 _0.02 _0.429 ₁₁₇ ₃ ₁₁₄ _0.259 _0.027 _0.429 ₁₁₇ ₃ ₁₁₄ _0.275 _0.021 0.413 7 _0.5 ₁₂₁ ₃ ₁₁₈ _0.175 _0.019 _0.516 _{121 19 102} _0.289 _0.042 _0.5 ₁₂₁ ₃ ₁₁₈ _0.281 _0.018 0.34 8 _0.306 ₁₀₇ ₃ ₁₀₄ _0.171 _0.021 _0.5 ₁₀₇ ₇ ₁₀₀ _0.238 _0.031 _0.5 ₁₀₇ ₇ ₁₀₀ _0.249 _0.027 _0.419 9 _0.317 _{125 125} ₀ _0.218 _0.088 _0.238 _{125 79} ₄₆ _0.602 _0.06 _0.27 _{125 37} ₈₈ _0.71 _0.053 _0.317 10 _0.317 _{107 107} ₀ _0.137 _0.065 _0.286 _{107 71} ₃₆ _0.453 _0.05 _0.317 _{107 41} ₆₆ _0.474 _0.048 _0.317 11 _0.339 _{115 115} ₀ _0.169 _0.088 _0.371 _{115 55} ₆₀ _0.592 _0.067 _0.355 _{115 43} ₇₂ _0.57 _0.692 0.34 12 _0.355 _{107 107} ₀ _0.176 _0.078 _0.339 _{107 75} ₃₂ _0.288 _0.068 _0.339 _{107 39} ₆₈ _0.255 _0.056 _0.355 13 _0.349 ₉₃ ₇₇ ₁₆ _0.35 _0.838 _0.397 ₉₃ ₅₇ ₃₆ _0.427 _0.067 _0.397 ₉₃ ₃₉ ₅₄ _0.541 _0.06 _0.365 14 _0.397 ₈₉ ₈₉ ₀ _0.156 _0.078 _0.349 ₈₉ ₅₉ ₃₀ _0.381 _0.064 _0.365 ₈₉ ₃₉ ₅₀ _0.427 _0.06 _0.397 15 _0.403 ₈₉ ₈₉ ₀ _0.162 _0.069 _0.387 ₈₉ ₅₅ ₃₄ _0.388 _0.055 _0.419 ₈₉ ₃₃ ₅₆ _0.409 _0.051 0.34 16 _0.323 ₈₉ ₇₇ ₁₂ _0.245 _0.068 _0.306 ₈₉ ₆₃ ₂₆ _0.676 _0.067 _0.29 ₈₉ ₃₉ ₅₀ _0.374 _0.056 _0.323 17 _0.413 _{113 113} ₀ _0.201 _0.084 _0.349 _{113 49} ₆₄ _0.485 _0.06 _0.381 _{113 37} ₇₆ _0.51 _0.056 _0.413 18 _0.397 _{109 109} ₀ _0.166 _0.08 _0.317 _{109 63} ₄₆ _1.196 _0.064 _0.302 _{109 33} ₇₆ _0.511 _0.053 _0.397 19 _0.274 _{103 39} ₆₄ _0.169 _0.029 _0.274 _{103 39} ₆₄ _0.31 _0.029 _0.306 _{103 11} ₉₂ _0.339 _0.025 0.34 20 _0.306 _{111 103} ₈ _0.346 _0.059 _0.323 _{111 41} ₇₀ _0.496 _0.041 _0.323 _{111 29} ₈₂ _0.449 _0.043 _0.323

x

¯ 0.35435

33.8 0.21425 0.10155 0.34815 60.4 0.44815 0.0523 0.35375 80.9 0.41845 0.07835 0.35945

(24)

16 Lanjutan

b Hasil perbandingan pruning menggunakan 500 data

U la n g an k e-CCP REP EBP Tree Awal E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) C la ss t im e (m s) E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) c la ss t im e (m s) E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) C la ss t im e (m s) 1 0.28 221 221 0 0.319 0.174 0.296 221 135 86 1.14 0.176 0.28 221 77 144 2.261 0.224 0.28 2 0.328 199 199 0 0.27 0.171 0.328 199 107 92 0.457 0.132 0.336 199 67 132 0.422 0.125 0.328 3 0.32 203 203 0 0.279 0.188 0.28 203 149 54 0.414 0.139 0.296 203 79 124 0.401 0.132 0.34 4 0.344 175 175 0 0.281 0.17 0.328 175 131 44 0.409 0.149 0.328 175 83 92 0.413 0.152 0.344 5 0.28 213 169 44 0.489 0.172 0.272 213 113 100 0.932 0.146 0.288 213 61 152 1.662 0.133 0.312 6 0.368 233 81 152 0.298 0.079 0.36 233 51 182 0.736 0.076 0.36 233 37 196 0.702 0.074 0.352 7 0.408 223 89 134 0.36 0.088 0.408 223 69 154 0.424 0.085 0.4 223 37 186 0.436 0.081 0.34 8 0.312 203 167 36 0.478 0.157 0.352 203 83 120 0.455 0.126 0.368 203 51 152 0.423 0.875 0.336 9 0.264 211 3 208 0.316 0.33 0.296 211 5 206 0.523 0.43 0.296 211 5 206 0.904 0.43 0.296 10 0.296 215 3 212 0.364 0.33 0.296 215 9 206 0.429 0.51 0.304 215 5 210 0.557 0.39 0.304 11 0.32 209 3 206 0.728 0.36 0.32 209 3 206 0.427 0.37 0.32 209 3 206 0.552 0.36 0.34 12 0.304 209 3 206 0.436 0.36 0.296 209 7 202 0.421 0.52 0.296 209 7 202 0.475 0.77 0.368 13 0.328 161 5 156 0.502 0.55 0.328 161 5 156 0.427 0.49 0.328 161 5 156 0.465 0.49 0.344 14 0.28 187 13 174 0.439 0.46 0.28 187 5 182 0.376 0.44 0.28 187 5 182 0.441 0.51 0.288 15 0.296 189 33 156 0.705 0.43 0.288 189 41 148 0.391 0.39 0.296 189 21 168 0.529 0.6 0.34 16 0.248 183 9 174 0.386 0.31 0.208 183 17 166 0.405 0.51 0.232 183 5 178 0.507 0.56 0.336 17 0.368 175 175 0 0.285 0.176 0.368 175 113 62 0.985 0.126 0.336 175 69 106 1.64 0.136 0.368 18 0.352 183 183 0 0.281 0.192 0.256 183 81 102 0.759 0.126 0.344 183 73 110 0.916 0.148 0.352 19 0.344 179 179 0 0.364 0.187 0.336 179 115 64 0.582 0.164 0.344 179 77 102 0.547 0.156 0.34 20 0.32 195 177 18 0.486 0.134 0.256 195 81 114 0.367 0.111 0.272 195 45 150 0.396 0.088 0.328

x

¯

0.318 93.8 0.4033 0.2509 0.3076 132.3 0.55295 0.2608 0.3152 157.7 0.73245 0.3217 0.3318

(25)

17 Lanjutan

c Hasil perbandingan pruning menggunakan 750 data

U la n g an k e-CCP REP EBP Tree Awal E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) C la ss t im e (m s) E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) c la ss t im e (m s) E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) C la ss t im e (m s) 1 0.266 303 291 12 0.816 0.294 0.229 303 161 142 2.608 0.539 0.266 303 109 194 2.592 0.441 0.271 2 0.367 267 267 0 0.411 0.292 0.314 267 117 150 0.565 0.196 0.309 267 73 194 0.554 0.185 0.367 3 0.326 269 257 12 0.716 0.248 0.283 269 115 154 0.585 0.162 0.305 269 85 184 0.797 0.183 0.34 4 0.337 267 253 14 0.761 0.3 0.305 267 161 106 0.602 0.237 0.289 267 127 140 0.571 0.241 0.348 5 0.282 331 21 310 0.79 0.081 0.33 331 11 320 0.857 0.101 0.298 331 9 322 2.089 0.082 0.34 6 0.335 317 3 314 0.331 0.059 0.335 317 3 314 0.584 0.055 0.335 317 3 314 0.677 0.054 0.287 7 0.299 311 17 294 0.389 0.082 0.321 311 17 294 2.408 0.088 0.305 311 5 306 2.35 0.066 0.34 8 0.321 285 5 280 0.603 0.079 0.353 285 11 274 0.433 0.089 0.321 285 5 280 0.427 0.07 0.353 9 0.324 297 297 0 0.485 0.321 0.255 297 141 156 2.691 0.212 0.266 297 103 194 2.172 0.25 0.324 10 0.293 297 231 66 0.648 0.229 0.287 297 177 120 0.619 0.213 0.298 297 107 190 0.606 0.198 0.34 11 0.326 309 285 24 0.829 0.28 0.337 309 185 124 1.46 0.233 0.332 309 103 206 0.816 0.219 0.34 12 0.267 303 265 38 0.734 0.307 0.262 303 147 156 0.75 0.278 0.267 303 81 222 0.721 0.243 0.273 13 0.319 169 147 22 0.524 0.243 0.324 169 119 50 1.2 0.251 0.335 169 91 78 1.102 0.24 0.324 14 0.271 187 137 50 0.452 0.194 0.266 187 95 92 0.907 0.18 0.271 187 55 132 0.798 0.17 0.293 15 0.289 193 145 48 0.479 0.973 0.289 193 125 68 0.54 0.237 0.299 193 77 116 0.628 0.239 0.34 16 0.364 189 189 0 0.388 0.292 0.326 189 123 66 0.466 0.202 0.289 189 75 114 0.451 0.187 0.364 17 0.372 289 235 54 0.698 0.233 0.372 289 139 150 1.475 0.589 0.346 289 89 200 2.1 0.205 0.324 18 0.319 311 113 198 0.418 0.145 0.314 311 71 240 0.589 0.123 0.309 311 51 260 0.548 0.125 0.293 19 0.332 295 237 58 0.729 0.293 0.332 295 201 94 0.764 0.274 0.305 295 117 178 2.578 0.234 0.34 20 0.257 317 289 28 0.735 0.23 0.241 317 181 136 0.627 0.204 0.251 317 113 204 0.767 0.19 0.364

x

¯

0.3133 91.1 0.596 0.2587 0.3037 160.3 1.0365 0.22315 0.2998 201.4 1.167 0.191 0.328

(26)

18 Lanjutan

d Hasil perbandingan pruning menggunakan 1000 data

U la n g an k e-CCP REP EBP Tree Awal E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) C la ss t im e (m s) E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) c la ss t im e (m s) E rr o r ra te Jm l N o d e A w al Jm l N o d e A k h ir S el is ih n o d e T im e (m s) C la ss t im e (m s) 1 0.28 381 145 236 1.202 0.21 0.272 381 85 296 2.687 0.284 0.272 381 57 324 2.314 0.551 0.272 2 0.276 411 293 118 0.884 0.32 0.272 411 177 234 0.833 0.282 0.272 411 107 304 0.839 0.268 0.34 3 0.304 413 305 108 1.385 0.317 0.268 413 223 190 1.108 0.376 0.256 413 119 294 2.291 0.49 0.34 4 0.32 369 253 116 0.795 0.324 0.32 369 189 180 0.79 0.313 0.328 369 111 258 0.792 0.294 0.328 5 0.268 411 161 250 1.101 0.278 0.28 411 115 296 2.823 0.221 0.288 411 47 364 2.812 0.189 0.304 6 0.252 383 267 116 1.635 0.326 0.24 383 177 206 0.781 0.297 0.252 383 113 270 0.797 0.297 0.276 7 0.308 353 311 42 1.252 0.402 0.308 353 211 142 1.226 0.379 0.312 353 125 228 2.194 0.367 0.34 8 0.368 401 333 68 0.955 0.349 0.336 401 177 224 0.809 0.303 0.332 401 93 308 0.805 0.269 0.392 9 0.316 393 293 100 0.926 0.331 0.304 393 147 246 2.364 0.381 0.308 427 109 318 2.15 0.28 0.376 10 0.324 413 151 262 0.587 0.222 0.328 413 97 316 0.77 0.204 0.316 413 47 366 0.758 0.188 0.344 11 0.316 407 157 250 0.975 0.188 0.3 407 89 318 1.434 0.175 0.304 407 57 350 1.064 0.162 0.34 12 0.316 381 277 104 0.792 0.286 0.308 381 181 200 0.736 0.258 0.324 381 103 278 0.679 0.254 0.344 13 0.324 383 135 248 1.282 0.219 0.312 383 81 302 1.508 0.199 0.312 383 49 334 1.576 0.184 0.328 14 0.316 407 147 260 0.976 0.19 0.308 407 111 296 1.177 0.176 0.304 407 51 356 1.128 0.158 0.324 15 0.344 375 167 208 0.94 0.197 0.336 375 111 264 1.469 0.187 0.344 375 73 302 0.698 0.177 0.34 16 0.272 409 157 252 0.494 0.171 0.252 409 105 304 0.644 0.211 0.26 409 31 378 0.56 0.135 0.32 17 0.316 361 147 214 0.536 0.198 0.296 361 101 260 2.181 0.228 0.288 361 63 298 1.732 0.169 0.364 18 0.324 389 145 244 0.505 0.195 0.34 389 91 298 0.646 0.169 0.34 389 59 330 0.702 0.157 0.324 19 0.328 391 143 248 0.544 0.231 0.304 391 67 324 0.894 0.246 0.312 391 51 340 1.509 0.172 0.34 20 0.28 415 295 120 1.336 0.31 0.284 415 177 238 0.784 0.275 0.284 415 95 320 0.768 0.259 0.308

x

¯

0.3076 178.2 0.9551 0.2632 0.2984 256.7 1.2832 0.2582 0.3004 316 1.3084 0.251 0.3322