KNOWLEDGE DISCOVERY PADA RISKED CUSTOMER”S BANK MENGGUNAKAN DECISION TREE
Enny Itje Sela
STMIK AKAKOM, Jl. Raya Janti 143, Yogyakarta [email protected]
ABSTRAK
Telah dibuat penelitian untuk mengetahui profil customer bank yang akan diberi pinjaman oleh bank. Pemilihan nasabah dibutuhkan untuk meminimalkan resiko yang dapat mengakibatkan kerugiaanuntuk pihak bank. Risiko tersebut dikategorikan tinggi (high), sedang (moderat), dan rendah (low).Adapun data nasabah yang diteliti mempunyai 9 buah atribut dan 107 record. Knowledge Discovery In Databases (KDD) adalah salah satu metode yang digunakan untuk memperoleh pengetahuan dalam sebuah basis data. Salah satu cara yang digunakan adalah pohon keputusan (decision tree). Pengetahuan tersebut direpresentasikan dalam bentuk kaidah produksi. Algoritma yang digunakan adalah Iteractive Dichotomicer 3 (ID3).
Kata Kunci: customer, decision tree , kaidah produksi, Knowledge Discovery In Databases (KDD).
1. PENDAHULUAN
1.1. Latar Belakang
Proses pengajuan kredit oleh nasabah (customer) menjadi semakin mudah, baik untuk kredit barang maupun kredit uang. Khususnya dalam bidang perbankan, pengajuan kredit uang bisa dilakukan oleh semua masyarakat dengan syarat-syarat sepanjang memenuhi syarat-syarat yang dientukan bank tersebut. Untuk menghindari adanya kredit macet, perlu diketahui profil nasabah khususnya yang akan mengajukan kredit, sehingga resiko terjadinya hal itu menjadi minimal.
Knowledge Discovery In Databases (KDD) merupakan metode untuk memperoleh pengetahuan dari basis data yang dibentuk.
Dalam basis data itu terdapat tabel-tabel yang saling berhubungan/berrelasi. Hasil pengetahuan yang diperoleh dalam proses tersebut dapat digunakan sebagai basis pengetahuan (knowledge base) untuk keperluan pengambilan keputusan. Salah satu cara untuk memperoleh pengetahuan tersebut dengan cara menambang data menggunakan pohon keputusan (decision tree).
1.2. Permasalahan
Berdasarkan latar belakang diatas , salah satu pokok permasalahan yang diangkat adalah bagaimana memperoleh pengetahuan untuk mengidentifikasi nasabah bank yang akan diberikan kredit sehinggan meminimalkan adanya resiko kredit macet ataupun permasalahan lain yang mengganggu operasional bank tersebut. Cara yang digunakan adalah membentuk pohon keputusan dengan algoritma Iteractive Dichotomicer 3 (ID3).pengetahuan yang diperoleh selanjutnya direpresentasikan dalan kaidah produksi.
2. TEORI
2.1.Pohon Keputusan (Decision Tree)
Algoritma induksi yang paling umum digunakan adalah kelompok TDIDT (Top Down Induction Decision Tree). Algoritma ini didasarkan pada algoritma lain yang dikenalkan oleh Ross Quinlan yaitu ID 3 (Interactive Dichotomicer) 3. Input algoritma ini adalah sebuah database dengan beberapa variabel yang juga dikenal dengan atribut. Setiap masukan
Knowledge Discovery Pada Risked 5
(Enny Itje Sela)
dalam database menyajikan sebuah obyek dari domain yang selanjutnya disebut dengan variabel bebas (independent variable). Sebuah atribut didesain untuk mengklasifikasikan obyek, yang selanjutnya disebut dengan variabel tidak bebas (dependet variable).
Masalah yang harus dipecahkan adalah melakukan proses klasifikasi terhadap data yang disimpan dalam database tersebut.
Algoritma TDIDT memerlukan 2 langkah pengerjaan yaitu membangun pohon keputusan (constuction decision tree) dan menyederhanakan pohon keputusan yang dibuat (prunning decision tree). Pohon keputusan terdiri dari rangkaian tes sehingga terjadi klasifikasi diantara data/obyek yang disimpan.
Klasifikasi /Prediksi Pohon
Keputusan Data
Aturan /Kaidah
Gambar 2. Alur Diagram Pohon Keputusan
Contoh pohon keputusan
6 Gambar 1. Pohon Keputusan
2.2. Konstruksi Pohon Keputusan
Proses klasifikasi dilakukan dari node paling atas / akar pohon (root). Dilanjutkan ke bawah melakui cabang-cabang sampai dihasilkan node daun (leaves) dimana node daun ini menunjukkan hasil akhir klasifikasi.
Sebuah obyek yang diklasifikasikan dalam pohon harus dites nilai entropinya. Entropi adalah ukuran dari teori informasi yang dapat mengetahui karakteristik impuruty, dan homogenety dari kumpulan data. Dari nilai entropi tersebut kemudia dihitung nilai information gain (IG) masing-masing atribut independent terhadap atribut dependentnya. IG merupakan nilai rata-rata entropi pada semua atribut. (http://www.ai.unive.ac.iat/IST/decision- tree.html)
Sebuah pohon keputusan dapat dikonstruksi dengan melihat regurasi seperti dibawah ini:
((http://www2.cs.uregina.ca/~hamilton/courses/831/
notes/ml/dtrees2.html)
b.
B
ntukan atribut yang akan dijadikan
2. yang mempunyai nilai
Jika te dala suatu data set
………….…(1)
information gain dari
Σ ((|Sv| / |S| ) *
…….(2)
an dibuat, merupakan hal
.2. Prunning Decision Tree
rdasarkan pohon en yang tidak perlu , cara
cara erdasarkan gambar 2 diatas , data akan diubah menjadi bentuk pohon keputusan. Pengubahan bentuk data dilakukan dengan menggunakan algoritma ID3, dengan langkah-langkah sebagai berikut :
1. te
node pohon dengan menghitung nilai entropinya.
pilihlah atribut entropi minimal.
rdapat S atribut
Atribut
Atribut 2 Atribut 3 Atribut 4
Kelas 1 Kelas 2 Kelas 3 Kelas Nilai 1,1
Nilai 2,2 Nilai 2,1
Nilai 2,3 Nilai 1,2
Nilai 2,4
Nilai 1,3 dengan c outcomes, maka Entropi(S)=Σ–p(I)log2p(I) ……
dimana p(I) adalah proposisi S dalam kelas I. S
= keseluruhan sample Gain (S,A) adalah
sekumpulan data S pada atribut A yang didefinisikan sebagai :
Gain (S,A) = Entropi(S) –
Entropi (Sv))………
Sv = subset S untuk atribut A yang bernilai v
| Sv| = cacah elemen Sv
||S| = cacah elemen S Setelah pohon keputus
yang mudah untuk mengkonversikannya kedalam bentuk aturan (rules) yang biasanya disajikan dalam bentuk kaidah produksi.
Adapun cara yang dilakukan adalah melakukan trace pada setiap path dalam pohon dari node akar hingga mendapatkan node daun dimana antesedent dipeoleh dari outcomes dan konsekuen diperoleh dari node daun.
2
Jika sebuag rule telah dibuat be keputusan , lakukan
1. Eliminasi antesed
a. Buatkan tabel kontingensi untuk setiap rule yang mempunyai beberapa anteseden Sederhanakan rule dengan mengeliminasi anteseden yang tidak mempengaruhi konklusi, dengan menggunakan tes independesi ,
o Chi-Square Test jika frekuensi nilai ekpektasi > 10
o Yates Correction for Continuity jika frekuensi nilai ekpektasi 5 – 10
o Fisher’s Exact Test jika frekuensi nilai ekpektasi <5
2. Eliminasi rule yang tidak perlu 3. Metode Penelitian
Adapun cara yang digunakan untuk menjalankan penelitian ini adalah :
1. Mencari sampel data yang akan digunakan untuk melaksanakan proses tranformasi menjadi pengetahuan.
2. Melakukan konstruksi pohon keputusan 3. Melakukan prunning decision tree 4. Mengenerate basis pengetahuan dalam
format JIKA ….MAKA 4. Pembahasan
4.1.Deskripsi Permasalahan
Profil nasabah dikategorikan sebagai berikut : o Nasabah beresiko rendah (low risked)
o Nasabah beresiko menengah (moderat risked)
o Nasabah beresiko tinggi (high risked)
Dari ketiga kategori tersebut, bank akan memilih nasabah yang mempunyai resiko rendah atau moderat untuk diberikan kredit.
Record – record nasabah yang telah direkam oleh pihak bank dikumpulkan dari waktu ke waktu adalah :
o Riwayat kredit (credit history) yang berisi nilai buruk (bad), baik (good), tidak diketahui (unknown)
o Simpanan (debt) berisi nilai tinggi (high) dengan simpanan lebih besar Rp.30.000.000,00 dan bernilai rendah (low) jika simpanan dibawah Rp.30.000.000,00 o colateral berisi nilai tidak ada (none) dan
adequatic
o Pekerjaaan berisi nilai ABRI, PNS, dosen swasta, karyawan swasta non dosen
o Pendapatan (income) berisi nilai 0- Rp.1.500.000 ; Rp. 1.600.000,00 – Rp.
35.000.000,00; dan lebih besar Rp.
35.000.000,00
o Jenis kelamin (gender) yang berisi pria dan wanita.
Data set nasabah yang dikompilasi oleh bank disajikan dalam bentuk tabel yang terdiri dari 7 kolom dan 105 baris , seperti dibawah ini.
4.2.Analisis Information Gain Node Akar Level 0
Untuk menetukan node akar (level 0) pohon keputusan dihitung IG dari ke 6 atribut tabel dimana atribut risk menjadi dependent atribut dan keenam atribut yang lain (credit history, colateral, debt, income, pekerjaan, dan gender) menjadi independent atribut. Nilai entropi atribut risk (E(risk)) dapat dihitung berdasarkan rumus di bab 2, menghasilkan nilai sebesar 1,527. Berikut ini proses analisis IG pada level 0.
• Atribut income
Berdasarkan tabel 4.1. diatas dapat dibuat matriks data antara atribut income dengan risk seperti disajikan dibawah ini.
Tabel 1. Matriks atribut income dan risk income r.high r.modert r.low
0-15 36 22 6 8
16-35 33 13 10 10
>35 36 10 6 20
105
Berdasarkan matriks diatas , dapat dihasilkan jumlah nilai entropi atribut income terhadap atribut risk (E(income)) yaitu sebesar 1.44 dan hasil dari perhitungan E tersebut dapat dihitung nilai IG(risk, income)= 0,085.
0,461905 0,494483 0,485235
E (income) 1,441623
IG 0,085364 E (income| 0-
15)
E (income| 16- 35)
E (income|
>35)
4.3. Pohon Keputusan
Hasil pohon keputusan dapat dilihat pada gambar 3, halaman 7.
4.4 Uji Atribut
Pengujian atribut dilakukan menggunakan uji Chi-Square karena frekuensi nilai ekspektasi setiap sell lebih besar dari 10. Berikut hasil uji independensi dengan asumasi α = 0.05
Knowledge Discovery Pada Risked 7
(Enny Itje Sela)
8 atribut income 0 – 15
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 7,693
Karena nilai X2 hitung > X2 tabel disimpulkan bahwa atribut income 0 – 15 mempengaruhi atribut risk.
atribut income 16-35
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 2,604
Karena nilai X2 hitung < X2 tabel disimpulkan bahwa atribut income 16-35 tidak mempengaruhi atribut risk.
atribut income >35
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 9,063
Karena nilai X2 hitung > X2 tabel disimpulkan bahwa atribut income >35 mempengaruhi atribut risk.
atribut credit bad
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 24,36
Karena nilai X2 hitung > X2 tabel disimpulkan bahwa atribut credit bad mempengaruhi atribut risk.
atribut credit unknown
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 3,003
Karena nilai X2 hitung > X2 tabel disimpulkan bahwa atribut credit unknown mempengaruhi atribut risk.
atribut credit good
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 9,834
Karena nilai X2 hitung > X2 tabel disimpulkan bahwa atribut credit good mempengaruhi atribut risk.
atribut debt
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 2,394
Karena nilai X2 hitung < X2 tabel disimpulkan bahwa atribut debt tidak mempengaruhi atribut risk
atribut gender
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 2,194
Karena nilai X2 hitung < X2 tabel disimpulkan bahwa atribut gender tidak mempengaruhi atribut risk.
atribut pek. pns
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 23,54
Karena nilai X2 hitung > X2 tabel disimpulkan bahwa atribut pek. pns mempengaruhi atribut risk.
atribut pek. dosen
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 44,11
Karena nilai X2 hitung > X2 tabel disimpulkan bahwa atribut pek. dosen mempengaruhi atribut risk.
atribut pek. abri
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 60,64
Karena nilai X2 hitung > X2 tabel disimpulkan bahwa atribut pek. abri mempengaruhi atribut risk.
atribut pek. kary. swasta
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99 Nilai X2 hitung = 40,91
Karena nilai X2 hitung > X2 tabel disimpulkan bahwa atribut pek. kary. swasta mempengaruhi atribut risk.
4.5.Basis Pengetahuan
Dari pohon keputusan tersebut, dapat dihasilkan basis pengetahuan yang direpresentasikan dalan kaidah produksi pada tabel 2..
Selanjutnya setelah dilakukan uji independent dengan Chi – Square dapat diperoleh basis pengetahuan akhir seperti tabel 3.
Tabel 3.Kriteria Nasabah Yang Direkomendasi colateral none & credit good & pek. kary swasta colateral none & credit good & pek. dosen & income 0-15
colateral none & credit good & pek. pns & income >
35
colateral none & pek. abri
colateral none & pek. pns & income > 35 colateral none & pek. pns & credit good colateral none & pek. pns
colateral none & pek. pns & income 0-15 colateral none & pek. pns & income 0-15 &
credit good colateral adequate
5.PENUTUP
5.1. Kesimpulan
Berdasarkan pembahasan bab-bab sebelumnya, dapat ditarik kesimpulan sebagai berikut :
1. Pohon keputusan dengan algoritma ID3 dapat digunakan untuk memperoleh pengetahuan pada bidang perbankan khususnya untuk mengklasifikasikan pemberian kredit nasabah
2. Klasifikasi nasabah didasarkan pada resiko rendah (low) dan sedang (moderat) tergantung pada pihak bank 5.2. Saran
Adapun saran yang dapat diberikan berdasarkan pembahasan sebelumnya adalah :
1. Perlu adanya uji validasi terhadap hasil pengetahuan akhir tentang nasabah yang direkomendasikan untuk diberi kredit pinjaman.
2. Perlu diimplementasikan menggunakan bahasa pemrograman
tertentu sehingga proses editing data dapat dimungkinkan.
6. DAFTAR PUSTAKA
[1] Han , Jie dan Chambber, M. , 2001, Data Mining Concept and Technique , Academic Press, USA
[2] Sudjana, 1996, Metode Statistik Edisi 6 , Penerbit tarsito, Bandung
[3] Prayudi, Yudi, 2002, Datamining For Knowledge Discovery In Medical Data,
Makalah Seminar Nasional Universitas Bina Nusantara, Jakarta
[4] Greening, Dan R, There’s`Gold In That Mountain of Data,
http://www.newarchietechmag.com/archiev es/2000/01/greening/
[5] Moore , Andrew. W, 2006, Decision Trees, www.cs.cmu.edu
[6] ---,08/05/2006, Decision Tree Prunning,
http://www.cs.wisc.edu/~noto/cs540/lecture /11-dtree-pruning.html
[7] ---,08/05/2006, Decision Tree Learning Algorithms,
http://www.ai.univie.ac.at/IST/decision- tree.html
[8] ---,08/05/2006, Decision Tree Learning Example,
http://www.ai.univie.ac.at/IST/decision- tree-example.html
[9] ---, 30/05/2006, Decision Tree Construction,
http://www2.cs.uregina.ca/~hamilton/cours es/831/notes/ml/dtrees2.html
[10] ---, 30/05/2006, Decision Tree
Rules & Prunning, http://www2.cs.uregina.ca/~hamilton/cours
es/831/notes/ml/dtrees3.html
[11] ---, 30/05/2006, Overview of
Decision Tree, http://www2.cs.uregina.ca/~hamilton/cours
es/831/notes/ml/4_dtrees1.html
Knowledge Discovery Pada Risked 9
(Enny Itje Sela)
10 Tabel 2. Basis Pengetahuan Awal
Nomor aturan
Aturan
R-1 JIKA debt high & colateral none & credit bad MAKA risk high R-2 JIKA debt high & colateral none & credit good & pek.
abri & gender wanita MAKA risk High
R-3 JIKA debt high & colateral none & credit good & pek.
abri & gender pria MAKA risk moderat
R-4 JIKA debt high & colateral none & credit good & pek.
kary sawasta MAKA risk low
R-5 JIKA debt high & colateral none & credit good & pek.
dosen & income 0-15
MAKA risk moderat R-6 JIKA debt high & colateral none & credit good & pek.
dosen & income > 35 MAKA risk high
R-7 JIKA debt high & colateral none & credit good & pek.
pns & income > 35 MAKA risk low
R-8 JIKA debt high & colateral none & credit unknown MAKA risk high R-9 JIKA debt low & colateral none & pek. abri & income
> 35 MAKA risk high
R-10 JIKA debt low & colateral none & pek. abri & income 16- 35
MAKA risk moderat R-11 JIKA debt low & colateral none & pek. abri & income
0-15 & credit good MAKA risk high
R-12 JIKA debt low & colateral none & pek. pns & income
> 35 MAKA risk low
R-13 JIKA debt low & colateral none & pek. pns & income
16-35 & credit good MAKA risk low
R-14 JIKA debt low & colateral none & pek. pns & income 16-35 & credit unknown
MAKA risk moderat R-15 JIKA debt low & colateral none & pek. pns & income
0-15 & credit bad MAKA risk high
R-16 JIKA debt low & colateral none & pek. pns & income
0-15 & credit unknown & gender pria MAKA risk low R-17 JIKA debt low & colateral none & pek. pns & income
0-15 & credit unknown & gender wanita MAKA risk moderat R-18 JIKA debt low & colateral none & pek. pns & income
0-15 & credit good
MAKA risk low R-19 JIKA debt low & colateral none & pek. dosen &
income > 35 & credit bad MAKA risk high R-20 JIKA debt low & colateral none & pek. pns & income
0-15 MAKA risk high
R-21 JIKA debt low & colateral none & pek. kary.swasta MAKA risk high R-22 JIKA debt low & colateral none & pek. pns & income
0-15 & credit bad MAKA risk high
R-23 JIKA debt low & colateral adequate & gender pria MAKA risk moderat R-24 JIKA debt low & colateral adequate & gender wanita MAKA risk low
debt
Colateral colateral
low credit
high Pek high
low gender iincome iincome
high moderat
moderat high Moderat,high low
Moderat,high
gender
moderat llow
pek
iincome iincome high iincome
high credit moderat
high Low,moderat llow credit credit
gender
credit
high Low,moder
low moderat high low hig High. low
Keterangan :
Debt : D1= high ; D2 = low
Colateral: C1 = none ; C2 = adequate
Credit : CR1 = bad ; CR2 =good; CR3 = unknown Pek : P1 = abri ; P2=swasta ; P3=dosen ; P4 = pns Gender : G1 = wanita ; G2 = pria
Income : I1 = 0-15 ; I2 = 16-35 ; I3 = >35
D1 D2
C2 C1
CR2 CR1
P2 P1 P3 P4
G2
II1
II3 II2
II3
II2
C2 C1
G2
G1
G1 P1
P4 P2 P3
II3 II1 II2
CR3
II3 II2
II1 II1 II2
II3
CR1 CR3
CR1
CR3 CR2
CR3
low moderat
G2 G1
Gambar 3. Hasil Pohon Keputusan
Knowledge Discovery Pada Risked 11 (Enny Itje Sela)