SIDANG TUGAS AKHIR
GRIZELDA WAHYUNINGTYAS
APLIKASI DATA MINING UNTUK
PENILAIAN KREDIT MENGGUNAKAN
METODE POHON KEPUTUSAN FUZZY
DATA MINING APPLICATION FOR CREDIT
SCORING USING FUZZY DECISION TREE
ABSTRAK
Fuzzy decision tree merupakan salah satu metode data mining
yang merupakan gabungan antara decision tree dengan logika fuzzy.
Penerapan logika fuzzy dalam decision tree bertujuan untuk
merepresentasikan suatu kondisi yang tidak pasti dan sangat kompleks.
Pembentukan fuzzy decision tree menggunakan teknik fuzzy secara kasar
(fuzzy rough technique) adalah dengan cara mencari nilai bawah dan
significance level untuk setiap faktor yang akan dianalisis.
Permasalahan yang dibahas yaitu untuk mengetahui potensi
keberhasilan kredit seorang calon nasabah kredit melalui pohon
keputusan fuzzy dengan data historis nasabah kredit yang sudah ada. Hasil
ini nantinya akan menunjukkan apakah seorang nasabah memiliki
potensi kredit lancar atau tidak. Faktor yang digunakan adalah
plafond(besar kredit), jangka waktu kredit, bunga kredit (rate), omzet
nasabah, dan lama berjalannya usaha nasabah tersebut. Dengan adanya
aplikasi ini, maka seorang pengambil keputusan dapat mengetahui potensi
calon nasabah dan mencegah terjadinya kredit macet.
Rumusan Masalah
•
Bagaimana model prediksi status
kredit berdasarkan teknik fuzzy
decision tree?
•
Bagaimana tingkat akurasi dari model
yang dihasilkan?
•
Bagaimana karakteristik dari pemohon
kredit dan peluang pemohon kredit
tersebut digolongkan ke dalam kelas
kredit lancar dan macet?
Batasan Masalah
•
Data diperoleh dari Bank BRI cabang
Kediri.
•
Data yang digunakan adalah data
nasabah kredit mikro yang diambil
pada tahun 2013.
•
Software yang digunakan diantaranya
adalah Netbeans IDE 7.0.1 dan MySQL
Tujuan
•
Mendapatkan model status kredit
berdasarkan teknik fuzzy decision tree.
•
Mengetahui tingkat akurasi dari model
yang dihasilkan.
•
Mengetahui karakteristik dari calon
pemohon kredit dan peluang
pemohon kredit tersebut termasuk ke
dalam kelas kredit lancar atau macet.
Manfaat
Manfaat dari tugas akhir ini adalah:
1. Membantu bank dalam mengambil
keputusan untuk menerima atau menolak
nasabah pemohon kredit
2. Sebagai tambahan pustaka untuk penelitian
selanjutnya.
Credit Scoring
•
Kredit merupakan salah satu mekanisme
pembayaran yang sangat umum di
masyarakat.
•
Pihak pemberi dan penerima kredit harus
bekerjasama untuk mencapai tujuan yang
diinginkan. Pihak penerima kredit
mempunyai tujuan mendapatkan sumber
pembiayaan yang mudah dan cepat. Pihak
pemberi kredit mempunyai tujuan
mendapatkan keuntungan dari bunga yang
dibayarkan oleh debitur.
Data Mining [1]
Data mining merupakan suatu proses pencarian
pola dengan menggunakan teknik statistik dan
matematik dari record yang berjumlah sangat besar yang
dapat memberikan manfaat bagi pengambil keputusan.
Data mining membantu perusahaan untuk
mendapatkan pola dari data-data yang tersimpan di
dalam basisdata perusahaan. Pengetahuan yang
diperoleh tersebut akan menjadi pedoman dalam
mengambil tindakan-tindakan bisnis sebagai upaya
pemeliharaan dan peningkatkan tingkat kompetitif bisnis
perusahaan.
Data Mining [2]
Walaupun sudah banyak perangkat lunak
yang menawarkan kemampuan dalam proses
data mining, keterlibatan manusia sangat
dibutuhkand alam setiap fase proses data mining
itu sendiri. Pemahaman terhadap model statistik
dan matematik yang digunakan dalam perangkat
lunak sangat dituntut demi keberhasilan
penerapan data mining[6].
Decision Tree [1]
Decision tree merupakan suatu pendekatan yang sangat
popular dan praktis dalam machine learning untuk menyelesaikan
permasalahan klasifikasi.Konsep decision tree pada dasarnya adalah
mengubah data menjadi pohon keputusan danaturan hirarki
(aturan-aturan keputusan)yang pada perkembangan selanjutnya dapat
disederhanakan dengan menghilangkan cabang-cabangatau
aturan-aturan yang tidak perlu.
Sedangkan atribut-atribut yang menyertai data tersebut
menyatakan suatu parameter yang dibuat sebagai kriteria dalam
pembentukan pohon. Salah satu atribut merupakan atribut yang
menyatakan data penyelesaian per-item data yang disebut dengan
klasifikasi atau kelas.Atribut memiliki nilai-nilai yang dinamakan
dengan instance[5]. Misalkan atribut pendapatan mempunyai
Decision Tree [2]
Pohon keputusan terdiri dari node yang membentuk
pohon berakar, yang berarti pohon tersebut diarahkan oleh
node yang disebut akar (root) yang tidak memiliki masukan
(input). Semua node lain memiliki tepat satu masukan
(input). Sebuah node tanpa keluaran (output) disebut internal
node. Dan semua selain node disebut daun (leaf) atau
seringkali dikenal sebagai decision node (node
keputusan).Untuk setiap leaf, sebuah keputusan telah dibuat
dan diaplikasikan ke semua observasi di dalam leaf. Leaf
tersebut merupakan hasil akhir pengelompokan data dari
pohon keputusan yang membagi ke dalam kelompok
klasifikasi.
Teori Himpunan Fuzzy [1]
Pada himpunan tegas (crisp), nilai keanggotaan suatu item x dalam suatu
himpunan A, ditulis dengan µA[x], memiliki 2 kemungkinan, yaitu:
satu (1), yang berarti bahwa suatu item menjadi anggota dalam suatu
himpunan, atau
nol (0), yang berarti bahwa suatu item tidak menjadi anggota dalam suatu
himpunan.
Gambar 2.3. Interval fuzzy
Definisi 2.5.1 Himpunan Fuzzy
Diberikan sebuah crisp semesta dari 𝑋𝑋, himpunan fuzzy 𝐴𝐴 (lebih tepatnya, 𝐴𝐴
subset fuzzy dari 𝑋𝑋) diberikan oleh membership function 𝜇𝜇
𝐴𝐴𝑥𝑥 : 𝑋𝑋 → [0,1], dan
nilai 𝜇𝜇
𝐴𝐴𝑥𝑥 diinterpretasikan sebagai derajat dari anggota 𝑥𝑥 dalam himpunan
Rumus MF Fuzzy
Trapesium
Fuzzy Information System [1]
Sebuah information system (IS) mengacu kepada 4 tuple, yaitu
(U, A ∪ C, V, f ),
dimana U = {x
1, x
2, … , x
n} adalah himpunan dari objek yang terbatas tak
kosong
dan
untuk
setiap
x
idirepresentasikan
sebagai
x
i= a
i1, a
i2, … , a
in; A = {a
i, a
2, … , a
n} adalah sebuah himpunan atribut
kondisional; C = {c} adalah atribut keputusan;
V = ⋃ V
nj=1 ajdimana V
aj(1 ≤ j ≤ n) adalah domain dari nilai atribut
a
j; f: U × A → V disebut sebuah fungsi informasi.
Fuzzy Information System [2]
Sebuah fuzzy information system (FIS) menurut Wang Et Al pada
tahun 2001 adalah sebuah versi fuzzy dari IS yang juga mengacu kepada 4
tuple FIS = (U, A ∪ C, V, f ) dimana U mempunyai arti yang sama seperti pada
IS dan A adalah sebuah himpunan terbatas dari atribut kondisional fuzzy.
Pada FIS, dilambangkan A = {a
i, a
2, … , a
n} dimana A
i(1 ≤ i ≤ n)
merepresentasikan sebuah atribut kondisional yang terdiri dari sebuah
himpunan fuzzy linguistic term FLT
iA
i1, A
i2, … , A
in(1 ≤ i ≤ n). C
melam-bangkan sebuah atribut keputusan fuzzy dengan sebuah himpunan
FLT
CC
1, C
2, … , C
m. Setiap FLT diasumsikan sebagai sebuah himpunan fuzzy
pada 𝑈𝑈.
Fuzzy Rough Set [1]
Fuzzy rough set dikembangkan oleh D. Dubois dengan
mengintegrasikan konsep dari kesamaran dan sesuatu yang
tidak dapat dibedakan dengan jelas.
Definisi 2.7.1 Kelas Ekivalensi Fuzzy
Misalkan 𝑈𝑈 adalah semesta, 𝑅𝑅 adalah sebuah relasi ekivalensi
fuzzy daripada 𝑈𝑈. Kelas ekivalensi fuzzy [𝑥𝑥]
𝑅𝑅
didefinisikan oleh
Fuzzy Rough Set [2]
Definisi 2.7.2 Aprosimaksi Fuzzy
Misalkan 𝑈𝑈 adalah semesta, 𝑋𝑋 dan 𝑃𝑃 adalah dua himpunan
fuzzy pada 𝑈𝑈, 𝑈𝑈/𝑃𝑃 adalah partisi fuzzy dari 𝑈𝑈. Untuk sebuah
𝑥𝑥 ∈ 𝑈𝑈 yang diberikan, aprosimaksi fuzzy 𝑃𝑃 -lower dan
aprosimaksi fuzzy 𝑃𝑃-upper dari 𝑋𝑋didefinisikan oleh (Jensen dan
Shen 2005).
µ
Px
x = sup
F∈U/P
min �µ
F
x , inf
y∈U
max{1
− µ
F
y , µ
F
x }� (11)
µ
P�x
x =
sup
Fuzzy Decision Tree [1]
Teknik decision tree telah terbukti menginter-pretasikan masalah
secara independen dan dapat menyelesaikan masalah dalam skala besar, akan
tetapi teknik ini juga dikenal sebagai teknik klasifikasi dengan tingkat
ketidakstabilannya yang tinggi sehubungan dengan gangguan dalam training
data dan cara penyajian data dengan variansi yang tinggi.Teori fuzzy dapat
meningkatkan ketahanan saat melakukan klasifikasi kasus-kasus baru pada
sebuah decision tree (Marsala 1998).
Logika fuzzy membawa perbaikan dalam aspek ini karena elastisitas
dari himpunan fuzzy. Metode yang bertujuan telah dipelajari secara detail dan
dikomparasikan dengan metode crisp alternatif dan hasilnya menunjukkan
banyak perbaikan dari tingkat akuransi hasil prediksi, ditunjukkan dengan
banyak berkurangnya variansi model. Selain itu logika fuzzy juga lebih stabil
pada tingkat parameter yang terinterpretasi lebih baik [2].
Fuzzy Decision Tree [2]
Fuzzy decision tree berbasis pada teknik kasar fuzzy
(fuzzy rough technique) adalah sebuah kriteria baru yang
berdasarkan pada pertemuan antara atribut kondisional fuzzy
dengan atribut keputusan fuzzy untuk memilih atribut yang akan
diekspansi. Akan dipilih atribut kondisional fuzzy yang paling
penting sebagai atribut yang akan mengalami ekspansi. Untuk
sebuah FIS yang diberikan, setiap atribut kondisional fuzzy
memiliki kontribusi yang berbeda terhadap atribut keputusan
fuzzy, hubungan kepentingan dari sebuah atribut fuzzy kepada
atribut fuzzy yang lain didefinisikan oleh (Junhai Zhai, 2010)
Fuzzy Decision Tree [3]
Definisi 2.8.1 Fuzzy Positive Region
µ
POS
PQ
= sup
X∈U/Q
µ
𝑃𝑃x
x
(13)
Pada literatur (Jensen dan Shen, 2005), persamaan diatas
merepresentasikan derajat keanggotaan dari sebuah objek x pada daerah
positif fuzzy (fuzzy positive region).
Definisi 2.8.2 Significance Fuzzy dengan keterkaitan terhadap atribut lain
Misalkan 𝑃𝑃 dan 𝑄𝑄 adalah dua atribut fuzzy pada FIS yang diberikan,
hubungan kepentingan (significance) dari 𝑃𝑃 dengan keterkaitan pada 𝑄𝑄
didefinisikan oleh:
𝜏𝜏
𝑃𝑃
𝑄𝑄 =
∑
𝑥𝑥∈𝑈𝑈𝜇𝜇
𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 𝑄𝑄𝑈𝑈
𝑥𝑥
14
Algoritma FDT
Langkah 1
: Menyiapkan FIS yang berasal dari nilai masing-masing
membership function
Langkah 2
: Memilih atribut yang akan mengalami ekspansi.
Langkah 2.1: Untuk setiap atribut kondisional fuzzy A
idan setiap fuzzy linguistic term A
iki(1 ≤ i ≤ n), significance
dari A
idengan keterkaitan pada atribut keputusan fuzzy
dihitung dengan menggunakan persamaan (14)
Langkah 2.2: memilih i
omenurut 𝑖𝑖
0= Argmax
1≤𝑖𝑖≤𝑛𝑛
𝜏𝜏
𝐴𝐴𝑖𝑖𝐶𝐶
𝐴𝐴
𝑖𝑖0adalah atribut yang diekspan. Setiap satu FLT hanya bisa
diekspan oleh satu cabang.
Langkah 3
: Jika kondisi tujuan tidak dapat dipenuhi, maka partisi 𝑈𝑈, dan
secara rekursif memilih atribut yang diekspan sampai sebuah
fuzzy decision tree berhasil dibangkitkan.
Metodologi
Studi literatur
Pengumpulan
data
Perancangan
interface
Preprocessing
data
Pemodelan
data
Input data
Sinkronisasi
data
Uji coba dan
evaluasi
Penulisan
tugas akhir
Diagram Alur Penelitian
Data mentah nasabah kredit
bank
Data nasabah kredit bank yang
siap diproses
Cleaning
Parameter dan Kategori data
Data terklasifikasi
Model credit scoring dengan
fuzzy decision tree untuk
Analisis Data
Transformasi
Fuzzy decision
tree
Jadwal Kegiatan
No
Kegiatan
Bulan1
2
3
1 2 3 4 1 2 3 4 1 2 3 4
1.
Studi literatur
2.
Pengumpulan data
3.
Perancangan dan
implementasi
program
4.
Uji coba dan evaluasi
Data Mentah
•
Data yang didapat berupa data nasabah kredit dengan
atribut :
- periode
- sektor ek
- uker
- tagihan pokok
- tipe
- tagihan bunga
- curr
- tunggakan pokok
- no rekening
- tunggakan bunga
- debitur
- total tunggakan
- plafond
- PPAP
- cicilan
- omzet
- jangka waktu
- lama usaha
- rate
- kode segmen ACRS
Fuzzy Information System
Data training berjumlah 500 data nasabah kredit yang kemudian akan diuabh
ke dalam bentuk FIS. Fuzzy Information Sistem yang ada pada penelitian ini
terdiri dari 4 tuple.
IS = (U, A ∪ 𝐶𝐶, 𝑉𝑉, 𝑓𝑓)
dimana 𝑈𝑈 = 𝑥𝑥
1, 𝑥𝑥
2, … , 𝑥𝑥
500objek terbatas yang tak kosong
Untuk setiap 𝑥𝑥
1merepresentasikan atribut kondisional :
𝐴𝐴 = 𝐴𝐴
1, 𝐴𝐴
2, 𝐴𝐴
3, 𝐴𝐴
4, 𝐴𝐴
5𝐴𝐴
1= Plafond , 𝐹𝐹𝐹𝐹𝑇𝑇
1= 𝐴𝐴
11, 𝐴𝐴
12, 𝐴𝐴
13= 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟, 𝑠𝑠𝑠𝑠𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟, 𝑠𝑠𝑖𝑖𝑟𝑟𝑡𝑡𝑡𝑡𝑖𝑖
𝐴𝐴
2= Jangka Waktu , 𝐹𝐹𝐹𝐹𝑇𝑇
2= 𝐴𝐴
21, 𝐴𝐴
22= {𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑝𝑝, 𝑝𝑝𝑟𝑟𝑟𝑟𝑝𝑝𝑟𝑟𝑟𝑟𝑡𝑡}
𝐴𝐴
3= Rate, 𝐹𝐹𝐹𝐹𝑇𝑇
2= 𝐴𝐴
31, 𝐴𝐴
32= {𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟, 𝑠𝑠𝑖𝑖𝑟𝑟𝑡𝑡𝑡𝑡𝑖𝑖}
𝐴𝐴
4= Omzet , 𝐹𝐹𝐹𝐹𝑇𝑇
4= 𝐴𝐴
41, 𝐴𝐴
42, 𝐴𝐴
43= {𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟, 𝑠𝑠𝑠𝑠𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟, 𝑠𝑠𝑖𝑖𝑟𝑟𝑡𝑡𝑡𝑡𝑖𝑖}
𝐴𝐴
5= Lama Usaha , 𝐹𝐹𝐹𝐹𝑇𝑇
5= 𝐴𝐴
51, 𝐴𝐴
52= 𝑚𝑚𝑚𝑚𝑟𝑟𝑟𝑟, 𝑙𝑙𝑟𝑟𝑚𝑚𝑟𝑟
Fuzzy decision atributnya adalah :
𝐶𝐶 = Score, 𝐹𝐹𝐹𝐹𝑇𝑇
𝑐𝑐= 𝐶𝐶
1, 𝐶𝐶
2= {𝑏𝑏𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑠𝑠𝑖𝑖𝑙𝑙, 𝑡𝑡𝑟𝑟𝑡𝑡𝑟𝑟𝑙𝑙}
Langkah selanjutnya adalah mencari nilai Membership Function
MF Plafond
𝜇𝜇
𝑃𝑃𝑅𝑅(𝑥𝑥)= 1 jika 1≤ x ≤ 10
1-
𝑥𝑥−1030−10
jika 10 < x <30
0, untuk yang lain
𝜇𝜇
𝑃𝑃𝑆𝑆(𝑥𝑥)= 1-
30−1530−𝑥𝑥jika 15<x < 30
1 jika 30≤ x ≤ 40
1-
𝑥𝑥−40 55−40jika 40<x < 55
𝜇𝜇
𝑃𝑃𝑇𝑇(𝑥𝑥)= 1-
80−5080−𝑥𝑥jika 50< x < 80
1 jika 80≤ x
Jangka Waktu
𝜇𝜇
𝐽𝐽𝑃𝑃(𝑥𝑥)= 1 jika 1≤ x ≤ 12
1-
𝑥𝑥−1224−12
jika 12 < x < 24
0, untuk yang lain
𝜇𝜇
𝐽𝐽𝐽𝐽(𝑥𝑥)= 1-
36−1536−𝑥𝑥jika 1<x < 36
1 jika 36≤ x
Rate
𝜇𝜇
𝑅𝑅𝑅𝑅(𝑥𝑥)= 1 jika 1≤ x ≤ 10
1-
𝑥𝑥−1030−10
jika 10 < x <30
0, untuk yang lain
𝜇𝜇
𝑅𝑅𝑇𝑇(𝑥𝑥)= 1-
40−2040−𝑥𝑥jika 20<x < 40
1 jika 40≤ x
Omzet
𝜇𝜇
𝑂𝑂𝑅𝑅(𝑥𝑥)= 1 jika 0≤ x ≤ 1
1-
𝑥𝑥−12.5−1
jika 1 <x < 2.5
0, untuk yang lain
𝜇𝜇
𝑂𝑂𝑆𝑆(𝑥𝑥)= 1-
3−𝑥𝑥3−2jika 2< x < 3
1 jika 3≤ x ≤ 4
1-
𝑥𝑥−45−44
jika 4 < x <5
0, untuk yang lain
𝜇𝜇
𝑂𝑂𝑇𝑇(𝑥𝑥)= 1-
10−𝑥𝑥10−4jika 4< x < 10
1 jika 10≤ x
Lama Usaha
𝜇𝜇
𝑈𝑈𝑈𝑈(𝑥𝑥)= 1 jika 0≤ x ≤ 12
1-
𝑥𝑥−1224−12