ANALISIS KLASIFIKASI KREDIT MENGGUNAKAN METODE NEWTON TRUNCATED-KERNEL LOGISTIC REGRESSION (NTR-KLR) (STUDI KASUS : DATA KREDIT BANK X )

(1)

Abstrak—Analisis klasifikasi risiko kredit adalah permasalahan penting dalam dunia perbankan yang menyangkut kerugian dan perputaran dana bank. Fakta keuangan kontan menunjukkan, kenaikan jumlah kredit sebesar 23,7% akhir Januari 2012 tidak sejalan dengan jumlah kredit yang sudah dicairkan nasabah, sebesar 24,48% nasabah belum mencairkan dana pelunasan kredit sampai akhir September 2012. Untuk meminimalisasi kerugian perbankan akibat ketidakpastian pemberian kredit kepada nasabah, dikembangkan model credit scoring yaitu NTR-KLR untuk memprediksi pengajuan kredit nasabah pada bank X. Konsep metode NTR-KLR, menggunakan matriks Kernel dalam proses pengklasifikasian sehingga cocok untuk data yang bersifat non-linear. Pemodelan NTR-KLR pada data Bank X diwakili oleh satu data testing pada Fold pertama memberikan total akurasi klasifikasi sebesar 82,61%. Sebagai pembanding digunakan pula metode NTR-RLR dalam pengklasifikasian. Total akurasi yang dihasilkan model NTR-RLR pada perwakilan Fold pertama sebesar 80,43%. Selanjutnya kedua metode yaitu NTR-KLR dan NTR-RLR dibandingkan menggunakan kriteria total akurasi, sensitivity, specitivity dan pengujian statistik. Hasilnya metode NTR-KLR memberikan akurasi prediksi klasifikasi risiko kredit nasabah lebih tinggi dibandingkan metode NTR-RLR.

Kata Kunci—Klasifikasi, Logistic Regression (LR), Kernel, Akurasi, Total akurasi, Sensitivity, Specitivity

I. PENDAHULUAN

isiko kredit merupakan salah satu risiko penting dalam dunia perbankan yang berdampak signifikan pada kerugian dan perputaran dana bank . Risiko kredit muncul akibat nasabah atau debitur gagal memenuhi kewajiban membayar kredit pada tanggal pelunasannya atau jatuh tempo [1]. Data keuangan kontan menunjukkan kenaikan penyaluran jumlah kredit perbankan sebesar 23,7% akhir Januari 2012 tidak diimbangi oleh pencairan jumlah kredit nasabah, sekitar 24,48% nasabah perbankan belum mencairkan dana pelunasan kredit hingga akhir September 2012 (Keuangan Kontan) [2] . Fakta ini menunjukkan pemberian kredit kepada nasabah sangat berisiko tinggi. Klasifikasi risiko kredit dalam perbankan memiliki peran penting dalam pemetaan risiko nasabah. Pengklasifikasian yang salah akan menimbulkan dampak berantai yaitu timbulnya kredit macet, terganggunya stabilitas keuangan yang diikuti kerugian perbankan [1]. Sistem yang diterapkan perbankan untuk memprediksi pemberian kredit kepada nasabah masih berbasis manual.

Kelemahan penggunaan sistem manual diantaranya adalah lambat dalam memprediksi risiko kredit nasabah, penilaian kredit sering kali tidak obyektif (tidak akurat) karena hanya berdasarkan informasi aset, dan menimbulkan kelelahan pekerja serta expert yang kurang berpengalaman. Hal ini menjadi bukti klasifikasi risiko kredit melalui metode credit scoring berperan penting bagi perbankan dalam meminimalisir risiko kerugian.

Metode data mining modern yang dikembangkan untuk kepetingan credit scoring diantaranya model Discrimi- nan Linear oleh (Reichert, Cho dan Wagner,1983) [3], Logistic Regression (Henley,1995) [4], Neural Network (Desai, 1996; Malhotra dan Malhotra, 2002) [5] dan model Genetic Programming (Ong, Huang, dan Tseng, 2005) [6]. Penelitian risiko kredit pada bidang perbankan pernah dilakukan oleh Huang ,dkk (2007) menggunakan Support Vector Machine (SVM) untuk mengklasifikasikan kredit nasabah melalui evaluasi score aplikasi kredit, memberikan tingkat akurasi lebih tinggi dibandingkan metode klasifikasi lain seperti Genetic Programming, Neural Networks, maupun Decision Tree [7]. Selanjutnya penelitian Sodiq, J dkk juga mengembangkan model kredit scoring menggunakan regresi logistik untuk mengetahui faktor-faktor yang mempengaruhi klasifikasi risiko kredit nasabah bank X Jakarta Pusat [8].

Penelitian kali ini menggunakan metode Newton Truncated-Kernel Logistic Regression (NTR-KLR) [9] dalam mengklasifikasikan risiko kredit nasabah bank X. Pada dasarnya NTR-KLR merupakan salah satu metode KLR yang menggunakan pendekatan Truncated Newton dalam menyelesaikan perhitungan numerik Maximum Likelihood Estimation (MLE). Metode KLR pada penelitian Ji Zhu dan Hastie (2005) merupakan pengembangan dari metode Regularized Logistic Regression (RLR) yang menggunakan metode kernel [10]. Telah diketahui metode kernel digunakan ketika pola data bersifat non-linear. Kelebihan metode KLR dibandingkan dengan Support Vector Machine (SVM) adalah dapat menghasilkan akurasi yang sebanding dengan fungsi optimisasi lebih sederhana dan menyajikan nilai probabilitas keanggotaan klasifikasi. Sebagai pembanding akurasi metode KLR pada penelitian ini juga digunakan metode NTR-RLR dalam mengevaluasi performance klasifikasi.

II. TINJAUAN PUSTAKA A. Logistic Regression

Fungsi distribusi probabilitas (xi,yi) dari n pasangan

sampel random pada kasus klasifikasi biner mengikuti

ANALISIS KLASIFIKASI KREDIT MENGGUNAKAN METODE NEWTON

TRUNCATED-KERNEL LOGISTIC REGRESSION (NTR-KLR)

(STUDI KASUS : DATA KREDIT BANK “X”)

Liya Misdiati, dan Santi Puteri Rahayu, M.Si, Ph.D.

Jurusan Statistika, FMIPA, Institut Teknologi Sepuluh Nopember (ITS)

Jl. Arief Rahman Hakim, Surabaya 60111

E-mail

:

[email protected]

,

[email protected]

(2)

distribusi Bernouli (yi) = 0,1dengan input x_idiberikan oleh [11] : ξ (xi) = π (xi) yi [1- π (xi)]1-yi Fungsi logistik : E [yi = 1|xi, β] = pi= _β β i i x x

e

+

1

Transformasi logit : ₌       − = i i i p p 1 ln η xi β

B. Regularized Logistic Regression (RLR) dan Kernel Logistic Regression (KLR)

Metode RLR adalah pengembangan metode LR dengan menambah parameter regularisasi pada model logit. Metode RLR memiliki satu parameter regularisasi yaitu

λ

. Estimasi nilai β diperoleh dengan meminimumkan fungsi NLL dengan mengganti domain ∈

( )

₀_,₁ i y menjadi y_i∈

(

−1,1

)

fungsi NLL menjadi [12] :

(

)

(

)

∑

= ± = − + = n i i i yi x y 1 1 . exp 1 log β L = 1Tlog (1+exp(-yi . f(xi))

(a). Fungsi Optimisasi regulasi RLR dan KLR Untuk RLR[9] :

L(β) = 1T log (1+exp (-y. (Xβ)) + 2 λ_βT_β

Fungsi optimasi KLR diperoleh dari bentuk kernel melalui fungsi optimasi RLR :

β =φ(x)α

dimanaφ(x) : fungsi yang memetakan data asli x dalam input space kedalam feature space untuk mengkonvert hubungan non-linear menjadi linear. Pada KLR, fungsi kernel yang dinyatakan dalam bentuk matrik (K) digunakan memperbaiki akurasi akurasi RLR dalam mengatasi masalah non-linier. Model logit untuk KLR [9] :

f (x)=βTφ_(x) = φ(x)Tφ(x)α = Kα Fungsi regularisasi KLR L(α) = 1T log (1+exp(-y.K1α)) + 2 λ_αT K2α

Fungsi basis radial kernel yang digunakan [10] : K(xi,xj) = exp

�

−�𝒙𝒊−𝒙𝒋�2

2𝜎2

�

Estimasi MLE dari RLR dan KLR dengan meminimumkan fungsi NLL, jika estimasi MLE berbentuk non-linear maka harus diselesaikan melalui iterasi newton Raphson.

(b). Klasifikasi KLR dan RLR

Klasifikasi KLR diestimasi melalui [10] :

𝑠𝑖𝑔𝑛 �𝑙𝑜𝑔₁_{− 𝑝}𝑝1(𝒙)

1(𝒙)�=𝑠𝑖𝑔𝑛(𝑓(𝒙))

Jika nilai sign−f(𝐱) bertanda negatif maka objek masuk kelas negatif dan jika positif nasabah masuk kelas positif. Probabilitas bersyarat klasifikasi biner KLR memenuhi [9] :

𝑝_𝑖

�

𝑦_𝑖 = 1

|

𝐗=𝒙𝒊

�

=

1

1 +𝑒𝑥𝑝

(

−𝐊𝟏𝜶(𝒕+𝟏)

)

Probabilitas bersyarat untuk RLR [9] :

𝑝_𝑖

�

𝑦_𝑖 = 1

|

𝐗=𝒙𝒊

�

= 1

1 +𝑒𝑥𝑝

�

−𝒙𝒊𝛃(𝒕+𝟏)

�

Problem utama dalam pengklasifikasian KLR dan RLR adalah menentukan estimasi model linear.

C. Newton Truncated-Kernel Logistic Regression(NTR-KLR) dan Newton Truncated-Regularized Logistic Regression(NTR-RLR)

Estimasi MLE pada LR, RLR dan KLR memiliki bentuk non-linier sehingga diperlukan metode iteratif seperti Newton Raphson. Metode Newton Raphson adalah algoritma sistem linear yang diselesaikan secara iteratif dari (NRUR) untuk estimasi newton direction, dengan formula [9] :

𝛉P (t+1)₌_𝛉 P (t)_{+ s}(t) = 𝛉P (t)_{– (H}(t)₎-1_g(t)

Solusi sistem linear NRUR :

𝛃P (t+1)₌_𝛃 P (t)_{+ s}(t) 𝛃P (t+1)₌_𝛃 P (t) _{– (H}(t)₎-1_g(t) =𝛃(t)_{− �} 𝜕2𝐿(𝛃) 𝜕(𝛃)𝜕�𝛃𝑇_�� −1 �𝜕𝐿_𝜕₍(_𝛃𝛃₎)�

Sistem linear KLR dengan NRUR menjadi :

(K1 T V(t)K1 +

λ

K2) s (t) = (-K1 T (y.p) +

λ

K2α)

Terdapat masalah numerik dalam mengestimasi newton direction yaitu ukuran matriks terlalu besar untuk diinverskan sehingga digunakan metode truncated-newton

Menggunakan Linear CG bentuk kuadart NRUR untuk model KLR dan RLR adalah [9] :

=

)

(

) (

s

q

t (-K1T(y.p) +

λ

K2α)T(t) s(t) +

2

1

sT(t) (K1TV(t)K1 + r

λ

K2)(t) s(t)

Untuk model RLR bentuk kuadrat NRUR Linear CG adalah :

=

)

(

) (

s

q

t (-XT(y.p) +

λ

𝛃)T(t) s(t) +

2

1

sT(t) (XTV(t)X +

λ

I) (t)_s(t)

D. K-Fold Cross Validation

Resampling K-Fold Cv digunakan untuk membagi data training dan data testing sebanyak k kali. Prinsipnya pada setiap k percobaan digunakan data training sebanyak k-1 Fold dan 1 Fold sisanya sebagai data testing [13].

Gambar 2.1. Metode K-Fold Cv

Keuntungan penggunaan K-Fold Cv adalah semua bagian data set dapat digunakan sebagai data training maupun sebagai data testing. Rata-rata rumus average error pada K-Fold Cv :

∑

= = K i i E K E 1 1 E. Kriteria Evaluasi

Kinerja metode klasifikasi diukur melalui nilai total akurasi. Total akurasi adalah ukuran umum dalam menaksir akurasi klasifikasi [14]. Matriks confussion klasifikasi adalah :

Tabel 2.1Confussion Matrix Klasifikasi Biner

Aktual Prediksi (10) (13) (14) (16) (15) (17) (9) (8) (6) (11) (12) (5) (7) (4) (3) (2) (1) (18)

(3)

Positif Negatif Positif a11 a12 Negatif a21 a22 dimana : Total akurasi = 22 21 12 11 22 11 a a a a a a + + + +

Nilai sensitivitas dirumuskan :

12 11 11 a a a y sensitivit + = Nilai specitivitas adalah :

22 21 22 a a a y specificit + =

(21)

KLR memiliki dua parameter

(

λ,σ

)

sedangkan RLR hanya

memiliki satu parameter yaitu

( )

λ

[9].

F. Pemilihan Model Terbaik

Pemilihan model KLR secara umum dilakukan melaui tahapan berikut [9]:

(i) Menentukan range grid dari

(

λ,σ

)

dan step grid. Nilai grid yang digunakan pada penelitian ini adalah

i i c c

e

dan

e

1

=

2

=

σ

λ

. Koefisien c1i dan c2i adalah nilai

equidistant (dengan step grid =-0,5).

(ii)Dengan menggunakan k-Fold CV, dilakukan estimasi dari rata-rata total akurasi atau nilai total akurasi untuk setiap pasangan

(

λ,σ

)

.

(iii) Pasangan

(

λ,σ

)

yang memiliki rata-rata total akurasi

terbaik pada K-Fold Cv dipilih sebagai parameter optimal. III. METODOLOGIPENELITIAN

A. Sumber Data

Data yang digunakan dalam penelitian ini adalah data sekunder, aplikasi pengajuan kredit nasabah bank X sebanyak 1000 data. Variabel respon pada data ini bersifat biner yang terbagi dalam dua kategori yaitu 0 untuk good credit dan 1 untuk bad credit. Variabel prediktor yang digunakan terdiri dari faktor-faktor yang mempengaruhi pelunasan pembayaran kredit nasabah bank X berjumlah 29 variabel. Sehingga total dengan variabel respon adalah 30 variabel.

B. Variabel Penelitian

Berikut merupakan variabel prediktor dan respon yang digunakan dalam penelitian ini :

Tabel 3.1 Ringkasan Variabel Kredit Bank X

Variabel Ket. Type

Wilayah X1 Nominal

Status Pernikahan X3 Nominal

Jenis Kelamin X4 Nominal

Jumlah Anak X5 Skala

Kepemilikan Rumah X6 Nominal

Lama Tinggal X7 Skala

Kepemilikan Telepon Rumah X8 Nominal

Pendidikan X9 Ordinal

Job Type X10 Nominal

Employment Type X11 Nominal

Masa Kerja (thn) X12 Skala

Jabatan X13 Nominal

Total Pendapatan X14 Skala

Pinjaman Lain X15 Skala

Pendapatan Bersih X16 Skala

Tenor X17 Skala

Lama hubungan baik dengan Bank(thn) X18 Skala

Tipe Perusahaan X19 Nominal

Lama Usaha Perusahaan (thn) X20 Skala

Jenis Usaha X22 Nominal

Jenis Kredit X23 Nominal

Telefon Kantor/ Rumah X24 Nominal

Punya Kartu Kredit X25 Nominal

Punya Acc Bank X X26 Nominal

Punya Acc Bank X27 Nominal

Nominal Account X28 Skala

Rasio Hutang tehadap Income X29 Skala Variabel prediktor pada penelitian ini sebagian besar dikoding, karena berupa variabel kualitatif, sedangkan untuk variabel respon dikoding menjadi dua yaitu bad credit (1) dan good credit (-1).

C. Metode Analisa

Langkah-langkah analisis yang dilakukan adalah sebagai berikut :

1. Menganalisa karakteristik nasabah bank X melalui statistika deskriptif, sebelumya dilakukan pra-processing data untuk menangani kasus missing value dan outlier. 2. Melakukan pemodelan NTR-KLR pada data testing Fold

terpilih dan mengukur akurasi klasifikasinya. Sebelum pemodelan variabel prediktor dirandom dan distandartkan, kemudian dibagi menjadi dua bagian yaitu data training dan testing pada 5 dan 10 Fold Cv.

3. Melakukan pemodelan NTR-RLR pada data testing Fold terpilih dan mengukur akurasi klasifikasinya. Sebelum pemodelan data dirandom dan variabel (x) distandartkan selanjutnya data dibagi dua bagian pada 5 dan 10-Fold Cv. Kemudian membandingkan akurasi klasifikasi NTR-KLR dan NTR-RLR berdasarkan kriteria total akurasi, sensitivitas, specitivitas dan pengujian statistik.

IV. ANALISISDANPEMBAHASAN A. Pra Processing Data

Berikut ini adalah missing value pada data kredit Bank X : Tabel 4.1 Data Missing Pada Variabel Bank X

Variabel N Missing Count Percent (%) Job Type 999 1 0,1 Jabatan 999 1 0,1 Pendapatan Bersih 999 1 0,1 Tipe Perusahaan 999 1 0,1

Lama Usaha Perusahaan 999 1 0,1

Jumlah missing value pada kelima variabel adalah 1, kurang dari 10% sehingga perlu diimputasi. Output imputasi missing data menggunakan metode listwise, all values, EM dan regression dilihat pada Table 4.2

Tabel 4.2 Estimasi Mean Missing Value

Variabel Mean

Listwise All Values EM Regression Pendapatan

Bersih

5,0332E6 5,0399E6 5,0383E6 5,0384E6

Lama Usaha Perusahaan

4,4856E1 4,4823E1 4,4794E1 4,4785E1

Tabel 4.3 Estimasi Standart Deviasi Missing Value Variabel Standart Deviasi

Listwise All Values EM Regression Pendapatan

Bersih

5,7010E6 5,6977E6 5,6951E6 5,6950E6

Lama Usaha Perusahaan

2,1516E2 2,1495E2 2,1490E2 2,1485E2 (19)

(4)

Pemilihan metode estimasi didasarkan pada nilai standart deviasi terkecil. Hasilnya imputasi nilai missing untuk kedua variabel diperoleh melalui metode regression dengan imputasi 5038400 rupiah untuk pendapatan bersih dan 44,785 tahun untuk variabel lama usaha.

B. Deteksi Outlier

Hasil outlier multivariat yang dihitung berdasarkan nilai jarak mahalanobis adalah :

Tabel 4.4 Deteksi Outlier Melalui Jarak Mahalanobis Pengamatan ke - Jarak Mahalanobis

5 220,742794 34 64,8366108 73 68,0684464 97 67,4162043 98 68,8638349 146 72,3330085



981 174,787079 989 102,022393 993 65,9697775

Berdasarkan Tabel 4.4 sebanyak 76 pengamatan memiliki jarak mahalanobis melebihi nilai tabel

χ

2(29;0,001) 59,30117

sehingga dinyatakan sebagai outlier multivariat, jadi tidak digunakan dalam analisis selanjutnya.

C. Karakteristik Nasabah Bank X

Hasil statistika deskriptif nasabah bank X setelah data outlier dihilangkan dan nilai missing value diestimasi diberikan sebagai berikut :

Tabel 4.5 Statistika Deskriptif Data Bank X

Tabel 4.5 menunjukkan karakteristik nasabah bank X. Untuk variabel usia, rata-rata usia nasabah bank X adalah 35,37 tahun, usia minimum nasabah adalah 20 tahun dan maksimal berumur 62 tahun. Rata-rata pendapatan bersih nasabah sebesar 3650000 rupiah, standart error 70850 dan standart deviasi 2151217,119 dengan jumlah minimal pendapatan bersih nasabah 0 rupiah dan maksimum pendapatannya adalah 20000000. Analisis serupa berlaku untuk variabel lain pada Tabel 4.5. Sedangkan deskripsi variabel prediktor yang bersifat kategorik ditampilkan pada Tabel 4.6.

Tabel 4.6 Statistika Deskriptif Data Numerik Bank X Variabel Range Mode N for Mode

Wilayah 10 9 228 Status Pernikahan 3 1 700 Jenis Kelamin 1 1 733 Kepemilikan Rumah 5 1 396 KepemilikanTelfon Rumah 0 1 922 Pendidikan 6 2 406 Job Type 2 0 803 Employment Type 6 0 478 Jabatan 11 0 509 Tipe Perusahaan 7 0 764 Channel 5 0 811 Jenis Usaha 33 8 136 Jenis Kredit 7 5 734 Telfon Rumah/Kantor 1 0 855

Punya Kartu Kredit 1 0 754

Punya Account Bank X 1 1 852

Punya Account Bank Lain 1 1 894

Nasabah bank X paling banyak berasal dari wilayah berkode 9 yaitu regional X berjumlah sebanyak 228 orang. Variabel status pernikahan menunjukkan nasabah berkode 1 yaitu menikah berjumlah 700 nasabah. Analisis variabel kualitatif yang lain juga serupa.

D. Pemodelan NTR-KLR

Tahapan dalam pemodelan prediksi klasifikasi risiko kredit nasabah dengan metode NTR-KLR dilakukan melalui tahapan berikut.

1. Pemilihan parameter optimal

Hasil parameter pada 5 dan 10 Fold Cv dihasilkan berikut : Tabel 4.7 Rata-rata Total Akurasi Data Testing Untuk 5 dan 10 Fold Cv K-Fold Lambda Sigma Akurasi

Data Training

Akurasi Data Testing Mean Median

5 – fold 0,1353 4,4817 92,90% 83,07% 82,61% 10 – fold 0,2231 2,7183 95,37% 82,96% 83,15%

Berdasarkan Tabel 4.7 parameter optimal dihasilkan pada pembagian data 5 Fol-Cv yang dipilih berdasarkan kriteria rata-rata total akurasi data testing tertinggi. Nilai parameter optimal yang dihasilkan λ=0,1353 dan σ=4,4817.

2. Pemilihan Fold Cv Pemodelan

Pemilihan fold dilakukan sebagai perwakilan data testing yang akan dimodelkan Pemilihan Fold didasarkan pada median total akurasi, hasilnya diberikan pada Tabel 8.

Tabel 4.8 Akurasi Data Testing Kombinasi 5-Fold Cv NTR-KLR

K-Fold Akurasi Data Testing

5- Fold 82,61% 81,52% 83,70% 81,52% 86,02%

Pemilihan Fold dilakukan sebagi perwakilan data testing yang akan digunkaan untuk membangun model prediksi. Berdasarkan Tabel 4.9 Fold Cv yang terpilih sebagai perwakilan data testing untuk pemodelan NTR-KLR adalah Fold pertama dengan total akurasi mendekati nilai mediannya 82,61%.

3. Pembentukan Model NTR-KLR

Model NTR-KLR data testing Fold pertama sulit direpresentasikan ke dalam bentuk linear karena data asli x telah dipetakan kedalam input space ke dalam feature space sehingga dalam pemodelan, ditampilkan model secar umumnya :

𝑝_𝑖

�

𝑦_𝑖 = 1

|

𝐗=𝒙𝒊

�

=_{1 +}_𝑒𝑥𝑝

₍

_−𝐊1

𝟏𝜶(𝒕+𝟏)

)

dengan memasukkan nilai yi = 1, matriks kernel testing K dan

vektor 𝛂 ke dalam persamaan di atas diperoleh nilai probabilitas nasabah untuk masuk kelas 1, yaitu bad credit. Sedangkan probabilitas nasabah yang masuk good credit diperoleh dari :

𝑝_𝑖

�

𝑦_𝑖= 1

|

𝐗=𝒙𝒊

�

=_{1 +}_𝑒𝑥𝑝

₍

1_𝐊

𝟏𝜶(𝒕+𝟏)

)

Var Mean SE Mean StDev Min Maks

Usia 35,37 0,253 7,683 20 62 JA 1,57 0,043 1,293 0 6 LT 10,41 0,327 9,917 0 46 MK 7,30 0,217 6,597 1 32 TP 8600000 215300 6538067,198 2275227 60000000 PL 250000 21270 645771,672 0 7558099 PB 3650000 70850 2151217,119 0 20000000 T 37,35 0,408 12,393 12 60 LB 3,64 0,094 2,850 0 19 LU 20,80 0,669 20,316 1 300 NA 6513200 587440 11783760 -1,80 204000000 RH 31,0643 0,37939 11,35416 7,88 91,71

(5)

Melalui program pembentukan NTR-KLR diperoleh hasil matriks confussion data testing Fold pertama seperti berikut :

Tabel 4.9 Akurasi Klasifikasi Data Testing Fold ke-1 NTR-KLR

Observed Predicted

Bad Good Credit Percentage Correct

Fold-1 Bad Good Credit

1 -1

1 10 30 25,00

-1 2 142 98,61

Overal Percentage 82,61

Pemodelan NTR-KLR menghasilkan akurasi klasifikasi sebesar 82,61%. Tabel 4.9 menunjukkan dari 40 nasabah yang berkredit tidak lancar, 10 nasabah tepat dikelompokkan tetapi 30 sisanya diklasifikasikan pada kredit lancar. Sedangkan dari 144 nasabah faktanya berkredit lancar, 142 orang masuk pada kelas yang tepat dan 2 sisanya masuk pada kelas yang tidak tepat. Terjadi miss clasification 17,39% pada model.

4. Sensitivitas dan Specitivitas

Performance model dapat dilihat berdasarkan kriteria berikut : Tabel 4.10 Nilai Sensitivitas dan Specitivitas Fold Pertama

5-Fold Cv Sensitivitas Specitivitas

Fold ke-1 25,0% 98,61%

Peluang nasabah bad credit dikelompokkan pada kelas yang tepat adalah 0,250 dan peluang nasabah good credit masuk pada kelas yang cocok adalah 0,9861.

E. Pemodelan NTR-RLR

Seperti pada NTR-KLR dalam NTR-RLR juga dilakukan step-step yang sama untuk mendapatkan model prediksi. Step-step tersebut dijelaskan seperti di bawah ini.

1. Pemilihan Parameter Optimal

Berdasarkan output parameter di bawah ini dilakukan pemilihan parameter optimal model :

Tabel 4.11 Rata-Rata Total Akurasi Data Testing Pada 5 dan 10-Fold Cv

Model NTR-RLR

K-Fold Lambda Akurasi Data Training

Akurasi Data Testing Mean Median 5 – fold 33,1155 82,70% 81,12% 80,43% 10 – fold 1,0966e+003 80,80% 80,80% 80,43%

Nilai parameter optimal yang dipilih sebagai pemodelan NTR-RLR prediksi klasifikasi nasabah bank X adalah λ = 33,1155 pada 5-Fold Cv karena rata-rata total akurasi data testing yang dihasilkan lebih tinggi 81,12%> 80,80% dari 10 Fold Cv.

2. Pemilihan Fold Cv Pemodelan

Pemilihan data testing pada 5-Fold Cv berdasarkan total akurasi di bawah ini :

Tabel 4.12 Akurasi Data Testing Kombinasi 5-Fold Cv NTR-RLR

K-Fold Parameter Akurasi Data Testing

5-fold λ = 33,1155 80,43%

78,80% 79,89% 80,43% 84,41%

Tabel 4.12 menjelaskan bahwa Fold pertama digunakan membangun model prediksi karena total akurasinya mendekati nilai median sehingga digunakan sebagai wakil data testing pada 5-Fold Cv.

3. Pembentukan Model NTR-RLR

Seperti halnya NTR-KLR model umum pada NTR-RLR diberikan berikut ini :

𝑝(𝑌= 1|𝐗=𝐱𝐢) =_{1 +}_𝑒𝑥𝑝₍1_−𝒙𝛃(𝑡+1)₎

dengan memasukkan nilai yi = 1 dan matriks 𝛃 dan x

diperoleh nilai probabilitas nasabah masuk ke dalam kelas bad credit. Sedangkan probabilitas nasabah yang masuk dalam kelas good credit diperoleh melalui persamaan :

𝑝(𝑌=−1|𝐗=𝐱𝐢) = 1−_{1 +}_𝑒𝑥𝑝1₍_𝒙𝛃(𝑡+1)₎

Hasil total akurasi model prediksi NTR-RLR melalui program NTR-RLR disajikan seperti pada Tabel 4.13.

Tabel 4.13 Akurasi Klasifikasi Data Testing Fold ke-5 NTR-RLR

Observed Predicted

Good Bad Credit Percentage Correct Fold-1 Good Bad

Credit

1 -1

1 11 29 27,5

-1 7 137 95,14

Overal Percentage 80,43

Pemodelan NTR-RLR data testing pada Fold ke-1 menghasilkan akurasi klasifikasi sebesar 80,43%. Dari 40 nasabah, sebanyak 11 nasabah berkredit tidak lancar tepat diklasifikasikan, tetapi 29 nasabah salah pengklasifikasian. Sedangkan untuk 144 nasabah berkredit lancar tepat dikelompokkan sebanyak 137 orang dan 5 sisanya diklasifikasikan pada kelas tidak lancar. Pengklasifikasian model NTR-RLR mengalami miss clasification sebesar 14,13%.

4. Sensitivitas dan Specitivitas

Nilai sensitivitas dan specitivitas yang dihasilkan pada model NTR-RLR adalah :

Tabel 4.14 Nilai Sensitivitas dan Specitivitas NTR-RLR

5-fold Sensitivitas Specitivitas

Fold Pertama 27,5% 95,14%

Tidak jauh berbeda dengan output NTR-KLR nilai sensitivitas 0,275 menunjukkan peluang nasabah bad credit diprediksi badcredit masih kecil yaitu sebesar 0,275. Di sisi lain peluang model dapat memprediksi nasabah good credit ke dalam kelas yang tepat sebesar 0,9514.

F. Perbandingan Model NTR-KLR dan NTR-RLR

Perbandingan metode NTR-KLR dan NTR-RLR dilihat berdasarkan output visual dan pengujian secara statistik melalui uji wilcoxon siged rank. Serta dilakukan pula uji kesamaan varians untuk kedua metode baik NTR-KLR maupun NTR-RLR.

a. Secara Visual metode NTR-KLR (82,61%) memberikan akurasi prediksi yang lebih tinggi dibandingkan metode NTR-RLR (80,43%) dalam mengklasifikasikan risiko kredit nasabah bank X. Perbandingan nyata total akurasi kedua metode ditampilkan visualisasinya berikut :

5 4 3 2 1 86 85 84 83 82 81 80 79 78 Fold ke-To ta l A cu ra cy NTR-KLR NTR-RLR Variable 86,02 81,52 83,70 81,52 82,61 84,41 80,43 79,89 78,80 80,43

NTR-KLR vs NTR-RLR 5 Fold Cross Validation

10 9 8 7 6 5 4 3 2 1 90 88 86 84 82 80 78 76 Fold ke-To ta l A cu ra cy NTR-KLR NTR-RLR Variable 87,23 85,87 78,26 84,78 78,26 89,13 81,52 81,52 84,78 78,26 82,98 82,61 77,17 83,70 77,17 85,87 78,26 78,26 83,70 77,17

NTR-KLR vs NTR-RLR 10 Fold Cross Validation

Gambar 4.1 Perbandingan Total Akurasi NTR-KLR dan NTR-RLR Pada 5 dan 10-Fold Cv

Berdasarkan Gambar 1 dengan menggunakan pembagian data 5 dan 10 Fold Cv dihasilkan bahwa total akurasi metode NTR-KLR lebih tinggi pada setiap kombinasi data testing daripada metode NTR-RLR. Berdasarkan nilai sensitivitas dan specitivitasnya kedua model menghasilkan sensitivitas yang rendah dengan specivisitas yang tinggi.

(6)

b. Pengujian kesamaan varinas (Levene’s test)

Output uji kesamaan varians untuk pasangan 5 Fold dan 10 Fold Cv metode NTR-KLR dan NTR-RLR adalah :

Tabel 4.15 Uji Levene’s Pada 5 Fold-Cv

Test Method DF1 DF2 Statistics P-Value

Levene’s Test 1 8 0,01 0,544

Tabel 4.16 Uji Levene’s Pada 10 Fold-Cv

Test Method DF1 DF2 Statistics P-Value

Levene’s Test 1 18 0,25 0,689

Output statistik uji levene’s (0,01) pada 5 Fold bernilai kurang dari

F

₍₀_,₀₅_;₁_;₈₎= 5,32. Begitu pula pada 10 Fold (0,25) kurang dari nilai

F

₍₀_,₀₅_;₁_;₁₈₎= 4,41. Nilai P-Value (0,544) dan (0,689) juga kurang dari

α

(0,05) sehingga berdasarkan informasi ini diputuskan gagal menolak

H

₀, karena tidak cukup bukti untuk menolaknya. Hal ini berarti varians total akurasi metode NTR-KLR dan NTR-RLR tidak berbeda signifikan.

c. Pengujian Kesamaan Median (Wilcoxon Signed Rank test) Uji kesamaan median pasangan 5 dan 10 Fold dilakukan untuk mengetahui apakah median total akurasi yang dihasilkan metode NTR-KLR dan NTR-RLR berbeda signifikan berdasarkan pengujian statistik. Hasil uji wilcoxon sign rank diberikan pada Tabel 4.15 dan Tabel 4.16.

Hipotesis : : 0

H MD ≥0 (Selisih mediantotal akurasi metode NTR-RLR dan NTR-KLR pada pasangan 5 Fold Cv lebih dari sama dengan 0)

: 1

H MD <0 (Selisih mediantotal akurasi metode NTR-RLR dan NTR-KLR pada pasangan 5 Fold Cv kurang dari 0)

Tabel 4.17 Output Uji Wilcoxon Data Berpasangan Pada 5 Fold-Cv Test Statistic Wilcoxon Signed Rank

Statistik Uji Z -2,023

P-Value 0,043

Tabel 4.18 Output Uji Wilcoxon Data Berpasangan Pada 10 Fold-Cv Test Statistic Wilcoxon Signed Rank

Statistik Uji Z -2,831

P-Value 0,005

Output statistik uji Z (-2,023) dan P-Value (0,043) yang bernilai kurang dari

α

(0,05) pada 5 Fold dan begitu pula pada 10 Fold memberikan kesimpulan bahwa

H

₀ ditolak sehingga disimpulkan median total akurasi pada 5 dan 10 Fold- Cv untuk metode NTR-KLR lebih besar dari metode NTR-RLR.

V. KESIMPULANDANSARAN A. Kesimpulan

Karakteristik nasabah bank X menunjukkan bahwa usia minimum nasabah bank X adalah 20 tahun dengan usia maksimal 62 tahun. Rata-rata pendapatan nasabah yang mengajukan aplikasi kredit adalah 3650000 rupiah. Sebagian rata-rata waktu pelunasan kredit nasabah adalah 37,5 tahun. Untuk variabel kualitatif sebanyak 228 nasabah berasal dari regional IX, sebanyak 700 nasabah pengaju aplikasi kredit telah menikah. Analisis yang sama untuk variabel laiinya. Pemodelan data bank X menggunakan metode NTR-KLR mengasilkan parameter optimal λ = 0,1353 dan σ = 4,4817

pada pembagian data 5-Fold Cv dengan nilai rata-rata total akurasi klasifikasi sebesar 83,07%. Kombinasi data testing terpilih sebagai pemodelan adalah pada Fold pertama dengan total akurasi klasifikasi mendekati nilai median 82,61%. Nilai sensitivitas data testing cukup kecil 0,250 sedangkan specitivitasnya sebesar 0,9861. Pemodelan data bank X menggunakan metode NTR-KLR memberikan total akurasi lebih tinggi 82,61% dibandingkan metode NTR-RLR 80,43%. Informasi ini didukung output visual dan pengujian statistik sehingga disimpulkan total akurasi metode NTR-KLR lebih besar dibandingkan metode NTR-RLR pada 5 dan 10-Fold Cv.

B. Saran

1.

Pemodelan NTR-KLR dan NTR-RLR dalam penelitian ini menghasilkan nilai sensitivitas yang rendah karena keterbatasan penggunakan kriteria total akurasi, untuk penelitian selanjutnya disarankan menggunakan kriteria G-means agar model yang dihasilkan memiliki nilai sensitivitas dan specitivitas yang lebih tinggi.

2.

Pada penelitian ini banyaknya data pengklasifikasian bank X yaitu good dan bad credit memiliki jumlah yang tidak seimbang, oleh karena itu pada penelitian selanjutnya perlu memperhatikan aspek imbalanced data.

DAFTARPUSTAKA

[1] Elizabeth, Lusiana . 2009. Risiko dan Management. Jurusan Ekonomi Pasca Sarjana Universitas Indonesia.

[2] www.keuangan.kontan.co.id. Undisbursed Loan di Indonesia.

[3] Riechert, A.K., Cho, C.C., Wagner,G.M. 1983. An Examination Of The Conceptual Issue. Journal Business and Economic Statistics 1 (101-114). [4] Henley, W.E. 1995. Statistical aspect of credit scoring. Thesis PhD, Open

University.

[5] Desai, R.H, Edelman, D. B., A.J. 1992. Acomparison of neural networks and linear scoring models in the credit union environment. European Journal of Operational Research, 95(1),24-37.

[6] Ong, Huang and Tzeng. 2005. Building credit scoring models using genetic programming. Journal International, 29(1), 41-47.

[7] Huang, C.L., Chen, M.C. and Wang, C.J. 2007. Credit scoring with a data mining approach based on support vector machines. Expert System with Application; 33 ;847-856.

[8] Sodiq,J,dkk . 2012. Pengembangan Model Credit Scoring Menggunakan Regresi Logistik Biner.Surabaya. Institut Tekonologi Sepuluh Nopember. [9] Rahayu Santi P,dkk. 2012. Logistic regression methods with truncated

newton method. Procedia Engineering;50:827-836.

[10]Zhu J. and Hastie T. 2005. Kernel logistic regression and the import vector machine. Journal of Computational and Graphical Statistics;14(1):185-205.

[11]Hosmer D.W. and Lemeshow. 1980. A goodness-of-fit test for the multiple logistic regression model. Communication in Statistics

A10:1043-1069.

[12]Koh, K., Kim, S. dan Boyd, S. 2007. An interior point method for large scale l1 regularized logistic regression. Journal of Machine learning Research; 8: 1519-1555.

[13]Ricardo Gutierrez-Osuma. 2012. “Pattern Analysis K-Fold Cross Validation” : Lecture.CSCE 666.

[14]Johnson, R.A and Wichern D.W. 2007, Applied Multivariate Statistical Analysis, Sixth Edition, Prentice Hall, New Jersey.

[15]Malhotra, R., & Malhotra, D. K. 2002. Differentiating between good credits and bad credits using neuro fuzzy system. European Journal of Operation Research, 136(1), 190-211.