KAJIAN PERBANDINGAN MODEL CREDIT SCORING
TERHADAP DATA NUMERIK DAN DATA KATEGORIK
MENGGUNAKAN REGRESI LOGISTIK
PERA TINFIKA MUTIARA
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2008
KAJIAN PERBANDINGAN MODEL CREDIT SCORING
TERHADAP DATA NUMERIK DAN DATA KATEGORIK
MENGGUNAKAN REGRESI LOGISTIK
PERA TINFIKA MUTIARA
Skripsi
Sebagai salah satu syarat untuk memperoleh gelar Sarjana Sains
Pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2008
Judul Skripsi : Kajian Perbandingan Model Credit Scoring Terhadap Data
Numerik Dan Data Kategorik Menggunakan Regresi Logistik
Nama
: Pera Tinfika Mutiara
NRP
: G14103003
Menyetujui,
Pembimbing I
Bagus Sartono, M.Si
NIP 132 311 923
Pembimbing II
Anang Kurnia, M.Si
NIP 132 158 749
Mengetahui,
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Dr. Drh. Hasim, DEA
NIP 131 578 806
ABSTRAK
PERA TINFIKA MUTIARA, KAJIAN PERBANDINGAN MODEL
CREDIT
SCORING TERHADAP DATA NUMERIK DAN DATA KATEGORIK
MENGGUNAKAN REGRESI LOGISTIK. Dibimbing oleh BAGUS SARTONO
DAN ANANG KURNIA.
Model scoring diperlukan oleh berbagai institusi dan
perusahaan untuk meningkatkan profitabilitas mereka. Model regresi logistik
merupakan salah satu teknik yang sering digunakan. Penggunaan teknik ini pun
menjadi populer karena memberikan kemudahan dalam interpretasi dan
ketersediaan software yang dapat menanganinya. Permasalahan yang sering
muncul dalam penyusunan model scoring ini adalah bagaimana memilih peubah
penjelas yang akan dimasukkan ke model dan mampu mencerminkan keadaan
finansial debitor. Selain itu dalam pembentukkan model terganggu dengan
keberadaan data outlier dan data yang hilang (missing) pada kasus-kasus
tertentu. Data-data yang ada saat ini sangat rentan terhadap noise, missing value,
dan tidak konsisten. Salah satu teknik yang digunakan untuk menanganinya
adalah dengan transformasi data dan reduksi data. Oleh karena itu penelitian
dilakukan untuk membandingkan model scoring yang dibangun oleh nilai asli
peubah penjelasnya dengan model scoring yang dibangun oleh nilai hasil
diskretisasi peubah penjelasnya menggunakan metode regresi logistik.
Berdasarkan perbandingannya tersebut model yang peubah penjelasnya
dibangun oleh nilai hasil diskretisasi memberikan peluang untuk menghasilkan
model dengan performans yang lebih baik.
RIWAYAT HIDUP
Penulis dilahirkan di Ciamis pada tanggal 31 Agustus 1984 dari pasangan
Muhidin dan Eti Rohayati. Penulis merupakan putri ketiga dari lima bersaudara.
Tahun 1997 penulis lulus dari SDN Legokjawa I dan melanjutkan ke sekolah
menengah pertama di MTs Legokjawa. Tiga tahun kemudian penulis melanjutkan
pendidikan menengah atas di SMUN I Ciamis dan lulus pada tahun 2003. Pada
tahun yang sama penulis melanjutkan pendidikan ke Departemen Statistika,
Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor
melalui jalur Undangan Seleksi Masuk IPB (USMI).
Selama kuliah di IPB, penulis aktif dalam kegiatan Himpro GSB (Gamma Sigma
Beta) yaitu sebagai staf pada Departemen Keilmuan tahun 2004/2005. Pada tahun
yang sama penulis juga aktif dalam organisasi KAMMUS (Keluarga Mahasiswa
Muslim Statistika), dan pada tahun berikutnya penulis juga aktif pada salah satu
Unit Kegiatan Mahasiswa yakni Badan Kerohanian Islam Mahasiswa tahun
2005/2006.
PRAKATA
Setiap pujian tercurah kepada Rabb Yang Maha Kasih, setiap syukur terpatri
dalam diri bagi Sang Penjaga Terbaik yang senantiasa mengalirkan arus kebaikan
dan membuka pintu-pintu kemudahan dalam menyelesaikan karya kecil ini.
Salawat beserta salam semoga tercurah kepada manusia terbaik Rasulullah SAW
beserta keluarga, sahabat dan umatnya hingga akhir zaman.
Karya ilmiah ini berjudul ” Kajian Perbandingan Model
Credit Scoring Data
Numerik dan Data Kategorik menggunakan Regresi Logistik”. Dalam penelitian
ini dilakukan analisis regresi logistik dalam membandingkan model yang disusun
dari data asli dengan data hasil diskretisasi.
Pada kesempatan ini, penulis menyampaikan ucapan terima kasih kepada semua
pihak yang telah membantu dalam penyelesaian karya ilmiah ini, terutama
kepada :
1.
Bapak Bagus Sartono, M.Si dan Bapak Anang Kurnia, M.Si yang telah
berkenan menjadi dosen pembimbing, dan dengan penuh kesabaran
membimbing penulis dalam menyelesaikan tugas akhir ini.
2.
Ibu dan Bapak yang tak henti mencurahkan doa dan kasih sayangnya,
waktu dan seluruh hidupnya, motivasi terkuat yang mendukung penulis
selama menjalankan tugas akhir. Adik-adik, Kakak-kakak, Sepupu dan
keluarga tercinta yang tak lelah memberi dukungan.
3.
Seluruh staf dan Dosen Departemen Statistika IPB, Bu Markonah, Bu
Sulis, Bang Sudin, Mang Herman dan Kang Dur.
4.
Bayu, Anggoro, Dauz, Edo dan seluruh keluarga besar Statistika 40 yang
selalu membantu dan memberi dukungan kepada penulis dalam menjawab
setiap masalah dalam penulisan ini.
5.
Adik-adik Statistika angkatan 41, 42 dan 43.
6.
Seluruh
Jamish Crew yang turut mewarnai perjalanan dalam
menyelesaikan tulisan ini.
7.
Semua pihak yang telah memberi dukungan kepada penulis yang tidak
dapat disebutkan satu per satu.
Penulis menyadari bahwa kesempurnaan hanyalah milik Allah SWT, masih
banyak kekurangan dalam karya ilmiah ini, semoga dapat disempurnakan pada
penelitian berikutnya. Harapan penulis tidak lain semoga karya ilmiah ini
bermanfaat bagi seluruh pihak yang membutuhkan.
Bogor, Mei 2008
DAFTAR ISI
Halaman
DAFTAR TABEL ... v
DAFTAR GAMBAR ... v
DAFTAR LAMPIRAN ... v
PENDAHULUAN
Latar Belakang ... 1
Tujuan ... 1
TINJAUAN PUSTAKA
Credit Scoring
... 1
Regresi Logistik ... 1
Correct Classification Table
... 2
ROC Curve
... 3
Weight of Evidence... 3
BAHAN DAN METODE
Bahan... 3
Metode... 4
HASIL DAN PEMBAHASAN
Deskripsi Nasabah... 5
Analisis Regresi Logistik ... 6
Perbandingan Model ... 7
KESIMPULAN ... 8
DAFTAR PUSTAKA ... 9
DAFTAR TABEL
Halaman
1. Kategorisasi Data Berdasarkan WOE ... 4
2. Jumlah Nasabah pada kategori Rasio Utang dan Pendapatan (DSR) ... 5
3. Jumlah Nasabah pada kategori Pendapatan Tahunan Kotor ... 5
4. Jumlah Nasabah pada kategori Jumlah Tanggungan ... 5
5. Jumlah Nasabah pada Kategori Status Rumah Hunian... 5
6. Jumlah Nasabah pada kategori Kode Pekerjaan ... 6
7. Nilai statistik-G, nilai-p dan nilai log-likelihood pada Model-1 dan Model-2....7
8. P-Value dari uji Wald pada Model-1 dan Model-2... 7
9. Korelasi Antar Peubah Penjelas ... 7
10. Klasifikasi metode regresi logistik antara Model-1 dan Model-2... ...7
DAFTAR GAMBAR
Halaman
1. Kurva ROC ... 3
2. Flowchart Metode ... 4
3. Grafik Jumlah Kolektibilitas Nasabah ... 6
3. Kurva ROC Model-1... 8
3. Kurva ROC Model-2... 8
DAFTAR LAMPIRAN
Halaman
1. Grafik plot peubah penjelas dengan logitnya dari Model-1... 10
2. Nilai B, SE dan
Rasio Odds pada Model-1 ... 10
PENDAHULUAN Latar Belakang
Model credit scoring telah banyak
digunakan oleh berbagai organisasi finansial seperti bank dan penyedia jasa kredit sebagai
alat yang efisien untuk meningkatkan
keuntungan. Credit scoring adalah sistem
yang dipakai oleh pemberi kredit dalam membantu menyeleksi dan memutuskan apakah akan memberi kredit kepada pemohon
atau tidak. Model scoring dibangun
berdasarkan data pelanggan sebelumnya yang
masuk dalam kategori buruk dan baik. Credit
score memberikan peminjam perhitungan yang cepat dan objektif mengenai resiko kredit seseorang.
Model dibangun berdasarkan pada
informasi berupa data yang dimiliki
perusahaan finansial tersebut. Permasalahan yang sering muncul dalam penyusunan model
scoring ini adalah bagaimana memilih peubah penjelas yang akan dimasukkan ke dalam model dan mampu mencerminkan keadaan keuangan pemohon kredit. Kendala yang lain juga terjadi apabila dalam pembentukkan model terganggu dengan keberadaan data pencilan atau pada kasus-kasus tertentu dijumpai data yang hilang.
Pre-processing data merupakan tahapan pemilihan peubah penjelas. Tahapan ini diperlukan karena data-data yang ada saat ini
sangat rentan terhadap noise, data hilang
(missing value), dan tidak konsisten. Salah
satu teknik yang digunakan dalam
pre-processing data adalah transformasi data dan
reduksi data atau juga biasa disebut binning.
Binning memetakan nilai-nilai sebuah peubah
ke dalam satu set bin. Sebuah bin bisa terdiri
dari satu nilai saja, suatu set nilai yang terbatas, selang kontinu, sebuah nilai hilang, atau bahkan nilai yang tidak ada sebelumnya
(Hollowel 2004). Oleh karena itu Alfiansyah
(2007) telah melakukan pengkelasan kategori
dan proses penggabungan antar kategori karena adanya peubah berskala nominal dan
ordinal serta peubah kontinu yang
ditransformasi ke dalam peubah diskret
dengan menggunakan metode supervised
entropy based discretization dan supervised chi-square. Proses diskretisasi pada data numerik dan data kategorik, keduanya melakukan transformasi dengan menggunakan nilai WOE, suatu besaran yang menunjukkan
kecenderungan suatu kategori peubah
terhadap kelas atau status tertentu. Metode
diskretisasi atau binning yang didapatkan
diharapkan mampu meningkatkan kualitas
peubah penjelas yang akan dijadikan dasar pemodelan.
Untuk mengetahui seberapa besar metode diskretisasi dapat memperbaiki model yang memiliki masalah dengan data ekstrem, maka pada penelitian ini akan dilakukan kajian
perbandingan model scoring ketika peubah
penjelasnya menggunakan nilai asli dengan
model scoring ketika peubah penjelasnya
menggunakan nilai hasil diskretisasi.
Tujuan
Membandingkan model scoring yang
dibangun oleh nilai asli peubah penjelasnya
dengan model scoring yang dibangun oleh
nilai hasil diskretisasi peubah penjelasnya menggunakan metode regresi logistik
TINJAUAN PUSTAKA
Credit Scoring
Model scoring merupakan salah satu alat
yang dapat digunakan untuk menentukan peminjam yang tepat untuk diberi pinjaman.
Dengan menggunakan data perusahaan
pemberi pinjaman dan teknik statistika, credit
scoring mencoba untuk memisahkan pengaruh berbagai karakteristik pelamar dalam hal
pelanggaran dan kelalaian. Informasi
peminjam diperoleh dari aplikasi pinjaman dan catatan kredit. Data perusahaan yang dipakai antara lain aplikasi pendapatan bulanan, hutang yang belum dilunasi, aset finansial, lamanya bekerja, apakah pelamar lalai atau pernah melanggar peminjaman sebelumnya, apakah pelamar memiliki rumah sendiri atau menyewa, dan tipe rekening bank yang dimiliki.
Regresi Logistik
Regresi logistik merupakan teknik
analisis data yang dapat menjelaskan
hubungan antara peubah respons yang memiliki dua kategori atau lebih dengan satu atau lebih peubah penjelas berskala kontinu atau kategori (Hosmer dan Lemeshow, 1989).
Model regresi logistik menjadi model dasar bagi analisis hubungan antara peubah respon biner dengan peubah-peubah bebasnya. Respon berskala biner adalah peubah respon Y yang bernilai ‘ya’ atau ‘tidak’ yang umumnya dinotasikan sebagai Y=1 atau Y=0. Peluang masing-masing kejadian adalah
P(Y=1)= π dan P(Y=0)=1- π.
Peubah acak ini mengikuti sebaran
Lemeshow, 1989) dengan fungsi peluang sebaran Bernoulli adalah :
y y
y
Y
P
=
=
−
1−)
1
(
)
(
π
π
Pendekatan model persamaan regresi logistik digunakan karena dapat menjelaskan
hubungan antara x dan π(x) yang bersifat
tidak linier, ketidaknormalan sebaran dari Y, dan keragaman respon tidak konstan yang tidak dapat dijelaskan oleh model linier biasa (Agresti, 1990).
Model umum persamaan peluang regresi logistik dengan p peubah penjelas, yaitu :
) ( ) (
1
)
(
g x x ge
e
x
+
=
π
dimana komponen p px
x
x
x
x
g
β
β
β
π
π
+
+
+
=
−
=
...
)
(
1
)
(
ln
)
(
0 1 1merupakan penduga logit sebagai fungsi linear dari peubah penjelas.
Model regresi logistik menggunakan
metode kemungkinan maksimum untuk
menduga parameter-parameternya. Fungsi kemungkinan maksimum yang diperoleh jika antara amatan yang satu dengan amatan yang lain diasumsikan bebas adalah :
∏
= −−
=
n i y i y i i ix
x
l
1 1)]
(
1
[
)
(
)
(
β
π
π
Parameter βi diduga dengan
memaksimumkan persamaan di atas.
Pendekatan logaritma dilakukan untuk
memudahkan perhitungan, sehingga fungsi log-kemungkina sebagai berikut :
)]
(
ln[
)
(
β
l
β
L
=
)])
(
1
ln[(
)
1
(
)]
(
ln[
{
=
∑
y
iπ
x
i+
−
y
i−
π
x
iNilai dugaan βi dapat diperoleh dengan
membuat turunan pertama L(β) terhadap βi
sama dengan nol. Namun demikian karena
persamaan tersebut tidak linier dalam
parameter maka diperlukan teknik khusus menggunakan prosedur teknik kuadrat terkecil terboboti secara iteratif.
Menurut (Hosmer & Lemeshow 1989) untuk mengetahui peran seluruh peubah penjelas di dalam model secara bersama-sama dapat menggunakan statistik uji - G.
Hipotesis yang diuji adalah : H0 : β1 = β2 =…= βp = 0
H1 : minimal ada satu βi ≠ 0, i = 1,2, …, p
Statistik uji-G didefinisikan sebagai :
Dengan L0 adalah fungsi kemungkinan
(likelihood) tanpa peubah penjelas, dan Lp
merupakan fungsi kemungkinan dengan p peubah penjelas. Statistik uji-G mengikuti
sebaran χ2 dengan derajat bebas p.
Uji Wald digunakan untuk menguji
parameter βi secara parsial. Hipotesis yang
diuji adalah : H0 : βi = 0
H1 : βi≠ 0, i = 1,2, …, p
Statistik uji-Wald didefinisikan sebagai :
Jika hipotesis nol benar, maka statistik uji-Wald akan menyebar mengikuti sebaran normal baku.
Interpretasi koefisien untuk model regresi logistik adalah dengan cara melihat rasio
oddnya. Koefisien model logit, βi,
mencerminkan perubahan nilai fungsi logit g(x) untuk perubahan satu unit peubah penjelas x. Dalam analisis model logit rasio odds didefinisikan sebagai :
Interpretasi dari rasio odds ini adalah untuk peubah penjelas X yang berskala nominal, yaitu kecenderungan untuk Y=1
pada X=1 sebesar Ψ kali dibandingkan pada
X=0.
Correct Classification Table
Salah satu cara untuk mengetahui
ketepatan prediksi dari model adalah
menggunakan tabel kesesuaian klasifikasi
(correct classification table). Untuk memperoleh kesesuaian dugaan terhadap
amatan harus menentukan nilai cutoff (c) dan
dibandingkan dengan peluang dugaan π(x).
Jika π(x) lebih besar dari c maka nilai dugaan
termasuk pada respon y = 1 dan selain itu y = 0. Nilai c yang digunakan adalah 0.5 (Hosmer dan Lemeshow 1989).
Ketepatan model dalam memprediksi
kejadian gagal (y=0), yaitu P(ŷ=0|y=0)
dinyatakan sebagai N00/N0. atau sering disebut
specificity, proporsi nilai dugaan yang sama dengan nilai amatan pada kategori nilai amatan y=0. Indikator dan pengertian yang sama juga berlaku untuk mengevaluasi kemampuan model memprediksi kejadian
sukses (y=1), P(ŷ=1|y=1) yaitu N11/N1. atau
sering disebut sensitivity. Kemampuan model
dalam memprediksi keseluruhan kejadian
adalah (N00+N11)/N.. yang mencerminkan
−
=
pL
L
G
2
ln
0 SE z ^ β=)
(
^ ^ i iSE
W
β
β
=
)]
0
(
)
1
(
exp[
)
exp(
i=
g
−
g
=
Ψ
Ψ=ex p (β)i=ex p [g)1(−g)]0(β
proporsi nilai amatan yang secara tepat dapat diduga oleh model.
Dugaan
Amatan 0 1 Total %Tepat
0 N00 N0. N0. N00/N0.
1 N10 N11 N1. N11/N1.
N.0 N.1 N.. (N00+N11)/N..
Dengan :
N00: Suatu amatan bernilai 0 dengan
dugaan 0
N.0: Jumlah total dugaan bernilai 0
N0.: Jumlah total amatan bernilai 0
N..: Jumlah keseluruhan nilai yang
dihasilkan
Kurva ROC
Pada Gambar 1 kurva ROC menyajikan
sensitivity dan specificity sebagai alat pemisah
(penggolong) untuk suatu barisan cutoff.
Setiap titik pada kurva menyajikan peluang
dari cutoff. Titik yang mendekati sudut kanan
atas berkorespondensi dengan peluang cutoff
yang rendah. Sementara titik di kanan bawah
berkorespondensi dengan peluang cutoff yang
tinggi.
Kurva ROC untuk pengkelasan yang sempurna akan memiliki satu titik di sudut kiri atas (0,1). Oleh karena itu, wilayah di
bawah kurva ROC (c statistic) sering
digunakan untuk mengevaluasi penampilan
dari model prediksi untuk keseluruhan cutoff.
Gambar 1. Kurva ROC
Weight of Evidence (WOE)
Weight of Evidence (WOE) adalah perbandingan proporsi kategori tertentu suatu peubah untuk kelompok status kolektibilitas. WOE merupakan selisih atau besarnya perbedaan antara log odds tiap-tiap kategori dengan log odds total (Mays 2003).
Fungsi WOE dalam proses membangun
model credit scoring, WOE juga
menunjukkan tingkat resiko seseorang.
WOE tiap bin didefinisikan sebagai berikut :
( )
=
)
(
)
(
log
i
f
i
f
i
WOE
B G( )
=
G Gi Gn
n
i
f
100
= persentase jumlahnasabah kategori ke-i pada kelompok nasabah yang berstatus baik.
( )
=
B Bi Bn
n
i
f
100
= persentase jumlahnasabah kategori ke-i pada kelompok nasabah yang berstatus buruk.
Keterangan :
nG : jumlah nasabah berstatus baik pada
populasi
nB : jumlah nasabah berstatus buruk pada
populasi
nGi : jumlah nasabah berstatus baik pada
bin i
nBi : jumlah nasabah berstatus buruk pada
bin i
BAHAN DAN METODE Bahan
Bahan penelitian adalah data yang sama seperti yang digunakan oleh Alfiansyah
(2007) yakni data sekunder dari hasil amatan
terhadap 1000 orang nasabah suatu perbankan. Berdasarkan pengalaman, peubah input yang
biasa dipertimbangkan sebagai peubah
penjelas dalam membangun credit scoring
model antara lain : DSR (rasio antara hutang
dan pendapatan), Gross annual income,
Number of dependants (banyak tanggungan),
Residence status (status kepemilikan rumah), dan Job code (kode pekerjaan).
Pada kelima peubah tersebut Alfiansyah (2007) melakukan diskretisasi berdasarkan
metode chi-square dan hasilnya adalah
sebagai berikut :
1. Debt Salary Ratio (rasio antara hutang dan pendapatan) yang dinotasikan dengan DSR. Peubah ini dibagi menjadi delapan kelompok.
2. Gross annual income yang dinotasikan dengan GAI. Peubah ini dibagi menjadi tujuh kelompok.
3. Number of dependants (banyak
tanggungan) yang dinotasikan dengan NOD. Peubah ini dibagi menjadi lima kelompok.
4. Residence status (status kepemilikan rumah) yang dinotasikan dengan RS. Peubah ini dibagi menjadi enam kelompok.
5. Job code (kode pekerjaan) yang
dinotasikan dengan JC. Peubah ini dibagi menjadi lima kelompok.
Pada setiap peubah penjelas dibagi mejadi beberapa kategori dan pada masing-masing kategori dihitung nilai WOE-nya. Nilai WOE yang dihasilkan dan tercantum pada Tabel 1 merupakan perbandingan proporsi kategori tertentu pada masing-masing peubah penjelas untuk status baik atau buruknya calon penerima kredit. Semakin besar nilai WOE pada suatu kategori berarti kategori tersebut cenderung untuk baik, atau dengan kata lain para calon penerima kredit pada kategori tersebut cenderung memiliki peluang lebih besar untuk mendapatkan pinjaman.
Tabel 1. Kategorisasi data berdasarkan WOE
Debt Salary Ratio (%)
Kategori WOE 0.00 - 16.27 -0.1740 16.27 - 17.00 0.8944 17.00 - 17.99 -1.0365 17.99 - 19.69 -0.0456 19.69 - 20.41 1.9240 20.41 - 38.01 0.3204 38.01 - 38.91 -0.8640 38.91 - inf -0.0362
Gross Annual Income (juta rupiah)
Kategori WOE 0.0 – 53.4 -0.0682 53.4 – 57.6 -1.1005 57.6 – 63.0 1.0429 63.0 – 72.3 -0.1496 72.3 – 98.9 2.0323 98.9 – 139.7 0.0270 139.7 – inf 6.4396
Number Of Dependants (jiwa)
Kategori WOE 1 -0.1874 2 -0.0419 4 0.0569 0,3 0.1355 ≥5 0.4107 Residence Status Kategori WOE Rented -0.3583 Parents -0.1376 Own 0.1444 Others 0.2658 Institution 0.4481 Credit 0.5087 Job Code Kategori WOE
Notaris, peg yayasan -1.3393
Pegawai swasta -0.1135
Guru/Dosen,
peg.BUMN/BUMD 0.4602
Pegawai Negri Sipil 0.9379
Others 2.0969
Metode
Langkah–langkah metode penelitian
sebagaimana tertera pada Gambar 2 adalah sebagai berikut :
1. Memanfaatkan data asli dan data hasil diskretisasi Alfiansyah (2007).
2. Menduga model menggunakan metode regresi logistik dengan peubah penjelasnya adalah nilai asli yang kemudian disebut sebagai Model-1.
3. Menduga model dengan menggunakan metode regresi logistik dengan nilai peubah penjelasnya adalah nilai hasil diskretisasi (nilai WOE) yang kemudian disebut sebagai Model-2.
4. Membandingkan performa dari kedua model yang dihasilkan pada tahap (2) dan (3) dengan melihat signifikansi koefisien
regresi, correct classification table, dan
kurva ROC.
Software yang digunakan adalah SAS 9.1, SPSS 11.5, dan Microsoft Office Excel 2007.
Gambar 2 Flowchart Metode
HASIL DAN PEMBAHASAN Deskripsi Nasabah
Menduga Model -I
Data asli Data
terdiskretisasi Menduga Model -2 Membandingkan performa model - Koefisien regresi
- Correct Classification Table - Kurva ROC
Jumlah nasabah yang menjadi contoh dalam penelitian ini sebanyak 1000 orang. Untuk melihat apakah orang tersebut bisa mendapatkan pinjaman dari bank atau tidak , maka harus dilihat apakah orang tersebut berpeluag untuk mengalami kredit macet atau tidak. Dilihat dari kategori pertama yakni DSR (Rasio Utang dan Pendapatan) semakin besar DSR menunjukkan bahwa nasabah tersebut semakin berpeluang untuk macet dalam pembayaran kredit karena alokasi pendapatan berkurang untuk membayar kredit dengan asumsi pengeluaran sama.
Setelah dilakukan analisis terhadap 1000 orang nasabah tersebut dapat diketahui dari Tabel 2 bahwa sebagian besar nasabah berada pada selang rasio (17.00 - 17.99)% dan (20.41 - 38.01)%. Nasabah dengan rasio terkecil berada pada selang (0.00-16.27)% sebanyak 43 orang. Sedangkan nasabah dengan rasio tertinggi memiliki rasio lebih dari 38.91% sebanyak 37 orang.
Tabel 2 Jumlah Nasabah pada kategori Debt
Salary Ratio (DSR) DSR (%) Jumlah % 0.00 - 16.27 43 4.3 16.27 - 17.00 41 4.1 17.00 - 17.99 272 27.2 17.99 - 19.69 100 10 19.69 - 20.41 83 8.3 20.41 - 38.01 396 39.6 38.01 - 38.91 28 2.8 38.91 - inf 37 3.7
Untuk kategori pendapatan tahunan kotor atau GAI, sebagian besar nasabah memiliki pendapatan yang berkisar pada selang 57.6 sampai 63 juta rupiah dengan
persentase 81.8%. Nasabah dengan
pendapatan tahunan kotor paling rendah memiliki pendapatan sebesar 0.0 sampai 53.4 juta rupiah dengan persentase 27% dan nasabah dengan pendapatan paling tinggi memiliki pendapatan lebih dari 139.7 juta rupiah dengan persentase 32%, bahkan ada nasabah yang mencapai pendapatan tahunan kotor paling tinggi yakni sebesar 1.2 Milyar.
Tabel 3 Jumlah Nasabah pada kategori Pendapatan Tahunan Kotor
GAI (juta rupiah) Jumlah %
0.0 – 53.4 27 2.7 53.4 – 57.6 27 2.7 57.6 – 63.0 818 81.8 63.0 – 72.3 25 2.5 72.3 – 98.9 31 3.1 98.9 – 139.7 40 4 139.7 – inf 32 3.2
Pada Tabel 4 dapat diketahui nahwa nasabah yang tidak memiliki tanggungan sebanyak 311 orang atau 31.1%, selanjutnya nasabah dengan tanggungan 1, 2, 3, 4 dan 5 berturut-turut sebesar 25.1%, 27.2%, 12.3%, 3.2%, dan 0.7%. Sedangkan nasabah yang memiliki tanggungan lebih dari 5 orang sebesar 0.4%.
Tabel 4 Jumlah Nasabah pada kategori Jumlah Tanggungan
NOD (jiwa) Jumlah %
0 311 31.1 1 251 25.1 2 272 27.2 3 123 12.3 4 32 3.2 ≥5 11 1.1
Untuk kategori status rumah atau RS pada Tabel 5 dapat diketahui bahwa sebagian besar nasabah tinggal di rumah milik sendiri sebesar 43.7% dan sebesar 47.1% tinggal di rumah milik orang tua. Selainnya tinggal di rumah yang berstatus sewa sebesar 3.2%, di rumah yang bestatus kredit sebesar 1.9%, di rumah milik institusi sebesar 1.8% dan dengan status rumah lainnya sebesar 2.3%. Tabel 5 Jumlah Nasabah pada Kategori Status
Rumah Hunian RS Jumlah % Rented 32 3.2 Parents 471 47.1 Own 437 43.7 Others 23 2.3 Institution 18 1.8 Credit 19 1.9
Kategori terakhir pada Tabel 6 adalah kode pekerjaan atau JC. Mayoritas nasabah
memiliki pekerjaan sebagai pegawai swasta sebesar 79% dan sebagian yang lain adalah pegawai BUMN/BUMD, Pegawai Negeri Sipil, Guru/Dosen, Pejabat Negara dll. Tabel 6 Jumlah Nasabah pada kategori Kode
Pekerjaan JC Jumlah % Notaris 2 0.2 Pegawai Yayasan 5 0.5 Pegawai Swasta 790 79 Guru/Dosen 8 0.8 Pegawai BUMN/BUMD 137 13.7
Pegawai Negeri Sipil 29 2.9
Pejabat Negara 7 0.7 Profesional 2 0.2 Wiraswasta 7 0.7 Akuntan 2 0.2 Dokter 6 0.6 Employee 3 0.3 Paramedis 2 0.2
Peubah Y (kolektibilitas nasabah)
sebagai peubah respon merupakan peubah biner karena memiliki dua nilai yakni baik yang dinotasikan oleh angka 1 dan buruk yang dinotasikan oleh angka 0. Pada Gambar 3 dapat dilihat nasabah yang memiliki kategori baik sebanyak 833 orang atau 83.3%, nasabah dengan kategori buruk sebanyak 163 orang atau 16.3%, dan data nasabah yang hilang sebanyak 4 orang atau 0.4%.
Jumlah Kolektibilitas Nasabah
833 163 4
Baik Buruk Nilai Hilang
Gambar 3 Grafik Jumlah Kolektibilitas Nasabah
Analisis Regresi Logistik
Analisis regresi logistik menggunakan peubah penjelasnya, yang dapat berupa peubah kategorik ataupun peubah numerik, untuk menduga besarnya peluang kejadian tertentu dari kategori peubah respon. Dalam hal ini, analisis regresi logistik menggunakan
peubah penjelas (DSR, GAI, NOD, RS dan JC) untuk menduga besarnya peluang kejadian nasabah yang mengalami kredit macet atau masuk dalam kategori buruk.
Pemodelan peluang kejadian peubah
penjelas dari kategori peubah respon
dilakukan melalui transformasi logit.
Hubungan yang dibangun antara logit dengan
parameternya adalah hubungan linier.
Berdasarkan Lampiran 1 hubungan antara peubah penjelas dengan logitnya banyak yang tidak linier. Misalnya, hubungan DSR dengan logit membentuk pola kuadratik. Hubungan
antara GAI dengan logit membentuk
gerombol dan terdapat data ekstrem.
Hubungan antara NOD dengan logit
membentuk pola kubik.
Untuk RS dan JC tidak bisa dihitung nilai logitnya karena RS dan JC merupakan peubah
kategorik sementara model regresi
mensyaratkan peubah penjelasnya dalam bentuk numerik.
Berdasarkan Tabel 7 pendugaan
parameter pada Model-1 menghasilkan nilai Statistik-G sebesar 30.012 dengan nilai p = 0.000. Model penuh dapat diterima secara statistik karena nilai p lebih kecil dari taraf
nyata α = 0.05. Berarti model yang dibangun
layak atau minimal ada satu βi yang tidak
sama dengan nol. Sedangkan pendugaan parameter pada Model-2 menghasilkan nilai Statistik-G sebesar 74.461 dengan nilai p = 0.000. Model penuh dapat diterima secara statistik karena nilai p lebih kecil dari taraf
nyata α = 0.05. Berarti model yang dibangun
layak atau minimal ada satu βi yang tidak
sama dengan nol.
Dari tabel 7 juga bisa dilihat bahwa nilai statistik-G pada Model-2 lebih besar daripada Model-1, hal ini menunjukkan bahwa kuasa uji dari Model-2 lebih besar atau dengan kata lain pengaruh dari peubah penjelas (DSR, GAI, NOD, RS dan JC) lebih terdeteksi pada Model-2 daripada Model-1.
Statistik uji-G digunakan untuk
mengetahui peran seluruh peubah penjelas dalam model secara bersama-sama. Sehingga
terujinya signifikansi kedua model
menandakan bahwa seluruh peubah penjelas
berpengaruh terhadap kelancaran kredit
nasabah yang akan menentukan status nasabah pada dua kategori baik atau buruk. Akan tetapi keberpengaruhan peubah penjelas pada Model-2 lebih besar jika dilihat berdasarkan statistik uji-G.
Tabel 7 Nilai statistik-G, nilai-p dan nilai log-likelihood pada Model-1 dan
Model-2
Model-1 Model-2
Statistik-G 30.012 74.461
Nilai-p 0.000 0.000
Log-Likelihood - 426.902 -406.668
Selain statistik uji-G, uji Wald
digunakan untuk menguji parameter secara parsial. Dari model logistik yang terlihat pada Tabel 8, pada Model-1 peubah DSR, NOD, dan RS menghasilkan nilai-p yang lebih besar
dari α = 0.05. Hal ini menunjukkan bahwa
peubah-peubah tersebut tidak berpengaruh nyata secara statistik, sedangkan peubah-peubah yang signifikan berpengaruh nyata
pada taraf α = 0.05 adalah peubah GAI dan JC.
Sedangkan untuk Model-2 peubah NOD dan RS menghasilkan nilai-p yang lebih besar dari
α = 0.05. Hal ini menunjukkan bahwa
peubah-peubah tersebut tidak berpengaruh nyata secara statistik, sedangkan peubah-peubah yang signifikan berpengaruh nyata pada taraf
α = 0.05 adalah peubah DSR, GAI, dan JC.
Tabel 8 P-Value dari uji Wald pada Model-1 dan Model-2
Peubah Model-1 Model-2
DSR 0.167 0.000
GAI 0.011 0.001
NOD 0.058 0.176
RS 0.265 0.121
JC 0.015 0.003
Untuk mengukur sejauh mana validitas pengujian parameter maka dapat dilakukan pengujian korelasi antar peubah, hal ini berguna dan menjadi salah satu indikator apakah antar peubah saling bebas atau tidak
atau dengan kata lain telah terjadi
multikolinearitas dalam model atau tidak. Tabel 9 Korelasi Antar Peubah Penjelas
DSR GAI NOD RS GAI -0.160 (0.000) NOD 0.015 (0.637) 0.241 (0.000) RS 0.052 (0.100) 0.136 (0.000) 0.388 (0.000) JC 0.000 (0.988) 0.242 (0.000) 0.257 (0.000) 0.162 (0.000) Keterangan : Nilai di dalam tanda kurung menunjukkan nilai-p
Dari Tabel 9 dapat dilihat bahwa antar peubah NOD dengan RS ada korelasi. Akan tetapi hal ini tidak dapat dijadikan pegangan bahwa telah terjadi masalah dalam model sehingga pada Tabel 8 peubah NOD dan RS
dari Model-2 tidak nyata. Kemudian
dilakukan simulasi lagi dengan membuang peubah RS, akan tetapi hasilnya peubah NOD tetap saja tidak menjadi nyata. Hal ini diduga cukup untuk menyatakan bahwa tidak ada
masalah dalam model sehingga hasil
pengujian parameter dinyatakan valid. Besarnya nilai-nilai koefisien regresi (B), SE dan Rasio Odds dari Model-1 dan Model-2 disajikan berturut-turut pada Lampiran 2 dan Lampiran 3.
Pembandingan Model
Penilaian kebaikan model dalam
mengepas data yang digunakan diperlukan untuk memastikan bahwa prediksi yang diperoleh dari model memiliki tingkat ketepatan yang tinggi. Menurut (Hosmer & Lemeshow 1989), model dengan peubah yang signifikan berdasarkan hasil pengujian belum tentu akan memberikan tingkat ketepatan yang tinggi. Sehingga digunakan teknik sederhana
untuk menentukan tingkat kebaikan
pendugaan dari model, salah satunya adalah tabel klasifikasi.
Tabel 10 Klasifikasi metode regresi logistik antara Model-1 dan Model-2
Dugaan Amatan Ya Tidak Total (%) Tepat Ya 115 47 162 71.0 Tidak 462 370 832 44.5 Model-1 Total 577 417 994 48.8 Ya 114 48 163 70.4 Model-2 Tidak 348 484 833 58.2 Total 462 532 994 60.2
Tabel ini merupakan tabel frekuensi dua arah antara nilai kategori aktual data dengan
kategori prediksinya. Model yang diinginkan dari pengujian ini adalah model yang
memiliki rata-rata prediksi benar yang sangat tinggi. Karena dalam penelitian ini ada dua model, dimana Model-1 disusun dari data asli dan Model-2 dari data hasil diskretisasi maka model dengan rata-rata prediksi benar yang lebih tinggi adalah model yang lebih baik.
Tabel 10 menunjukkan bahwa dengan
menggunakan nilai cutoff sebesar 0.84 maka
berdasarkan metode regresi logistik pada
Model-1 diperoleh nilai sensitivity sebesar
71.0% dan nilai specificity sebesar 44.5%
dengan nilai kesalahan positif dan kesalahan negatif masing-masing sebesar 80.1% dan
11.3%. Sedangkan nilai total correct
classification adalah sebesar 48.8%.
Untuk metode regresi logistik pada
Model-2, nilai sensitivity dan specificity
masing-masing sebesar 70.6% dan 58.1%
dengan nilai total correct classification
sebesar 60.1%, sedangkan nilai kesalahan positif sebesar 75.2% dan nilai kesalahan
negatifnya sebesar 9.0%. Nilai total
misclassification rate untuk Model-1 sebesar 51.2% sedangkan untuk Model-2 sebesar 39.9%.
Selain Tabel Klasifikasi, teknik lain yang digunakan adalah kurva ROC. Kurva ROC merupakan teknik pengembangan dari tabel klasifikasi. Kurva ROC untuk pengkelasan yang sempurna akan memiliki satu titik di sudut kiri atas (0,1). Oleh karena itu, wilayah
di bawah kurva ROC (c statistic) sering
digunakan untuk mengevaluasi penampilan
dari model prediksi untuk keseluruhan cutoff.
Penggunaan c statistic yang diturunkan dari
ROC curve sangat membantu kesulitan yang terjadi dalam penggunaan tabel klasifikasi dan
memperjelas pengambilan kesimpulan
terhadap kebaikan model.
Gambar 4. Kurva ROC Model 1
Gambar 5. Kurva ROC Model 2 Sebagaimana terlihat pada Gambar 4 dan 5, Model-2 lebih baik dari Model-1 karena kurva ROC pada Model-2 memiliki luas daerah di bawah kurva yang lebih besar dari
Model-1 dilihat dari estimated area (c) pada
Model-2 sebesar 0.703 sedangkan Model-1 sebesar 0.617.
Setelah dianalisis melalui beberapa teknik yang ada maka dapat disimpulkan bahwa Model-2 lebih baik dari Model-1. Hal ini terjadi karena bentuk hubungan yang tidak linear antara peubah penjelas dengan logit. Sebagai contoh adalah plot antara NOD dengan logit pada Lampiran 1. Hubungan ini terkesan dipaksakan linier padahal hubungan yang sebenarnya tidak linier. Akibatnya performa Model-1 menjadi lebih buruk dari pada Model-2. Adapun Model-2 nampak lebih baik (hubungannya linier) karena data yang digunakan pada model ini adalah data hasil diskretisasi.
KESIMPULAN
Perbandingan dua model yang dibentuk dari data yang berbeda, dimana Model-1 dibentuk dari data asli dan Model-2 dari data hasil diskretisasi, menghasilkan keluaran yang berbeda. Model dengan data asli menjadi buruk karena tidak dapat menghindari kehadiran data-data ekstrem, seperti data pencilan dan lain sebagainya. Kemudian model ini juga tidak dapat menghindari pelanggaran asumsi seperti kelinearan yang harus dipenuhi dalam hubungan antara logit dengan parameternya.
Setelah melalui serangkaian pengujian dan pengepasan data menunjukkan bahwa
keberadaan nilai ekstrem ataupun
ketidaklinieran pada hubungan antara logit dengan parameternya menyebabkan buruknya model, sehingga upaya untuk melakukan diskretisasi data cukup memperbaiki kondisi model.
DAFTAR PUSTAKA
Agresti A. 1990. Categorical Data Analysis.
John Wiley & Sons, New York.
Alfiansyah. 2007. Diskretisasi Peubah Credit Scoring Model menggunakan Metode
Entropi dan Khi Kuadrat.[Skripsi].
Statistika FMIPA IPB.
Hollowel. 2004. A Fair Isaac White Paper:
Technology Guide To The Scorecard Module. http://www.fairisaac.com/. [22 Juni 2007]
Han, J & Kember, M. 2001. Data Mining :
Concepts And Techniques. Academic Press. San Diego
Hosmer D.W. Jr. & Lemeshow S. 1989.
Applied Logistic Regression. John Wiley & Sons. New York.
Kantardzic M. 2003. Data Mining : Concepts,
Models, Methods, And Algorithms New York : IEEE & Wiley Inter-Science.
Mays E. 2003.The Role Of Credit Scores In
Consumer Lending. Thomson, South-Western.
Watherill G.B. 1986. Regression Analysis
with Application. New York : Chapman & Hall
LAMPIRAN Lampiran 1 Grafik plot peubah penjelas
dengan logitnya dari Model 1.
plot DSR dengan logit
-1.2 -1 -0.8 -0.6 -0.4 -0.2 0 0 5 10 15 20 25 30 35 40 45 DSR lo g it logit
plot GAI dengan logit
-1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.00 200,000,0 00.00 400,000,0 00.00 600,000,0 00.00 800,000,0 00.00 1,000,000 ,000.00 1,200,000 ,000.00 1,400,000 ,000.00 GAI lo g it logit
plot NOD dengan logit
-0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0 1 2 3 4 5 6 7 8 9 NOD lo g it logit
Lampiran 2 Nilai B, SE dan Rasio Odds pada Model 1
B S.E. Rasio Odds
DSR .014 .010 1.014 GAI .000 .000 1.000 NOD -.157 .083 .854 RS(1) -.627 .460 .534 RS(2) -.233 .198 .792 JC(1) -3.574 1.565 .028 JC(2) -2.471 1.098 .085 JC(3) -1.325 .606 .266 JC(4) -.752 .659 .471 Konstan .561 .511 1.753
Lampiran 3 Nilai B, SE dan Rasio Odds pada Model 2
B S.E. Rasio Odds
DSR .982 .192 2.670 GAI .955 .276 2.599 NOD .900 .666 2.459 RS .798 .515 2.220 JC .759 .254 2.136 Konstan 1.619 .093 5.047