ALGORITMANAIVEBAYESUNTUKMEMPREDIKSISTATUSPENGAJUAN KREDITKEPEMILIKANRUMAH
Andriano, Harison Program Studi S1 Statistika
Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Riau Kampus Bina Widya, Pekanbaru 28293
[email protected] ABSTRACT
This study discusses the classification analysis of the status of housing loan applications (KPR) at one of the banks in Pekanbaru City using the naïve Bayes algorithm. The purpose of this study is to classify data on the status of mortgage applications at one of the banks in Pekanbaru City. The results show that the highest posterior value is in the rejected class. Classify naïve Bayes able to classify data on mortgage application status.
This is shown from the confusion matrix, namely, the accuracy value reaches 50.96%, the sensitivity is 78.05%, and the specificity is 16.25%.
Keywords: Status of housing loan applications, naïve bayes algoritm, posterior, confusion matrix.
ABSTRAK
Penelitian ini membahas analisis klasifikasi data status pengajuan kredit kepemilikan rumah (KPR) di salah satu Bank yang ada di Kota Pekanbaru menggunakan algoritma naïve bayes. Tujuan dari penelitian ini untuk mengklasifikasikan data status pengajuan KPR di salah satu bank yang ada di Kota Pekanbaru. Hasil menunjukkan bahwa nilai posterior tertinggi berada pada kelas ditolak. Klasifikasikan naïve bayes mampu mengklasifikasikan data status pengajuan KPR. Hal ini ditunjukkan dari confusion matrix yaitu nilai akurasi mencapai 50,96%, sensitivitas 78,05%, dan spesifisitas 16,25%.
Kata kunci: Status Pengajuan Kredit, algoritma naïve bayes, posterior, confusion matrix.
1. PENDAHULUAN
Kredit berasal dari bahasa latin “credere” yang berarti percaya. Kredit sendiri memiliki banyak jenis salah satunya adalah kredit konsumtif. Kredit konsumtif digunakan untuk kepentingan pribadi contohnya adalah Kredit Kepemilikan Rumah (Kasmir, 2003).
Kredit Kepemilikan Rumah (KPR) adalah salah satu dari jenis kredit konsumtif.
Dalam pengajuan KPR, calon debitur harus melampirkan beberapa syarat untuk
profil calon debitur untuk diterima atau ditolak dalam pengajuan KPR. Konsep tersebut sangat berkaitan dengan data mining dalam penggalian informasi.
Berdasarkan pola data status pengajuan KPR di salah satu bank yang ada di kota pekanbaru, data tersebut dapat menjadi acuan bagi pihak bank dalam menentukan status kredit calon debitur selanjutnya menggunakan salah satu metode klasifikasi dalam data mining yaitu naïve bayes. Naïve bayes adalah salah satu metode klasifikasi yang menggabungkan probabilitas pada data sebelumnya dengan probabilitas bersyarat, yang berfungsi untuk mencari nilai probabilitas dari setiap kemungkinan klasifikasi secara bergantian (Bramer, 2016).
Penelitian lainnya dilakukan oleh Eweoya et al (2019) yang menggunakan algoritma naïve bayes untuk memprediksi penipuan administrasi pinjaman. Penelitian ini menggunakan 5000 data dengan 9 variabel independen yaitu umur, jenis kelamin, gaji, status pekerjaan, tiga transaksi terakhir, jumlah pinjaman. Berdasarkan analisis tersebut diperoleh prediksi dengan tingkat akurasi 78%.
2. ALGORITMA NAÏVE BAYES, DAN CONFUSION MATRIX
Naïve bayes adalah salah satu algoritma klasifikasi yang mana setiap atribut bersifat bebas atau independent. Metode ini menghasilkan prediksi yang lebih baik dari beberapa metode klasifikasi lainnya (Pattekari & Parveen, 2012). Klasifikasi naïve bayes didasarkan pada teorema bayes. Berikut merupakan algoritma dalam naïve bayes (Han et al., 2012):
1. Menghitung probabilitas setiap kelas. Nilai probabilitas didapat dengan cara membandingkan jumlah data yang sesuai dengan kategori yang sama dengan jumlah data pada kelas tersebut. berikut persamaan dari perhitungan probabilitas
( ) ( ) (1)
dengan,
( ) : Probabilitas kejadian kelas X ( ) : Jumlah kelas X pada suatu atribut : banyaknya data pada kelas X.
2. Menghitung nilai probabilitas bersyarat ( ) pada setiap variabel independen terhadap variabel dependen. Berikut persamaan untuk menghitung probabilitas bersyarat:
( ) ( ) ( )
(2)
dengan,
( ) : Probabilitas kejadian dengan syarat terjadi ( ) : Probabilitas kejadian dan terjadi
( ) : Probabilitas kejadian Y.
Jika terdapat probabilitas yang bernilai nol, maka gunakan teknik perhitungan Laplace Correction yang mana menambahkan nilai satu pada kelas – kelas yang dihitung. Persamaan Laplace Correction adalah sebagai berikut.
(3) dengan,
: Nilai probabilitas atribut
: Banyaknya data pada kelas atribut n : banyaknya data
k : banyaknya kelas pada atribut
3. Menghitung nilai Posterior probability dengan menggunakan persamaan (4) berikut ini pada setiap kelas terhadap seluruh atribut. Nilai data yang tertinggi akan diberi label kelas.
( ) ( ) ( ) ( ) ( ) ( ) (4) dengan,
: Kelas pada kumpulan data
: variabel pada suatu kumpulan data, n = 1, 2, …, n
Persamaan (5) didapat berdasarkan dari teorema naïve bayes dijabarkan dalam persamaan (5) (Kantardics, 2020):
( ) ( ) ( )
( ) (5)
dengan
X : Kelas pada kumpulan data
: Variabel – variabel pada suatu kumpulan data
( ) : Peluang kejadian dengan syarat kejadian X (posterior probability) ( ) : Peluang kejadian (prior probability)
( ) : Peluang kejadian X dengan syarat kejadian (likelihood) ( ) : Peluang dari kejadian X.
Persamaan (6) merupakan model dari teorema naïve bayes yang digunakan dalam proses klasifikasi. Pada klasifikasi dengan data kontinu menggunakan rumus Densitas Gauss persamaan (6):
( | )
√
( )
(6)
dengan,
P : Probabilitas
: Variabel independen ke-i : Nilai variabel independen ke-i : Kelas yang akan dicari
: Sub dari kelas Y yang akan dicari : Rata – rata dari seluruh data : Standar deviasi
Pada proses mengevaluasi model klasifikasi naïve bayes dibutuhkan confusion matrix untuk melihat nilai akurasi, sensitivitas, dan spesifisitas. Confusion matrix digunakan untuk memperoleh nilai akurasi dari hasil prediksi. Confusion matrix dirincikan pada tabel berikut (Larner, 2021):
Tabel 1. Tabel confusion matrix 2 x 2
Aktual
True False
Prediksi
Positive True Positive (TP) False Positive (FP) Negative False Negative (TN) True Negative (FN)
Nilai akurasi, spesifisitas, dan sensitivitas dari hasil prediksi tersebut menggunakan persamaan sebagai berikut (Larner, 2021):
Akurasi ( ) (7)
Spesifisitas ( ) (8)
Sensitivitas ( ) (9)
3. METODOLOGI PENELITIAN
Artikel ini dilakukan dengan menggunakan data status pengajuan KPR di salah satu Bank yang ada di Kota Pekanbaru. Tahapan-tahapan dalam artikel ini adalah sebagai berikut:
1. Pengumpulan data yang diperoleh dari salah satu bank yang ada di Kota Pekanbaru.
2. Mentransformasikan data sesuai dengan kebutuhan analisis dengan memilih variabel yang diperlukan untuk analisis.
3. Membagi data menjadi dua bagian yaitu data training sebesar 70% dengan banyaknya data 854 untuk membangun model dan data testing sebesar 30% dengan banyak data 366 untuk mengevaluasi model yang dibangun.
4. Menentukan nilai prior pada setiap kelas data status pengajuan KPR.
5. Menetukan nilai likelihood pada setiap atribut.
6. Menentukan label kelas berdasarkan nilai posterior tertinggi.
7. Membuat confusion matrix untuk melihat nilai akurasi, sensitivitas, dan spesifisias 8. Menarik kesimpulan dan saran.
4. STATUS PENGAJUAN KREDIT KEPEMILIKAN RUMAH DI SALAH SATU BANK KOTA PEKANBARU
Probabilitas dari klasifikasi naïve bayes akan menghasilkan prediksi untuk setiap kelas data status pengajuan KPR (diterima dan ditolak). Prediksi tersebut akan menentukan sesuai atau tidaknya klasifikasi naïve bayes terhadap data. Nilai probabilitas pada setiap kelas diperoleh melalui persamaan (4) sehingga diperoleh hasil yang disajikan pada tabel dibawah.
Tabel 2. Nilai probabilitas status pengajuan KPR Diterima Ditolak
0,561 0,439
Pada Tabel 2 dapat dilihat bahwa nilai probabilitas status pengajuan KPR dengan kelas diterima sebesar 0,561 dan nilai probabilitas status pengajuan KPR dengan kelas ditolak sebesar 0,439. Oleh karena itu, kelas yang diterima memiliki nilai yang lebih tinggi dari pada kelas yang diterima yang artinya status pengajuan KPR di salah satu Kota Pekanbaru 5 tahun terakhir berada pada kelas ditolak.
Kemudian, setelah nilai probabilitas dari setiap kelas telah diketahui, dilanjutkan dengan menghitung probabilitas bersyarat pada setiap variabel independen dengan kelas data kategorik menggunakan persamaan (4) dan kelas data numerik menggunakan persamaan (6). Berikut merupakan hasil nilai probabilitas bersyarat pada setiap variabel independen terhadap variabel dependen.
Tabel 3. Probabilitas Status Pengajuan KPR
Variabel Kategori Probabilitas
Ditolak Diterima
Jenis Nasabah Baru 0,706 0,731
Pembukuan Rek.Baru 0,229 0,211 Pengkinian Data 0,027 0,023
Status Rumah Tinggal
Milik Keluarga 0,752 0,723 Milik Sendiri 0,016 0,037 Milik Sendiri, Tidak
Dijaminkan 0,027 0,046
Rumah Dinas 0,019 0,023
Sewa/Kontrak 0,186 0,171
Lama Ditempati
1 0,095 0,064
1,2 0,101 0,07
2 0,124 0,102
… … …
17 0,004 0,001
23 0,001 0,002
63 0,002 0,001
Usia
21 0,053 0,001
22 0,064 0,002
23 0,076 0,005
… … …
46 0,021 0,001
47 0,016 0,005
53 0,002 0,003
Pendidikan Terkahir
SD 0,029 0,033
SMP 0,065 0,042
SMA 0,486 0,471
D3/SM 0,088 0,119
S1 0,293 0,293
S2 0,026 0,034
S3 0,013 0,008
Pekerjaan
BUMN/D 0,005 0,002
Dokter 0,008 0,004
Dosen/Guru 0,029 0,028
Ibu Rumah Tangga 0,114 0,115
Karyawan/K 0,008 0,016
Pedagang 0,008 0,016
Pegawai BU 0,04 0,045
Pegawai Swasta 0,248 0,187
Pengusaha 0,011 0,017
Petani/Nelayan 0,001 0,002
PNS 0,123 0,129
Profesional 0,027 0,045
Swasta Asing 0,013 0,006
TNI/Polri 0,016 0,014
Wiraswasta 0,237 0,238
Lainnya 0,091 0,1
Status Pekerjaan
Kontrak 0,149 0,157
Tetap 0,851 0,843
Penghasilan
1700000 7E-05 7E-05
2500000 0,0002 0,0002
2600000 0,0002 0,0002
… … …
6300000 0,0001 0,0001
6500000 0,0001 0,0001
8500000 5E-05 5E-05
Sumber dana
Gaji 0,851 0,818
Hasil Usaha 0,149 0,182
Berikut persamaan dari klasifikasi naïve bayes dengan asumsi semua variabel independen tidak saling terkait atau saling bebas satu dengan yang lain:
Nilai probabilitas prior yaitu peluang pada setiap kelas dalam data yang disajikan pada tabel 4.1. sehingga probabilitas prior yang dihasilkan adalah:
( ) ( )
Nilai probabilitas likelihood (nilai probabilitas bersyarat) pada setiap atribut terhadap kelas yang terdapat pada Tabel 4.2. sampai dengan Tabel 4.10. Sebagai salah satu contoh, berikut adalah nilai probabilitas likelihood untuk atribut sumber dana:
( ) ( ) ( ) ( )
Nilai probabilitas pada setiap kelas dan nilai probabilitas bersyarat setiap atribut
Posterior. Contohnya, jenis nasabah = nasabah baru, status rumah tinggal = milik keluarga, jenis kelamin = laki – laki, status perkawinan = janda/duda, pendidikan terakhir = SD, pekerjaan = BUMN/D, status pekerjaan = kontrak, sumber dana = gaji.
Berdasarkan persamaan (2.4) diperoleh nilai probabilitas Posterior sebagai berikut:
( ) ( )( )( ) ( )
( ) ( )( )( ) ( )
Berdasarkan nilai perhitungan nilai Posterior tertinggi berada pada kelas ditolak, oleh karena itu berdasarkan contoh yang menyatakan status pengajuan KPR berada pada kelas ditolak terklasifikasi benar oleh klasifikasi naïve bayes. Kemudian, dilakukan klasifikasi dengan membangun model menggunakan data training dengan persentase 70% dari banyaknya data.
Kemudian, model dievaluasi menggunakan data testing dengan presentase 30%
dari banyaknya data. Berikut tabel yang menyajikan banyaknya data testing dan data training.
Tabel 4. Jumlah data testing dan data training menggunakan klasifikasi naïve bayes Data testing Data training
366 854
Berdasarkan Tabel 4. dapat dilihat bahwa banyaknya data testing yaitu 366 dan banyaknya data training yaitu 854. Hasil evaluasi dari data testing klasifikasi naïve bayes dilihat dari confusion matrix melalui nilai akurasi, sensitivitas, dan spesifisitas.
Berikut merupakan tabel confusion matrix dari metode klasifikasi naïve bayes menggunakan software R studio.
Tabel 5. Confusion matrix menggunakan data testing klasifikasi naïve bayes Status
Pengajuan KPR
Ditolak Diterima
Ditolak 26 45
Diterima 134 160
Pada Tabel 5. dapat dilihat bahwa data status pengajuan KPR yang ditolak dan diprediksi benar ditolak sebanyak 26 data. Data status pengajuan KPR yang diterima tapi diprediksi ditolak sebanyak 45. Kemudian, data status pengajuan KPR yang ditolak tapi diprediksi diterima sebanyak 134. Data status pengajuan KPR yang diterima dan diprediksi benar diterima sebanyak 160. Oleh karena itu, didapat nilai akurasi, sensitivitas, dan spesifisitas menggunakan persamaan (7), persamaan (8), dan persamaan (9). Berikut tabel yang menyajikan nilai akurasi, sensitivitas, dan spesifisitas.
Tabel 6. Hasil evaluasi klasifikasi naïve bayes menggunakan data testing Akurasi Sensitivitas Spesifisitas
50,96% 78,05% 16,25%
Pada Tabel 6. dapat dilihat bahwa nilai akurasi yang diperoleh dari klasifikasi naïve bayes tersebut sebesar 50,96%, nilai sensitivitas 78,05%, dan nilai spesifisitas 16,25%
dengan menggunakan data testing sebanyak 366 data.
5. KESIMPULAN
Berdasarkan hasil Hasil dari klasifikasi naïve bayes dalam mengklasifikasikan status penganjuan KPR di salah satu yang ada di Kota Pekanbaru tahun 2022 menjadi kelas ditolak dan diterima dengan pembagian data training 70% dari banyaknya data dan testing 30% dari banyaknya data, sehingga diperoleh presentasi akurasi sebesar 50,96%, sensitivitas sebesar 78,05%, dan spesifisitas sebesar 16,25%.
DAFTAR PUSTAKA
Bramer, M. (2016). Principle of data mining (3rd ed.). Hampshire: Springer.
Eweoya, I. O., Adebiyi, A. A., Azeta, A. A., Chidozie, F., Agono, F. O., & Guembe, B.
(2019). A naive bayes approach to fraud prediction in loan default. Journal of Physics: Conference Series, 1299(1).
Han, J., Kamber, M., & Pei, J. (2012). Data mining: Data mining concepts and techniques (3rd ed.). Waltham: Morgan Kaufmann.
Kasmir. (2003). Dasar - dasar perbankan (1st ed.). Jakarta: PT RajaGrafindo Persada.
Larner, A. J. (2021). The 2x2 matrix: contingency, confusion, and the metrics of binary classification. Liverpool: Springer.
Rivai, V., & Veithzal, A. (2007). Credit management hanbook: Teori, konsep, prosedur, dan aplikasi panduan praktis mahasiswa, bankir, dan nasabah (2nd ed.). Jakarta: PT.
RajaGrafindo Persada.
Pattekari, S. A., & Parveen, A. (2012). Prediction system for heart disease using naive bayes. International Journal of Advanced Computer and Mathematical Sciences, 3(3), 290–294.