ALGORITMA NAIVE BAYES UNTUKMEMPREDIKSI STATUS PENGAJUAN KREDIT KEPEMILIKAN RUMAH

(1)

ALGORITMANAIVEBAYESUNTUKMEMPREDIKSISTATUSPENGAJUAN KREDITKEPEMILIKANRUMAH

Andriano, Harison Program Studi S1 Statistika

Jurusan Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Riau Kampus Bina Widya, Pekanbaru 28293

This study discusses the classification analysis of the status of housing loan applications (KPR) at one of the banks in Pekanbaru City using the naïve Bayes algorithm. The purpose of this study is to classify data on the status of mortgage applications at one of the banks in Pekanbaru City. The results show that the highest posterior value is in the rejected class. Classify naïve Bayes able to classify data on mortgage application status.

This is shown from the confusion matrix, namely, the accuracy value reaches 50.96%, the sensitivity is 78.05%, and the specificity is 16.25%.

Keywords: Status of housing loan applications, naïve bayes algoritm, posterior, confusion matrix.

ABSTRAK

Penelitian ini membahas analisis klasifikasi data status pengajuan kredit kepemilikan rumah (KPR) di salah satu Bank yang ada di Kota Pekanbaru menggunakan algoritma naïve bayes. Tujuan dari penelitian ini untuk mengklasifikasikan data status pengajuan KPR di salah satu bank yang ada di Kota Pekanbaru. Hasil menunjukkan bahwa nilai posterior tertinggi berada pada kelas ditolak. Klasifikasikan naïve bayes mampu mengklasifikasikan data status pengajuan KPR. Hal ini ditunjukkan dari confusion matrix yaitu nilai akurasi mencapai 50,96%, sensitivitas 78,05%, dan spesifisitas 16,25%.

Kata kunci: Status Pengajuan Kredit, algoritma naïve bayes, posterior, confusion matrix.

1. PENDAHULUAN

Kredit berasal dari bahasa latin “credere” yang berarti percaya. Kredit sendiri memiliki banyak jenis salah satunya adalah kredit konsumtif. Kredit konsumtif digunakan untuk kepentingan pribadi contohnya adalah Kredit Kepemilikan Rumah (Kasmir, 2003).

Kredit Kepemilikan Rumah (KPR) adalah salah satu dari jenis kredit konsumtif.

Dalam pengajuan KPR, calon debitur harus melampirkan beberapa syarat untuk

(2)

profil calon debitur untuk diterima atau ditolak dalam pengajuan KPR. Konsep tersebut sangat berkaitan dengan data mining dalam penggalian informasi.

Berdasarkan pola data status pengajuan KPR di salah satu bank yang ada di kota pekanbaru, data tersebut dapat menjadi acuan bagi pihak bank dalam menentukan status kredit calon debitur selanjutnya menggunakan salah satu metode klasifikasi dalam data mining yaitu naïve bayes. Naïve bayes adalah salah satu metode klasifikasi yang menggabungkan probabilitas pada data sebelumnya dengan probabilitas bersyarat, yang berfungsi untuk mencari nilai probabilitas dari setiap kemungkinan klasifikasi secara bergantian (Bramer, 2016).

Penelitian lainnya dilakukan oleh Eweoya et al (2019) yang menggunakan algoritma naïve bayes untuk memprediksi penipuan administrasi pinjaman. Penelitian ini menggunakan 5000 data dengan 9 variabel independen yaitu umur, jenis kelamin, gaji, status pekerjaan, tiga transaksi terakhir, jumlah pinjaman. Berdasarkan analisis tersebut diperoleh prediksi dengan tingkat akurasi 78%.

2. ALGORITMA NAÏVE BAYES, DAN CONFUSION MATRIX

Naïve bayes adalah salah satu algoritma klasifikasi yang mana setiap atribut bersifat bebas atau independent. Metode ini menghasilkan prediksi yang lebih baik dari beberapa metode klasifikasi lainnya (Pattekari & Parveen, 2012). Klasifikasi naïve bayes didasarkan pada teorema bayes. Berikut merupakan algoritma dalam naïve bayes (Han et al., 2012):

1. Menghitung probabilitas setiap kelas. Nilai probabilitas didapat dengan cara membandingkan jumlah data yang sesuai dengan kategori yang sama dengan jumlah data pada kelas tersebut. berikut persamaan dari perhitungan probabilitas

( ) ( ) (1)

dengan,

( ) : Probabilitas kejadian kelas X ( ) : Jumlah kelas X pada suatu atribut : banyaknya data pada kelas X.

2. Menghitung nilai probabilitas bersyarat ( ) pada setiap variabel independen terhadap variabel dependen. Berikut persamaan untuk menghitung probabilitas bersyarat:

( ) ( ) ( )

(2)

dengan,

( ) : Probabilitas kejadian dengan syarat terjadi ( ) : Probabilitas kejadian dan terjadi

( ) : Probabilitas kejadian Y.

(3)

Jika terdapat probabilitas yang bernilai nol, maka gunakan teknik perhitungan Laplace Correction yang mana menambahkan nilai satu pada kelas – kelas yang dihitung. Persamaan Laplace Correction adalah sebagai berikut.

(3) dengan,

: Nilai probabilitas atribut

: Banyaknya data pada kelas atribut n : banyaknya data

k : banyaknya kelas pada atribut

3. Menghitung nilai Posterior probability dengan menggunakan persamaan (4) berikut ini pada setiap kelas terhadap seluruh atribut. Nilai data yang tertinggi akan diberi label kelas.

( ) ( ) ( ) ( ) ( ) ( ) (4) dengan,

: Kelas pada kumpulan data

: variabel pada suatu kumpulan data, n = 1, 2, …, n

Persamaan (5) didapat berdasarkan dari teorema naïve bayes dijabarkan dalam persamaan (5) (Kantardics, 2020):

( ) ( ) ( )

( ) (5)

dengan

X : Kelas pada kumpulan data

: Variabel – variabel pada suatu kumpulan data

( ) : Peluang kejadian dengan syarat kejadian X (posterior probability) ( ) : Peluang kejadian (prior probability)

( ) : Peluang kejadian X dengan syarat kejadian (likelihood) ( ) : Peluang dari kejadian X.

Persamaan (6) merupakan model dari teorema naïve bayes yang digunakan dalam proses klasifikasi. Pada klasifikasi dengan data kontinu menggunakan rumus Densitas Gauss persamaan (6):

(4)

( | )

√

( )

(6)

dengan,

P : Probabilitas

: Variabel independen ke-i : Nilai variabel independen ke-i : Kelas yang akan dicari

: Sub dari kelas Y yang akan dicari : Rata – rata dari seluruh data : Standar deviasi

Pada proses mengevaluasi model klasifikasi naïve bayes dibutuhkan confusion matrix untuk melihat nilai akurasi, sensitivitas, dan spesifisitas. Confusion matrix digunakan untuk memperoleh nilai akurasi dari hasil prediksi. Confusion matrix dirincikan pada tabel berikut (Larner, 2021):

Tabel 1. Tabel confusion matrix 2 x 2

Aktual

True False

Prediksi

Positive True Positive (TP) False Positive (FP) Negative False Negative (TN) True Negative (FN)

Nilai akurasi, spesifisitas, dan sensitivitas dari hasil prediksi tersebut menggunakan persamaan sebagai berikut (Larner, 2021):

Akurasi ^{( )} (7)

Spesifisitas _{( )} (8)

Sensitivitas _{( )} (9)

3. METODOLOGI PENELITIAN

(5)

Artikel ini dilakukan dengan menggunakan data status pengajuan KPR di salah satu Bank yang ada di Kota Pekanbaru. Tahapan-tahapan dalam artikel ini adalah sebagai berikut:

1. Pengumpulan data yang diperoleh dari salah satu bank yang ada di Kota Pekanbaru.

2. Mentransformasikan data sesuai dengan kebutuhan analisis dengan memilih variabel yang diperlukan untuk analisis.

3. Membagi data menjadi dua bagian yaitu data training sebesar 70% dengan banyaknya data 854 untuk membangun model dan data testing sebesar 30% dengan banyak data 366 untuk mengevaluasi model yang dibangun.

4. Menentukan nilai prior pada setiap kelas data status pengajuan KPR.

5. Menetukan nilai likelihood pada setiap atribut.

6. Menentukan label kelas berdasarkan nilai posterior tertinggi.

7. Membuat confusion matrix untuk melihat nilai akurasi, sensitivitas, dan spesifisias 8. Menarik kesimpulan dan saran.

4. STATUS PENGAJUAN KREDIT KEPEMILIKAN RUMAH DI SALAH SATU BANK KOTA PEKANBARU

Probabilitas dari klasifikasi naïve bayes akan menghasilkan prediksi untuk setiap kelas data status pengajuan KPR (diterima dan ditolak). Prediksi tersebut akan menentukan sesuai atau tidaknya klasifikasi naïve bayes terhadap data. Nilai probabilitas pada setiap kelas diperoleh melalui persamaan (4) sehingga diperoleh hasil yang disajikan pada tabel dibawah.

Tabel 2. Nilai probabilitas status pengajuan KPR Diterima Ditolak

0,561 0,439

Pada Tabel 2 dapat dilihat bahwa nilai probabilitas status pengajuan KPR dengan kelas diterima sebesar 0,561 dan nilai probabilitas status pengajuan KPR dengan kelas ditolak sebesar 0,439. Oleh karena itu, kelas yang diterima memiliki nilai yang lebih tinggi dari pada kelas yang diterima yang artinya status pengajuan KPR di salah satu Kota Pekanbaru 5 tahun terakhir berada pada kelas ditolak.

Kemudian, setelah nilai probabilitas dari setiap kelas telah diketahui, dilanjutkan dengan menghitung probabilitas bersyarat pada setiap variabel independen dengan kelas data kategorik menggunakan persamaan (4) dan kelas data numerik menggunakan persamaan (6). Berikut merupakan hasil nilai probabilitas bersyarat pada setiap variabel independen terhadap variabel dependen.

Tabel 3. Probabilitas Status Pengajuan KPR

Variabel Kategori Probabilitas

Ditolak Diterima

Jenis Nasabah Baru 0,706 0,731

(6)

Pembukuan Rek.Baru 0,229 0,211 Pengkinian Data 0,027 0,023

Status Rumah Tinggal

Milik Keluarga 0,752 0,723 Milik Sendiri 0,016 0,037 Milik Sendiri, Tidak

Dijaminkan 0,027 0,046

Rumah Dinas 0,019 0,023

Sewa/Kontrak 0,186 0,171

Lama Ditempati

1 0,095 0,064

1,2 0,101 0,07

2 0,124 0,102

… … …

17 0,004 0,001

23 0,001 0,002

63 0,002 0,001

Usia

21 0,053 0,001

22 0,064 0,002

23 0,076 0,005

… … …

46 0,021 0,001

47 0,016 0,005

53 0,002 0,003

Pendidikan Terkahir

SD 0,029 0,033

SMP 0,065 0,042

SMA 0,486 0,471

D3/SM 0,088 0,119

S1 0,293 0,293

S2 0,026 0,034

S3 0,013 0,008

Pekerjaan

BUMN/D 0,005 0,002

Dokter 0,008 0,004

Dosen/Guru 0,029 0,028

Ibu Rumah Tangga 0,114 0,115

Karyawan/K 0,008 0,016

Pedagang 0,008 0,016

Pegawai BU 0,04 0,045

Pegawai Swasta 0,248 0,187

Pengusaha 0,011 0,017

(7)

Petani/Nelayan 0,001 0,002

PNS 0,123 0,129

Profesional 0,027 0,045

Swasta Asing 0,013 0,006

TNI/Polri 0,016 0,014

Wiraswasta 0,237 0,238

Lainnya 0,091 0,1

Status Pekerjaan

Kontrak 0,149 0,157

Tetap 0,851 0,843

Penghasilan

1700000 7E-05 7E-05

2500000 0,0002 0,0002

2600000 0,0002 0,0002

… … …

6300000 0,0001 0,0001

6500000 0,0001 0,0001

8500000 5E-05 5E-05

Sumber dana

Gaji 0,851 0,818

Hasil Usaha 0,149 0,182

Berikut persamaan dari klasifikasi naïve bayes dengan asumsi semua variabel independen tidak saling terkait atau saling bebas satu dengan yang lain:

 Nilai probabilitas prior yaitu peluang pada setiap kelas dalam data yang disajikan pada tabel 4.1. sehingga probabilitas prior yang dihasilkan adalah:

( ) ( )

 Nilai probabilitas likelihood (nilai probabilitas bersyarat) pada setiap atribut terhadap kelas yang terdapat pada Tabel 4.2. sampai dengan Tabel 4.10. Sebagai salah satu contoh, berikut adalah nilai probabilitas likelihood untuk atribut sumber dana:

( ) ( ) ( ) ( )

Nilai probabilitas pada setiap kelas dan nilai probabilitas bersyarat setiap atribut

(8)

Posterior. Contohnya, jenis nasabah = nasabah baru, status rumah tinggal = milik keluarga, jenis kelamin = laki – laki, status perkawinan = janda/duda, pendidikan terakhir = SD, pekerjaan = BUMN/D, status pekerjaan = kontrak, sumber dana = gaji.

Berdasarkan persamaan (2.4) diperoleh nilai probabilitas Posterior sebagai berikut:

( ) ( )( )( ) ( )

Berdasarkan nilai perhitungan nilai Posterior tertinggi berada pada kelas ditolak, oleh karena itu berdasarkan contoh yang menyatakan status pengajuan KPR berada pada kelas ditolak terklasifikasi benar oleh klasifikasi naïve bayes. Kemudian, dilakukan klasifikasi dengan membangun model menggunakan data training dengan persentase 70% dari banyaknya data.

Kemudian, model dievaluasi menggunakan data testing dengan presentase 30%

dari banyaknya data. Berikut tabel yang menyajikan banyaknya data testing dan data training.

Tabel 4. Jumlah data testing dan data training menggunakan klasifikasi naïve bayes Data testing Data training

366 854

Berdasarkan Tabel 4. dapat dilihat bahwa banyaknya data testing yaitu 366 dan banyaknya data training yaitu 854. Hasil evaluasi dari data testing klasifikasi naïve bayes dilihat dari confusion matrix melalui nilai akurasi, sensitivitas, dan spesifisitas.

Berikut merupakan tabel confusion matrix dari metode klasifikasi naïve bayes menggunakan software R studio.

Tabel 5. Confusion matrix menggunakan data testing klasifikasi naïve bayes Status

Pengajuan KPR

Ditolak Diterima

Ditolak 26 45

Diterima 134 160

(9)

Pada Tabel 5. dapat dilihat bahwa data status pengajuan KPR yang ditolak dan diprediksi benar ditolak sebanyak 26 data. Data status pengajuan KPR yang diterima tapi diprediksi ditolak sebanyak 45. Kemudian, data status pengajuan KPR yang ditolak tapi diprediksi diterima sebanyak 134. Data status pengajuan KPR yang diterima dan diprediksi benar diterima sebanyak 160. Oleh karena itu, didapat nilai akurasi, sensitivitas, dan spesifisitas menggunakan persamaan (7), persamaan (8), dan persamaan (9). Berikut tabel yang menyajikan nilai akurasi, sensitivitas, dan spesifisitas.

Tabel 6. Hasil evaluasi klasifikasi naïve bayes menggunakan data testing Akurasi Sensitivitas Spesifisitas

50,96% 78,05% 16,25%

Pada Tabel 6. dapat dilihat bahwa nilai akurasi yang diperoleh dari klasifikasi naïve bayes tersebut sebesar 50,96%, nilai sensitivitas 78,05%, dan nilai spesifisitas 16,25%

dengan menggunakan data testing sebanyak 366 data.

5. KESIMPULAN

Berdasarkan hasil Hasil dari klasifikasi naïve bayes dalam mengklasifikasikan status penganjuan KPR di salah satu yang ada di Kota Pekanbaru tahun 2022 menjadi kelas ditolak dan diterima dengan pembagian data training 70% dari banyaknya data dan testing 30% dari banyaknya data, sehingga diperoleh presentasi akurasi sebesar 50,96%, sensitivitas sebesar 78,05%, dan spesifisitas sebesar 16,25%.

DAFTAR PUSTAKA

Bramer, M. (2016). Principle of data mining (3rd ed.). Hampshire: Springer.

Eweoya, I. O., Adebiyi, A. A., Azeta, A. A., Chidozie, F., Agono, F. O., & Guembe, B.

(2019). A naive bayes approach to fraud prediction in loan default. Journal of Physics: Conference Series, 1299(1).

Han, J., Kamber, M., & Pei, J. (2012). Data mining: Data mining concepts and techniques (3rd ed.). Waltham: Morgan Kaufmann.

Kasmir. (2003). Dasar - dasar perbankan (1st ed.). Jakarta: PT RajaGrafindo Persada.

Larner, A. J. (2021). The 2x2 matrix: contingency, confusion, and the metrics of binary classification. Liverpool: Springer.

Rivai, V., & Veithzal, A. (2007). Credit management hanbook: Teori, konsep, prosedur, dan aplikasi panduan praktis mahasiswa, bankir, dan nasabah (2nd ed.). Jakarta: PT.

RajaGrafindo Persada.

Pattekari, S. A., & Parveen, A. (2012). Prediction system for heart disease using naive bayes. International Journal of Advanced Computer and Mathematical Sciences, 3(3), 290–294.

(10)