MODEL DATA MINING UNTUK PREDIKSI DATA KONSUMEN FINANSIA MULTI FINANCE (FMF) PRABUMULIH DENGAN METODE NAIVE BAYES CLASSIFIER

(1)

MODEL DATA MINING UNTUK PREDIKSI DATA KONSUMEN FINANSIA MULTI FINANCE (FMF) PRABUMULIH DENGAN METODE NAIVE BAYES

CLASSIFIER

Jojo Meysandes1,A.Haidar Mirza,S.T.,M.Kom.2,Ari Muzakir,M.Cs3

Email:[email protected]_{,[email protected]}2_{,[email protected]}

3

Universitas Bina Darma Palembang Jl. A Yani No. 12 Plaju, Palembang 30624

ABSTRACK: PT. Finansia Multi Finance (FMF) Branch Prabumulih, is one of 311

branches of PT. FMF based in Jakarta is engaged in lending. PT consumer history. FMF can be utilized to habitual patterns of consumer behavior. Unfortunately, the consumer data has not been used to recognize the pattern (pattern) that can be used to predict new potential customers, for decision whether the application of new consumer credit or older consumers who are ready to take the credit is approved or not, a survey conducted by the staff of PT. FMF to the residence of the consumer to assess whether consumers are more credit worthy to see evidence of a paycheck if the consumer is the employee / employee, or see passbook if consumers are self-employed. There are no performance history data utilization consumers for credit granting decision-making process by utilizing a computer owned by the company. The purpose of this research is to create data mining models for the prediction of consumer data PT. FMF Branch Prabumulih with Naive Bayes classifier method.

Keyboar: Data Mining, Naive Bayes classifier, Consumer Data, PT. Finansia Multi Finance, FMF, Prabumulih

ABSTRAK: PT. Finansia Multi Finance (FMF) Cabang Prabumulih, merupakan satu dari 311 cabang PT. FMF yang berpusat di Jakarta yang bergerak dalam bidang perkreditan. Riwayat konsumen PT. FMF dapat dimanfaatkan untuk pola kebiasaan perilaku konsumen tersebut. Sayangnya data konsumen tersebut belum dimanfaatkan untuk mengenali pola (pattern) yang dapat dimanfaatkan untuk memprediksi calon konsumen yang baru,Untuk pengambilan keputusan apakah permohonan kredit konsumen baru atau konsumen lama yang sudah pernah mendapatkan kredit disetujui atau tidak, dilakukan survei oleh staf PT. FMF ke tempat tinggal konsumen untuk dinilai apakah konsumen tersebut layak mendapatkan kredit dengan melihat bukti slip gaji jika konsumen adalah pegawai/karyawan, atau melihat buku tabungan jika konsumen tersebut wiraswasta. Belum ada pemanfaatan data riwayat performance konsumen untuk proses pengambilan keputusan pemberian kredit dengan memanfaatkan komputer yang dimiliki perusahaan. Tujuan dari penelitian ini adalah membuat model data mining untuk prediksi data konsumen PT. FMF Cabang Prabumulih dengan metode Naive Bayes Classifier.

Kata Kunci: Data Mining, Naive Bayes Classifier, Data Konsumen, PT.

(2)

PENDAHULUAN 1. Latar Belakang

Perkembangan dunia teknologi

informasi dan komunikasi (TIK) yang sangat pesat telah menyebabkan banyak orang dapat memperoleh data dengan mudah dan cepat. Data tersebut semakin

lama semakin banyak, akibatnya

pemanfaatan data yang ada tidak

maksimal. Kemampuan teknologi untuk

menyimpan data, mengolah data,

mengekstrak data, menganalis data, dan

meringkas data untuk menghasilkan

sebuah informasi yang menunjang

kegiatan pemilihan keputusan dirasa masih kurang. Dengan adanya masalah ini maka diterapkan teknik dan ilmu baru dalam mengolah data menjadi informasi, salah satunya yaitu teknik Data Mining untuk mengatasi masalah penggalian informasi atau pola yang penting atau menarik dari data dalam jumlah besar. Data Mining dapat memberikan pengetahuan yang sebelumnya tersembunyi di dalam gudang data sehingga menjadi informasi yang berharga.

Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan di atas, maka perumusan masalahnya adalah: “bagaimana mengolah data pengajuan kredit pada PT. FMF untuk proses data mining guna memprediksi data pengajuan konsumen PT. FMF dengan

menggunakan metode Naive Bayes

Classifier?”

Batasan Masalah

Dalam penelitian ini penulis membatasi permasalahan agar tetap terarah dan tidak

menyimpang dari apa yang sudah

direncanakan sebelumnya. Adapun batasan masalah dalam penelitian ini ialah.

1. Data yang digunakan sebagai

bahan pertimbangan untuk

pengolahan data mining dengan algoritma Naïve Bayes adalah Pengajuan Kredit untuk Tahun 2013 yang telah berjalan.

2. Software yang di gunakan untuk menjalankan proses pengolahan data Mining dengan menggunakan Algoritma Naïve Bayes adalah Weka versi 3.8.

2. ANALISIS DATA Analisis Data

Analisis data merupakan proses

menganalisis sumber data (data source)

sehingga menjadi data yang siap

digunakan dalam proses data mining nantinya. Analisis data mengikuti tahapan dalam Knowledge Discovery in Database

(KDD), yaitu data cleaning, data

integration, data selection, transformation

dan data mining. Jika data source yang digunakan telah melalui proses data

cleaning, data integration, data selection dan transformation, maka data tersebut

siap diolah dengan proses data mining.

Data source yang digunakan adalah data

PT. Finansia Multi Finance (FMF). Data Cleaning

Data cleaning (atau data

cleansing) merupakan proses

membersihkan data

yang bersifat sebagai berikut.

1. Tidak lengkap (incomplete), yaitu data yang tidak memiliki nilai

atribut, kekurangan atribut

kepentingan tertentu, atau hanya mengandung data agregat. Cara menangani data yang tidak lengkap yaitu dengan mengabaikan tuple biasanya dilakukan ketika label

kelas yang hilang (ketika

melakukan klasifikasi) tidak efektif ketika % dari nilai yang hilang per atribut bervariasi, mengisi nilai yang hilang secara manual, dan mengisi secara otomatis dengan cara rata-rata atribut, rata-rata

(3)

termasuk dalam kelas yang sama atau nilai yang paling mungkin.

2. Noise data (gangguan), yaitu

kesalahan acak atau varian dalam variabel yang diukur. Nilai atribut salah mungkin karena :

a. Instrumen pengumpulan data yang salah

b. Masalah entri data c. Masalah transmisi data d. Keterbatasan teknologi

e. Tidak konsisten dalam konvensi penamaan

Adapun cara mengatasi noise data yaitu dengan menggunakan binning. Binning dimulai dengan mengurutkan data dan partisi ke

dalam (frekuensi-sama) suatu

tempat, selanjutnya dapat

dihaluskan dengan cara

menghitung rata-rata, menghitung median, dengan batas-batas

3. Inconsistent (tidak konsisten), yaitu berisi data yang mengandung nilai yang tidak konsisten.

Pada preses data cleaning

menggunkan software Mysql agar

mempermudah dalam melakukan proses membuat data set yang siap untuk di olah menggunakan Weka versi 3.8.

Adapun jumlah data awal yang berhasil di export ke dalam Mysql sebanyak 1025 record, dapat di lihat pada Gambar berikut:

Gambar 3.1. Jumlah Data Awal

Untuk melaksanakan proses data cleaning terlebih dahulu melihat kondisi dari masing – masing atribut apakah ada record

yang kosong dalam atribut tersebut, pada proses ini didapat atribut Bermasalah ada sebanyak 363 record yang tidak memiliki isi / data sehingga untuk record ini akan di hilangkan / di hapus / tidak digunakan dalam proses pembuatan data set yang akan di gunakan dalam proses data mining dengan menggunakan Weka versi 3.8.

Gambar 3.2. Data Kosong Pada Atribut Bermasalah

Data Integration

Data integration merupakan proses

menggabungkan data dari berbagai data

source, sehingga data tersebut saling

berintegrasi. Data integration dilakukan

pada attribut-attribut yang

mengidentifikasikan entitas-entitas yang unik. Data integration perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan data yang menyimpang pada saat pengambilan aksi nantinya. Pada Proses ini data yang di dapat dari PT. FMF merupakan data sudah terintegrasi dalam hal ini sudah berada dalam 1 tabel Database sehingga tidak perlu di lakukan integrasi dengan tabel – tabel yang lain

Data Selection

Data selection adalah proses menseleksi atau memilih atribut yang akan digunakan dalam proses data mining, karena tidak semua atribut pada sumber data yang telah melewati proses data

integration dapat digunakan seluruhnya.

Pada proses data selection, yaitu memilih atribut apa saja yang relevan dan sesuai untuk proses data mining. Sehingga, hasil dari data selection tersebut menjadi data

(4)

menjadi atribut yang relevan dan mendukung dalam proses data mining.

Data Transformation

Data transformation merupakan

proses mengubah data atau transformasi data awal menjadi data dengan bentuk atau format yang sesuai untuk proses data mining.

Pada tapa Data Transformation dilakukan langkah – langkah untuk klasifikasi pada masing – masing atribut. Adapun hasil setelah dilakukan klasifikasi sebagai berikut :

Gambar 2.33. Hasil Klasifikasi Atribut Pada Mysql

Kemudian data tersebut yang ada pada Gambar diatas diexport ke dalam

bentuk CSV guna dipakai untuk

pengolahan data mining menggunakan Weka versi 3.8 seperti Gambar berikut :

Gambar 2.34. Format Data Set CSV Untuk Proses Data Mining

Weka Versi 3.8.

3. HASIL DAN PEMBAHASAN Hasil

Untuk tabulasi manual proses Distribusi Frekuensi pada masing – masing atribut dapat dilakukan dengan melakukan perintah query pada mysql contoh sebagai berikut untuk mencari jumlah distribusi frekuensi data dengan Atribut Statu

KAWIN dan Atribut Bermasalah adalah BERMASALAH (query : SELECT count( `Status` ) FROM `table 1` WHERE `Status` like 'KAWIN' and `Bermasalah` like 'BERMASALAH')

Gambar 4.9. Hasil Query untuk Atribut Status KAWIN dan Atribut Bermasalah

adalah BERMASALAH

Berdasarkan Persamaan dari teorema Bayes adalah:

𝑃(𝐻|𝑋) =𝑃(𝐻|𝑋 ). 𝑃(𝐻)

𝑃(𝑋) Dimana:

X : Data dengan kelas yang belum diketahui

H : Hipotesis data X merupakan suatu kelas spesifik

P(H|X): Probabilitas hipotesis H berdasar kondisi X (posterior probability)

P(H) : Probabilitas hipotesis H (prior

probability)

P(X|H): Probabilitas X berdasarkan

kondisi pada hipotesis H P(X) : Probabilitas X Diketahui : X1 = Status X2 = Tanggungan X3 = Rumah Sendiri X4 = Pekerjaan X5 = Penghasilan X6 = Pengeluaran X7 = Sisa X8 = Kredit X9 = Lama Kredit X10 = Angsuran Y = Bermasalah Fakta Menunjukkan : P ( Y = Bermasalah) = 88 / 662 = 0.13 P ( Y = TIDAK BERMASALAH) = 576 / 662 = 0.87

(5)

Pembahasan Dan Pengujian Hasil

Untuk mendapatkan hasil

pengolahan metode klasifikasi Naive

Bayes Classifier dengan WEKA 3.80, file

data konsumen dalam format Excel

(.XLSX extension) harus dikonversi

dahulu menjadi file berformat .CSV (Comma Separated Value). Hal ini dapat dilakukan dengan membuka file data konsumen dalam format .XLSX tersebut dengan Excel dan menyimpannya melalui menu File, Save As, pilih format .CSV. Snapshot tampilan file data konsumen dalam format .CSV disajikan di bawah ini:

Gambar 4.1. Data Set Siap Olah Dengan Weka 3.8

Langkah selanjutnya WEKA 3.80

dijalankan dengan tampilan awal sebagai berikut:

Gambar 4.2. Software Weka Versi 3.8 Dengan memilih menu Explorer, WEKA menampilkan tampilan sebagai berikut:

Gambar 4.3. Tampilan Weka Explore Untuk Proses Data Mining

Pilih menu Open file... untuk membuka file data konsumen dalam format .CSV pada folder yang telah ditentukan:

Gambar 4.4. Open File Weka Untuk Proses Data Mining

Hasil membuka file data konsumen dalam format .CSV disajikan di bawah ini:

Gambar 4.5. Tampilan Setelah Open File Pada Weka Versi 3.8.

Pada tahap ini untuk atribut Nama dan Disetujui tidak ikut dipakai dalam

pengolahan hanya Atribut Statu,

Tanggungan, Rumah Sendiri, Penghasilan, Pengeluaran, Sisa, Kredit, Lama_Kredit, Angsuran dan Bermasalah

Untuk mengolah data set yang telah siap dengan metode Naive Bayes

Classifier dengan WEKA, pilih Tab

Classify, tekan tombol Choose, pilih Bayes, NaiveBayes seperti tampilan di bawah ini:

(6)

Gambar 4.6. Memilih Metode Pengolahan Data Mining Menggunakan

Naïve Bayes Classifier

Tentukan kolom yang dianalisis adalah

kolom Bermasalah dengan tampilan

sebagai berikut:

Gambar 4.7. Tampilan Pemilihan Naïve Bayes Classifier Pada Weka

Tekan tombol Start agar WEKA

memproses data dengan metode Naive

Bayes Classifier dengan tampilan hasil

sebagai berikut:

Gambar 4.8. Tampilan Hasil Pengolahan Naïve Bayes Classifier pada

Weka Pengujian Hasil

Untuk melihat apakah nilai

probabilitas yang di hasilkan dapat dipakai untuk menguji suatu kondisi menggunakan persamaan teorema bayes maka perlu

dilakukan percobaan dengan melakukan perhitungan secara manual

Jika diketahui suatu kondisi

P(X7| Sisa) = BAIK

P(X8 | Kredit) = SEDANG

P(X9 | Lama Kredit) = 24 BULAN P(X10 | Angsuran) = SEDANG P(Y | Bermasalah) = ….? P(Y | Tidak Bermasalah) = …? P(Y | Tidak Bermasalah) = (532/576) * (17/576) * (24/576) * (358/576) * (20/576) * (182/576) * (76/576) * (85/576) * (112/576) * (68/576) * (576/662) = 3,012E-09 P(Y | Bermasalah) = (77/88) * (7/88) * (7/88) * (56/88) * (7/88) * (25/88) * (11/88) * (22/88) * (22/88) * (12/88) * (88/662) = 1.12754E-08 Resume :

Dengan kondisi di atas yaitu apabila atribut Status bernilai KAWIIN, atribut Tanggungan bernilai BANYAK,

atribut Rumah bernilai SENDIRI,

Pekerjaan bernilai WIRAUSAHA, atribut Penghasilan bernilai CUKUP TINGGI, atribut Pengeluaran bernilai TINGGI, atribut Sisa bernilai BAIK, atribut Kredit bernilai SEDANG, atribut Lama Kredit bernilai 24 BULAN, atribut Angsuran bernilai SEDANG maka dapat di prediksi kondisi calon yang mengajukan kredit Tidak akan bermasalah hal ini dikarenakan

berdadarkan perhitungan dengan

menggunakan naïve bayes nilai P(Y |

Tidak Bermasalah > nilai P(Y |

Bermasalah) Skenario 2 :

(7)

P(X9 | Lama Kredit) = 18 BULAN P(X10 | Angsuran) = BESAR P(Y | Bermasalah) = ….? P(Y | Tidak Bermasalah) = …? P(Y | Tidak Bermasalah) = (532/576) * (17/576) * (31/576) * (121/576) * (418/576) * (182/576) * (449/576) * (178/576) * (91/576) * (6/576) * (576/662) = 2.70899E-08 P(Y | Bermasalah) = (77/88) * (7/88) * (5/88) * (15/88) * (59/88) * (25/88) * (76/88) * (20/88) * (15/88) * (2/88) * (88/662) = 7.78675E-08 Resume :

Dengan kondisi di atas apa bila atribut Status bernilai KAWIIN, atribut Tanggungan bernilai BANYAK, atribut Rumah bernilai SEWA, atribut Pekerjaan bernilai PETANI, atribut Penghasilan berniali RENDAH, atribut Pengeluaran) bernilai TINGGI, atribut Sisa bernilai TIDAK BAIK, bernilai Kredit bernilai BESAR, atribut Lama Kredit bernilai 18

BULAN, atribut Angsuran bernilai

BESAR maka dapat di prediksi calon yang mengajukan kredit akan Bermasalah hal ini di karenakan nilai P(Y | Tidak Bermasalah < nilai P(Y | Bermasalah)

sehinggan kondisi diatas dapat di

kategorikan Bermasalah.

4. KESIMPULAN DAN SARAN Kesimpulan

Penelitian mengenai prediksi calon

konsumen pada PT. FMF cabang

Prabumulih dengan menggunakan proses data mining dengan metode Naïve Bayes

Classifier menghasilkan kesimpulan sebagai berikut :

1. Hasil data set yang di gunakan berdasarkan data yang di peroleh dari PT. FMF yang telah melalui proses data selection sebanyak 662 record

2. Adapun nilai probabilitas untuk class bermasalah dengan nilai 0.87 dan nilai probabilitas untuk class tidak bermasalah dengan nilai 0.13

dimana nilai ini dapat di

pergunakan untuk memprediksi

calon konsumen dengan

menghitung nilai probabilitas pada masing – masing atribut.

Adapun atribut yang di pergunakan untuk proses data mining antaralain atribut status, tanggungan,rumah, penghasilan, pengeluaran, sisa, kredit, lama kredit, angsuran dan atribut bermasalah di gunakan sebagai class untuk proses

pengolahan data mining untuk

memprediksi data konsumen. Saran

Berdasarkan hasil dan kesimpulan yang telah diuraikan diatas, maka ada beberapa saran yang ingin disampaikan yaitu:

1. Pada penelitian berikutnya disarankan untuk menggunakan jumlah data yang lebih besar agar di hasilkan suatu prediksi dengan nilai yang lebih baik. 2. Pada penelitian ini disarankan kepada

mahasiswa yang lain untuk melakukan uji coba dengan data yang sama dari

perusahaan yang berbeda untuk

melihat dari hasil pengujian

Algoritman Naive Bayes

3. Pada penelitian ini dapat menjadi referensi untuk proses pengolahan data menggunakan metode Naive Bayes Classifier.

(8)

DAFTAR PUSTAKA

Berry. M.J.A. dan Linoff G.S. (2004). Data Mining Techinique for Marketing. sales. Customer Relationship Management . Second Edition. Wiley Publishing. Inc. Fayyad. U. M. (1996). Advances in Knowledge Discovery and Data Mining. Cambridge.

MA: The MIT Press.

Hamzah. A. (2012). Klasifikasi Teks dengan Naïve Bayes Classifier (NBC) untuk Pengelompokan Teks Berita dan Abstract Akademis. In Prosiding Seminar Nasional Apikasi Sains & Teknologi (SNAST) Periode III. p. B269-B277. Yogyakarta.

Jiawei, Han.. (2001). Data Mining: Concept and Techniques. Morgan Kaufmann Publisher Larose D. T.. (2006). Data Mining Methods and Models . Jhon Wiley & Sons. Inc. Hoboken

New Jersey

Ponniah. Paulraj. (2001). Data Warehousing Fundamentals : A Comprehensive Guide for IT Profesionals

Pramudiono. I. (2006). Apa itu Data Mining? Dalam http://datamining.japati.net/cgi -bin/indodm.cgi. Diakses tanggal 26 Mei 2016.

Presiden Republik Indonesia. (1999). Undang-Undang Republik Indonesia No.8 Tahun 1999 tentang Perlindungan Kosumen.

Ridwan. M.. Suyono. H.. & Sarosa. M. (2013). Penerapan Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Jurnal EECCIS. 7(1). 59-64.

Simarmata. Dj.A.. (1983). Operations Research Sebuah Pengantar teknik - teknik Optimasi dari Sistem Operasional . Jakarta : PT Gramedia

Sugiono. (2005). Metode Penelitian Bisnis. Penerbit Alfabeta. Bandung.

Turban. E.. Aronson. J. E. dan Liang. T. (2005). Decision Support Sistems and Intelliget Sistems (Sistem Pendukung Keputusan dan Sistem Cerdas). Edisi Ketujuh. Andi. Yogyakarta.

Turban. Efraim & Linda Volonino. (2010). Information Technology for Management. Edisi Ketujuh. Asia : John Willey & Sons.

Xhemali. D.. Hinde. C.J. & Stone. R.G. (2009). Naive Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages. International Journal of Computer Science Issues 4 (1): 16 -23. ( Online ) http://ijcsi.org/papers/4 -1-16-23.pdf (16 Mei 2013)