MODEL DATA MINING UNTUK PREDIKSI DATA KONSUMEN FINANSIA MULTI FINANCE (FMF) PRABUMULIH DENGAN METODE NAIVE BAYES
CLASSIFIER
Jojo Meysandes1,A.Haidar Mirza,S.T.,M.Kom.2,Ari Muzakir,M.Cs3
Email:[email protected],[email protected]2,[email protected]
3
Universitas Bina Darma Palembang Jl. A Yani No. 12 Plaju, Palembang 30624
ABSTRACK: PT. Finansia Multi Finance (FMF) Branch Prabumulih, is one of 311
branches of PT. FMF based in Jakarta is engaged in lending. PT consumer history. FMF can be utilized to habitual patterns of consumer behavior. Unfortunately, the consumer data has not been used to recognize the pattern (pattern) that can be used to predict new potential customers, for decision whether the application of new consumer credit or older consumers who are ready to take the credit is approved or not, a survey conducted by the staff of PT. FMF to the residence of the consumer to assess whether consumers are more credit worthy to see evidence of a paycheck if the consumer is the employee / employee, or see passbook if consumers are self-employed. There are no performance history data utilization consumers for credit granting decision-making process by utilizing a computer owned by the company. The purpose of this research is to create data mining models for the prediction of consumer data PT. FMF Branch Prabumulih with Naive Bayes classifier method.
Keyboar: Data Mining, Naive Bayes classifier, Consumer Data, PT. Finansia Multi Finance, FMF, Prabumulih
ABSTRAK: PT. Finansia Multi Finance (FMF) Cabang Prabumulih, merupakan satu dari 311 cabang PT. FMF yang berpusat di Jakarta yang bergerak dalam bidang perkreditan. Riwayat konsumen PT. FMF dapat dimanfaatkan untuk pola kebiasaan perilaku konsumen tersebut. Sayangnya data konsumen tersebut belum dimanfaatkan untuk mengenali pola (pattern) yang dapat dimanfaatkan untuk memprediksi calon konsumen yang baru,Untuk pengambilan keputusan apakah permohonan kredit konsumen baru atau konsumen lama yang sudah pernah mendapatkan kredit disetujui atau tidak, dilakukan survei oleh staf PT. FMF ke tempat tinggal konsumen untuk dinilai apakah konsumen tersebut layak mendapatkan kredit dengan melihat bukti slip gaji jika konsumen adalah pegawai/karyawan, atau melihat buku tabungan jika konsumen tersebut wiraswasta. Belum ada pemanfaatan data riwayat performance konsumen untuk proses pengambilan keputusan pemberian kredit dengan memanfaatkan komputer yang dimiliki perusahaan. Tujuan dari penelitian ini adalah membuat model data mining untuk prediksi data konsumen PT. FMF Cabang Prabumulih dengan metode Naive Bayes Classifier.
Kata Kunci: Data Mining, Naive Bayes Classifier, Data Konsumen, PT.
PENDAHULUAN 1. Latar Belakang
Perkembangan dunia teknologi
informasi dan komunikasi (TIK) yang sangat pesat telah menyebabkan banyak orang dapat memperoleh data dengan mudah dan cepat. Data tersebut semakin
lama semakin banyak, akibatnya
pemanfaatan data yang ada tidak
maksimal. Kemampuan teknologi untuk
menyimpan data, mengolah data,
mengekstrak data, menganalis data, dan
meringkas data untuk menghasilkan
sebuah informasi yang menunjang
kegiatan pemilihan keputusan dirasa masih kurang. Dengan adanya masalah ini maka diterapkan teknik dan ilmu baru dalam mengolah data menjadi informasi, salah satunya yaitu teknik Data Mining untuk mengatasi masalah penggalian informasi atau pola yang penting atau menarik dari data dalam jumlah besar. Data Mining dapat memberikan pengetahuan yang sebelumnya tersembunyi di dalam gudang data sehingga menjadi informasi yang berharga.
Rumusan Masalah
Berdasarkan latar belakang yang telah diuraikan di atas, maka perumusan masalahnya adalah: “bagaimana mengolah data pengajuan kredit pada PT. FMF untuk proses data mining guna memprediksi data pengajuan konsumen PT. FMF dengan
menggunakan metode Naive Bayes
Classifier?”
Batasan Masalah
Dalam penelitian ini penulis membatasi permasalahan agar tetap terarah dan tidak
menyimpang dari apa yang sudah
direncanakan sebelumnya. Adapun batasan masalah dalam penelitian ini ialah.
1. Data yang digunakan sebagai
bahan pertimbangan untuk
pengolahan data mining dengan algoritma Naïve Bayes adalah Pengajuan Kredit untuk Tahun 2013 yang telah berjalan.
2. Software yang di gunakan untuk menjalankan proses pengolahan data Mining dengan menggunakan Algoritma Naïve Bayes adalah Weka versi 3.8.
2. ANALISIS DATA Analisis Data
Analisis data merupakan proses
menganalisis sumber data (data source)
sehingga menjadi data yang siap
digunakan dalam proses data mining nantinya. Analisis data mengikuti tahapan dalam Knowledge Discovery in Database
(KDD), yaitu data cleaning, data
integration, data selection, transformation
dan data mining. Jika data source yang digunakan telah melalui proses data
cleaning, data integration, data selection dan transformation, maka data tersebut
siap diolah dengan proses data mining.
Data source yang digunakan adalah data
PT. Finansia Multi Finance (FMF). Data Cleaning
Data cleaning (atau data
cleansing) merupakan proses
membersihkan data
yang bersifat sebagai berikut.
1. Tidak lengkap (incomplete), yaitu data yang tidak memiliki nilai
atribut, kekurangan atribut
kepentingan tertentu, atau hanya mengandung data agregat. Cara menangani data yang tidak lengkap yaitu dengan mengabaikan tuple biasanya dilakukan ketika label
kelas yang hilang (ketika
melakukan klasifikasi) tidak efektif ketika % dari nilai yang hilang per atribut bervariasi, mengisi nilai yang hilang secara manual, dan mengisi secara otomatis dengan cara rata-rata atribut, rata-rata
termasuk dalam kelas yang sama atau nilai yang paling mungkin.
2. Noise data (gangguan), yaitu
kesalahan acak atau varian dalam variabel yang diukur. Nilai atribut salah mungkin karena :
a. Instrumen pengumpulan data yang salah
b. Masalah entri data c. Masalah transmisi data d. Keterbatasan teknologi
e. Tidak konsisten dalam konvensi penamaan
Adapun cara mengatasi noise data yaitu dengan menggunakan binning. Binning dimulai dengan mengurutkan data dan partisi ke
dalam (frekuensi-sama) suatu
tempat, selanjutnya dapat
dihaluskan dengan cara
menghitung rata-rata, menghitung median, dengan batas-batas
3. Inconsistent (tidak konsisten), yaitu berisi data yang mengandung nilai yang tidak konsisten.
Pada preses data cleaning
menggunkan software Mysql agar
mempermudah dalam melakukan proses membuat data set yang siap untuk di olah menggunakan Weka versi 3.8.
Adapun jumlah data awal yang berhasil di export ke dalam Mysql sebanyak 1025 record, dapat di lihat pada Gambar berikut:
Gambar 3.1. Jumlah Data Awal
Untuk melaksanakan proses data cleaning terlebih dahulu melihat kondisi dari masing – masing atribut apakah ada record
yang kosong dalam atribut tersebut, pada proses ini didapat atribut Bermasalah ada sebanyak 363 record yang tidak memiliki isi / data sehingga untuk record ini akan di hilangkan / di hapus / tidak digunakan dalam proses pembuatan data set yang akan di gunakan dalam proses data mining dengan menggunakan Weka versi 3.8.
Gambar 3.2. Data Kosong Pada Atribut Bermasalah
Data Integration
Data integration merupakan proses
menggabungkan data dari berbagai data
source, sehingga data tersebut saling
berintegrasi. Data integration dilakukan
pada attribut-attribut yang
mengidentifikasikan entitas-entitas yang unik. Data integration perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan data yang menyimpang pada saat pengambilan aksi nantinya. Pada Proses ini data yang di dapat dari PT. FMF merupakan data sudah terintegrasi dalam hal ini sudah berada dalam 1 tabel Database sehingga tidak perlu di lakukan integrasi dengan tabel – tabel yang lain
Data Selection
Data selection adalah proses menseleksi atau memilih atribut yang akan digunakan dalam proses data mining, karena tidak semua atribut pada sumber data yang telah melewati proses data
integration dapat digunakan seluruhnya.
Pada proses data selection, yaitu memilih atribut apa saja yang relevan dan sesuai untuk proses data mining. Sehingga, hasil dari data selection tersebut menjadi data
menjadi atribut yang relevan dan mendukung dalam proses data mining.
Data Transformation
Data transformation merupakan
proses mengubah data atau transformasi data awal menjadi data dengan bentuk atau format yang sesuai untuk proses data mining.
Pada tapa Data Transformation dilakukan langkah – langkah untuk klasifikasi pada masing – masing atribut. Adapun hasil setelah dilakukan klasifikasi sebagai berikut :
Gambar 2.33. Hasil Klasifikasi Atribut Pada Mysql
Kemudian data tersebut yang ada pada Gambar diatas diexport ke dalam
bentuk CSV guna dipakai untuk
pengolahan data mining menggunakan Weka versi 3.8 seperti Gambar berikut :
Gambar 2.34. Format Data Set CSV Untuk Proses Data Mining
Weka Versi 3.8.
3. HASIL DAN PEMBAHASAN Hasil
Untuk tabulasi manual proses Distribusi Frekuensi pada masing – masing atribut dapat dilakukan dengan melakukan perintah query pada mysql contoh sebagai berikut untuk mencari jumlah distribusi frekuensi data dengan Atribut Statu
KAWIN dan Atribut Bermasalah adalah BERMASALAH (query : SELECT count( `Status` ) FROM `table 1` WHERE `Status` like 'KAWIN' and `Bermasalah` like 'BERMASALAH')
Gambar 4.9. Hasil Query untuk Atribut Status KAWIN dan Atribut Bermasalah
adalah BERMASALAH
Berdasarkan Persamaan dari teorema Bayes adalah:
𝑃(𝐻|𝑋) =𝑃(𝐻|𝑋 ). 𝑃(𝐻)
𝑃(𝑋) Dimana:
X : Data dengan kelas yang belum diketahui
H : Hipotesis data X merupakan suatu kelas spesifik
P(H|X): Probabilitas hipotesis H berdasar kondisi X (posterior probability)
P(H) : Probabilitas hipotesis H (prior
probability)
P(X|H): Probabilitas X berdasarkan
kondisi pada hipotesis H P(X) : Probabilitas X Diketahui : X1 = Status X2 = Tanggungan X3 = Rumah Sendiri X4 = Pekerjaan X5 = Penghasilan X6 = Pengeluaran X7 = Sisa X8 = Kredit X9 = Lama Kredit X10 = Angsuran Y = Bermasalah Fakta Menunjukkan : P ( Y = Bermasalah) = 88 / 662 = 0.13 P ( Y = TIDAK BERMASALAH) = 576 / 662 = 0.87
Pembahasan Dan Pengujian Hasil
Untuk mendapatkan hasil
pengolahan metode klasifikasi Naive
Bayes Classifier dengan WEKA 3.80, file
data konsumen dalam format Excel
(.XLSX extension) harus dikonversi
dahulu menjadi file berformat .CSV (Comma Separated Value). Hal ini dapat dilakukan dengan membuka file data konsumen dalam format .XLSX tersebut dengan Excel dan menyimpannya melalui menu File, Save As, pilih format .CSV. Snapshot tampilan file data konsumen dalam format .CSV disajikan di bawah ini:
Gambar 4.1. Data Set Siap Olah Dengan Weka 3.8
Langkah selanjutnya WEKA 3.80
dijalankan dengan tampilan awal sebagai berikut:
Gambar 4.2. Software Weka Versi 3.8 Dengan memilih menu Explorer, WEKA menampilkan tampilan sebagai berikut:
Gambar 4.3. Tampilan Weka Explore Untuk Proses Data Mining
Pilih menu Open file... untuk membuka file data konsumen dalam format .CSV pada folder yang telah ditentukan:
Gambar 4.4. Open File Weka Untuk Proses Data Mining
Hasil membuka file data konsumen dalam format .CSV disajikan di bawah ini:
Gambar 4.5. Tampilan Setelah Open File Pada Weka Versi 3.8.
Pada tahap ini untuk atribut Nama dan Disetujui tidak ikut dipakai dalam
pengolahan hanya Atribut Statu,
Tanggungan, Rumah Sendiri, Penghasilan, Pengeluaran, Sisa, Kredit, Lama_Kredit, Angsuran dan Bermasalah
Untuk mengolah data set yang telah siap dengan metode Naive Bayes
Classifier dengan WEKA, pilih Tab
Classify, tekan tombol Choose, pilih Bayes, NaiveBayes seperti tampilan di bawah ini:
Gambar 4.6. Memilih Metode Pengolahan Data Mining Menggunakan
Naïve Bayes Classifier
Tentukan kolom yang dianalisis adalah
kolom Bermasalah dengan tampilan
sebagai berikut:
Gambar 4.7. Tampilan Pemilihan Naïve Bayes Classifier Pada Weka
Tekan tombol Start agar WEKA
memproses data dengan metode Naive
Bayes Classifier dengan tampilan hasil
sebagai berikut:
Gambar 4.8. Tampilan Hasil Pengolahan Naïve Bayes Classifier pada
Weka Pengujian Hasil
Untuk melihat apakah nilai
probabilitas yang di hasilkan dapat dipakai untuk menguji suatu kondisi menggunakan persamaan teorema bayes maka perlu
dilakukan percobaan dengan melakukan perhitungan secara manual
Jika diketahui suatu kondisi
sebagai berikut : Skenario 1 : P(X1 | Status) = KAWIIN P(X2 | Tanggungan) = BANYAK P(X3| Rumah) = SENDIRI P(X4| Pekerjaan) = WIRAUSAHA P(X5| Penghasilan) = CUKUP TINGGI P(X6 | Pengeluaran) = TINGGI
P(X7| Sisa) = BAIK
P(X8 | Kredit) = SEDANG
P(X9 | Lama Kredit) = 24 BULAN P(X10 | Angsuran) = SEDANG P(Y | Bermasalah) = ….? P(Y | Tidak Bermasalah) = …? P(Y | Tidak Bermasalah) = (532/576) * (17/576) * (24/576) * (358/576) * (20/576) * (182/576) * (76/576) * (85/576) * (112/576) * (68/576) * (576/662) = 3,012E-09 P(Y | Bermasalah) = (77/88) * (7/88) * (7/88) * (56/88) * (7/88) * (25/88) * (11/88) * (22/88) * (22/88) * (12/88) * (88/662) = 1.12754E-08 Resume :
Dengan kondisi di atas yaitu apabila atribut Status bernilai KAWIIN, atribut Tanggungan bernilai BANYAK,
atribut Rumah bernilai SENDIRI,
Pekerjaan bernilai WIRAUSAHA, atribut Penghasilan bernilai CUKUP TINGGI, atribut Pengeluaran bernilai TINGGI, atribut Sisa bernilai BAIK, atribut Kredit bernilai SEDANG, atribut Lama Kredit bernilai 24 BULAN, atribut Angsuran bernilai SEDANG maka dapat di prediksi kondisi calon yang mengajukan kredit Tidak akan bermasalah hal ini dikarenakan
berdadarkan perhitungan dengan
menggunakan naïve bayes nilai P(Y |
Tidak Bermasalah > nilai P(Y |
Bermasalah) Skenario 2 :
P(X1 | Status) = KAWIIN P(X2 | Tanggungan) = BANYAK P(X3| Rumah) = SEWA P(X4| Pekerjaan) = PETANI P(X5| Penghasilan) = RENDAH P(X6 | Pengeluaran) = TINGGI P(X7| Sisa) = TIDAK BAIK P(X8 | Kredit) = BESAR
P(X9 | Lama Kredit) = 18 BULAN P(X10 | Angsuran) = BESAR P(Y | Bermasalah) = ….? P(Y | Tidak Bermasalah) = …? P(Y | Tidak Bermasalah) = (532/576) * (17/576) * (31/576) * (121/576) * (418/576) * (182/576) * (449/576) * (178/576) * (91/576) * (6/576) * (576/662) = 2.70899E-08 P(Y | Bermasalah) = (77/88) * (7/88) * (5/88) * (15/88) * (59/88) * (25/88) * (76/88) * (20/88) * (15/88) * (2/88) * (88/662) = 7.78675E-08 Resume :
Dengan kondisi di atas apa bila atribut Status bernilai KAWIIN, atribut Tanggungan bernilai BANYAK, atribut Rumah bernilai SEWA, atribut Pekerjaan bernilai PETANI, atribut Penghasilan berniali RENDAH, atribut Pengeluaran) bernilai TINGGI, atribut Sisa bernilai TIDAK BAIK, bernilai Kredit bernilai BESAR, atribut Lama Kredit bernilai 18
BULAN, atribut Angsuran bernilai
BESAR maka dapat di prediksi calon yang mengajukan kredit akan Bermasalah hal ini di karenakan nilai P(Y | Tidak Bermasalah < nilai P(Y | Bermasalah)
sehinggan kondisi diatas dapat di
kategorikan Bermasalah.
4. KESIMPULAN DAN SARAN Kesimpulan
Penelitian mengenai prediksi calon
konsumen pada PT. FMF cabang
Prabumulih dengan menggunakan proses data mining dengan metode Naïve Bayes
Classifier menghasilkan kesimpulan sebagai berikut :
1. Hasil data set yang di gunakan berdasarkan data yang di peroleh dari PT. FMF yang telah melalui proses data selection sebanyak 662 record
2. Adapun nilai probabilitas untuk class bermasalah dengan nilai 0.87 dan nilai probabilitas untuk class tidak bermasalah dengan nilai 0.13
dimana nilai ini dapat di
pergunakan untuk memprediksi
calon konsumen dengan
menghitung nilai probabilitas pada masing – masing atribut.
Adapun atribut yang di pergunakan untuk proses data mining antaralain atribut status, tanggungan,rumah, penghasilan, pengeluaran, sisa, kredit, lama kredit, angsuran dan atribut bermasalah di gunakan sebagai class untuk proses
pengolahan data mining untuk
memprediksi data konsumen. Saran
Berdasarkan hasil dan kesimpulan yang telah diuraikan diatas, maka ada beberapa saran yang ingin disampaikan yaitu:
1. Pada penelitian berikutnya disarankan untuk menggunakan jumlah data yang lebih besar agar di hasilkan suatu prediksi dengan nilai yang lebih baik. 2. Pada penelitian ini disarankan kepada
mahasiswa yang lain untuk melakukan uji coba dengan data yang sama dari
perusahaan yang berbeda untuk
melihat dari hasil pengujian
Algoritman Naive Bayes
3. Pada penelitian ini dapat menjadi referensi untuk proses pengolahan data menggunakan metode Naive Bayes Classifier.
DAFTAR PUSTAKA
Berry. M.J.A. dan Linoff G.S. (2004). Data Mining Techinique for Marketing. sales. Customer Relationship Management . Second Edition. Wiley Publishing. Inc. Fayyad. U. M. (1996). Advances in Knowledge Discovery and Data Mining. Cambridge.
MA: The MIT Press.
Hamzah. A. (2012). Klasifikasi Teks dengan Naïve Bayes Classifier (NBC) untuk Pengelompokan Teks Berita dan Abstract Akademis. In Prosiding Seminar Nasional Apikasi Sains & Teknologi (SNAST) Periode III. p. B269-B277. Yogyakarta.
Jiawei, Han.. (2001). Data Mining: Concept and Techniques. Morgan Kaufmann Publisher Larose D. T.. (2006). Data Mining Methods and Models . Jhon Wiley & Sons. Inc. Hoboken
New Jersey
Ponniah. Paulraj. (2001). Data Warehousing Fundamentals : A Comprehensive Guide for IT Profesionals
Pramudiono. I. (2006). Apa itu Data Mining? Dalam http://datamining.japati.net/cgi -bin/indodm.cgi. Diakses tanggal 26 Mei 2016.
Presiden Republik Indonesia. (1999). Undang-Undang Republik Indonesia No.8 Tahun 1999 tentang Perlindungan Kosumen.
Ridwan. M.. Suyono. H.. & Sarosa. M. (2013). Penerapan Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Jurnal EECCIS. 7(1). 59-64.
Simarmata. Dj.A.. (1983). Operations Research Sebuah Pengantar teknik - teknik Optimasi dari Sistem Operasional . Jakarta : PT Gramedia
Sugiono. (2005). Metode Penelitian Bisnis. Penerbit Alfabeta. Bandung.
Turban. E.. Aronson. J. E. dan Liang. T. (2005). Decision Support Sistems and Intelliget Sistems (Sistem Pendukung Keputusan dan Sistem Cerdas). Edisi Ketujuh. Andi. Yogyakarta.
Turban. Efraim & Linda Volonino. (2010). Information Technology for Management. Edisi Ketujuh. Asia : John Willey & Sons.
Xhemali. D.. Hinde. C.J. & Stone. R.G. (2009). Naive Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages. International Journal of Computer Science Issues 4 (1): 16 -23. ( Online ) http://ijcsi.org/papers/4 -1-16-23.pdf (16 Mei 2013)