ALGORITMA C4.5
Diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Komputer
Disusun oleh:
Nama : Raden Rangga Bramantya Putra
NIM : 311510602
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS PELITA BANGSA
BEKASI
i
PERSETUJUAN SKRIPSI
Tugas Akhir ini telah diperiksa dan disetujui, Bekasi, ………..2020
Menyetujui,
Dosen Pebimbing I
Ir. U. Darmanto Soer, M.Kom NIDN. 0429106003
Mengetahui,
Nama : Raden Rangga Bramantya Putra
NIM : 311510602
Program Studi : Teknik Informatika
Judul Tugas Akhir : Penerapan Data Mining Untuk Memprediksi Pola Nasabah Menggunakan Algoritma C4.5
Dosen Pembimbing II
Aswan S.Sunge, SE., M.Kom NIDN. 0402118105
Kapordi Teknik Informatika
Aswan S.Sunge, SE., M.Kom NIDN. 0402118105
Dekan Fakultas Teknik
Putri Anggun Sari, S.Pt., M.Si. NIDN. 0424088403
ii
PENGESAHAN DEWAN PENGUJI
Nama Pelaksana : Raden Rangga Bramantya Putra
NIM : 311510602
Program Studi : Teknik Informatika
Judul Tugas Akhir : Penerapan Data Mining Untuk Memprediksi Pola Nasabah Menggunakan Algoritma C4.5
Skripsi ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada Sidang Skripsi tanggal 18 Januari 2020. Menurut pandangan kami. Skripsi ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugerahan gelar
Sarjana Komputer (S.Kom.) Bekasi, 18 Januari 2020
Dewan Penguji
Dosen Penguji I
Donny Maulana, S.Kom., M.Msi NIDN. 0408107502
PERNYATAAN KEASLIAN SKRIPSI
Dosen Pengujii II
Sufajar Butsianto, S.Kom., M.Kom NIDN. 0424068106
iii
Sebagai mahasiswa Universitas Pelita Bangsa, yang bertanda-tangan dibawah ini,
saya
Nama : Raden Rangga Bramantya Putra NIM : 311510602
Menyatakan bahwa karya ilmiah saya yang berjudul :
“Penerapan Data Mining Untuk Memprediksi Pola Nasabah Menggunakan Algoritma C4.5”
Merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya dan perangkat pendukung dll). Apabila di
kemudian hari, karya saya disinyalir bukan merupakan karya asli saya, yang disertai dengan bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar terseut. Demikian surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di : Bekasi
Pada tanggal : ……….2020
Yang Menyatakan
Raden Rangga Bramantya Putra Kaprodi Teknik Informatika
Aswan S.Sunge, SE., M.Kom NIDN. 0402118105
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA
ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai mahasiswa Universitas Pelita Bangsa, yang bertanda-tangan dibawah ini, saya
Nama : Raden Rangga Bramantya Putra NIM : 311510602
Demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada Universitas Pelita Bangsa Hak Bebas Royalty Non-Eksklusif (Non-exclusive
Royalty-Free Right) atas karya ilmiah yang berjudul :
“Penerapan Data Mining Untuk Memprediksi Pola Nasabah Menggunakan Algoritma C4.5”
Beserta perangkat yang diperlukan (bila ada). Dengan hak bebas royalty Non-Eksklusif ini universitas pelita bangsa berhak untuk menyimpan, mengcopy ulang (memperbanyak), emnggunakan, mengelolanya dalam bentuk pangkalan data (database), mendistribusikannya dan menampilkan / mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencamtumkan nama saya sebagai penulis / pencipta.
Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Kampus Universitas Pelita Bangsa, segala bentuk tuntutan hokum yang timbul atas
pelanggaran Hak Cipta dalam karya ilmiah saya ini.
Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Bekasi
Pada tanggal : ……….2020
Yang Menyatakan
v
UCAPAN TERIMA KASIH
Puji syukur kehadirat Allah Subkhanahu Wa Ta‟ala, Yang Maha Pengasih lagi Maha Penyayang yang telah melimpahkan Rahmat dan Inayah-Nya sehingga laporan tugas akhir dengan judul “PENERAPAN DATA MINING UNTUK MEMPREDIKSI POLA NASABAH MENGGUNAKAN ALGORITMA C4.5” dapat penulis selesaikan sesuai dengan rencana karena dukungan dari berbagai pihak yang tidak ternilai besarnya.
Shalawat beserta salam semoga senantiasa dilimpahkan kepada Baginda Nabi Muhammad Sholallohu Alaihi Wassalam beserta keluarga dan sahabat- sahabatnya serta para pengikutnya yang secara istiqomah menjalankan ajaran agamanya.
Laporan tugas akhir ini disusun untuk memenuhi salah satu syarat guna menyelesaikan pendidikan S1 (strata satu) Program Studi Teknik Informatika di Universitas Pelita Bangsa, karena penulis menyadari tanpa adanya uluran dan bantuan mereka belum tentu laporan ini dapat diselesaikan. Pihak-pihak tersebut adalah :
1. Hamzah M. Mardi Putra, S.K.M., M.M. sebagai Rektor Universitas Pelita Bangsa
2. Putri Anggun Sari, S.Pt., M.Si. sebagai Dekan Fakultas Program Studi Teknik Informatika Universitas Pelita Bangsa
3. Aswan S. Sunge, M.Kom. sebagai Kaprodi Fakultas Program Studi Teknik Informatika Universitas Pelita Bangsa
4. Bapak Ir. U. Darmanto Soer, M.Kom sebagai Dosen Pebimbing I
5. Bapak Aswan S. Sunge, M.Kom.sebagai Dosen Pebimbing II
vi 7. Teman - teman satu kelas TI.15.D.6
8. Teman - teman satu kelas TI.15.E.1
9. Orang tua penulis
10. Semua pihak yang telah membantu dan tidak dapat disebutkan satu persatu
Penulis menyadari bahwa penulisan laporan tugas akhir ini masih jauh dari sempurna, untuk itu penulis mohon saran yang bersifat membangun demi kemajuan penulis di masa yang akan datang.
Akhir kata semoga laporan tugas akhir ini dapat berguna bagi penulis khususnya dan bagi pembaca pada umumnya, Amin Yarobbal ‘Alamin.
Bekasi, ……….2020
vii
ABSTRAK
Data Mining merupakan proses analisa data dari sudut yang berbeda dan mengolahnya menjadi informasi-informasi penting yang bisa digunakan untuk meningkatkan keuntungan. Secara teknis, data mining dapat disebut juga sebagai proses untuk menemukan korelasi atau pola dari ratusan atau ribuan field. Pada data mining dapat digunakan metode decision tree untuk melakukan klasifikasi. Kredit tidak lagi menjadi hal yang asing bagi masyarakat luas, banyaknya kebutuhan membuat masyarakat mengambil kredit untuk memenuhi kebutuhan konsumtif mereka. Seringkali pembayaran kredit yang macet membuat bank kerepotan, karena semakin banyaknya nasabah yang membayar secara macet dapat berdampak buruk untuk kesehatan bank. Oleh karena itu, data nasabah dari Bank XYZ menjadi bahan acuan untuk menganalisa pola nasabah pemohon kredit. Pemohon kredit termasuk dalam kategori lancar, atau macet. Untuk mengatasi masalah tersebut, dapat digunakan metode decision tree. Sehingga penelitian ini bisa dijadikan acuan pihak Bank untuk menilai nasabah dengan record data yang ada untuk pengambilan kredit selanjutnya. Informasi yang ditampilkan berupa tingkat akurasi data nasabah lancar dan macet. Kemudian hasil akurasi dari aplikasi yang diimplementasikan akan dibandingkan dengan hasil menggunakan sofrware rapidminer. Sehingga diperoleh akurasi dengan decision tree sebesar 95%. Dapat disimpulkan bahwa algoritma
C4.5 dapat digunakan untuk melakukan klasifikasi dengan cukup baik dan dapat
mengukur klasifikasi nasabah.
viii
ABSTRACT
Data mining is the process of analyzing data from different angles and process them into important information that can be used to increase profits. Technically, data mining can also be called as a process of finding correlation or patterns of hundreds or thousand of field. In data mining decision tree method can be used for the classification. Credit is no longer a strange thing fo the general public, many need to make people take credit to meet their consumer needs. Often jammed credit payments made bank hassles, because more and more customers who pay jams can be bad for the health of banks. Thereofer, customer data from Bank XYZ become a reference for analyzing pattern of customer credit applicants. Credit applicants included in the current category, or jammed. To overcome these problems, can use decision tree method. So this research could be used as a reference for Bank to assess clients with exsisting data record for further credit decision. The information is displayed in the form of the accuracy of customer data smoothly and jammed. Then the accuracy of the results of application that is implemented will be compared with results using software Rapidminer. This obtained with less accuracy of decision tree by 95%. It can be concluded that the C4.5 algorithm can be used to classify fairly well and can measure customer classifications.
ix
DAFTAR TABEL
Tabel 2.1 Contoh Data Sampel ... 18
Tabel 2.2 Perhitungan Node 1 ... 20
Tabel 2.3 Perhitungan Node 1.1 ... 22
Tabel 2.4 Perhitungan Node 1.1.2 ... 24
Tabel 2.5 Rumus Confusion Matrix ... 27
Tabel 3.1 Tabel Penentuan Atribut Nasabah Kredit ... 50
Tabel 4.1 Keterangan Atribut Data Nasabah Kredit ... 60
Tabel 4.2 Tabel Detail Atribut Data Nasabah Kredit ... 61
Tabel 4.3 Tabel Data Testing ... 62
Tabel 4.4 Tabel Sampel Jumlah Kasus Setiap Atribut ... 68
x
DAFTAR GAMBAR
Gambar 2.1 Proses dalam Knowledge Discovery in Database ... 13
Gambar 2.2 Model Pohon Keputusan ... 14
Gambar 2.3 Pohon Keputusan Hasil Perhitungan Node 1... 21
Gambar 2.4 Pohon Keputusan Hasil Perhitungan Node 1.1 ... 23
Gambar 2.5 Pohon Keputusan Hasil Perhitungan Node 1.1.2 ... 25
Gambar 2.6 Teknik Klasifikasi ... 30
Gambar 2.7 RapidMiner ... 32
Gambar 3.1 Flowmap Pemberian Kredit ... 45
Gambar 3.2 Kerangka Pemikiran ... 47
Gambar 3.3 Alur Yang Diusulkan ... 49
Gambar 3.4 Analisis Data ... 51
Gambar 3.5 Flowchart Program ... 52
Gambar 3.6 Gambar Desain Login ... 53
Gambar 3.7 Gambar Desain Halaman Utama ... 53
Gambar 3.8 Gambar Desain Data Nasabah ... 54
Gambar 3.9 Gambar Desain Proses Mining ... 54
Gambar 3.10 Gambar Desain Hasil Prediksi ... 54
Gambar 4.1 Menambahkan Read Exel ... 63
Gambar 4.2 Menambahkan Cross Validation... 64
Gambar 4.3 Menambahkan Komponen Penerapan Algoritma ... 64
xi
Gambar 4.5 Hasil Pengujian Cross Validation Data Testing ... 65
Gambar 4.6 Hasil Pengujian Accuracy... 66
Gambar 4.7 Hasil Pengujian Precision ... 66
Gambar 4.8 Hasil Pengujian Recall ... 67
xii
DAFTAR ISI
PERSETUJUAN SKRIPSI ... i
PENGESAHAN DEWAN PENGUJI ... ii
PERNYATAAN KEASLIAN SKRIPSI ... ii
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... iv KATA PENGANTAR ... v ABSTRAK ... vii ABSTRACT ... viii DAFTAR TABEL ... ix DAFTAR GAMBAR ... x
DAFTAR ISI ... xii
BAB I ... 1 PENDAHULUAN ... 1 1.1. Latar Belakang ... 1 1.2. Identifikasi Masalah ... 2 1.3. Rumusan Masalah ... 3 1.4. Batasan Masalah ... 3
1.5. Tujuan dan Manfaat ... 3
1.5.1. Tujuan Penelitian ... 3 1.5.2. Manfaat Penelitian ... 3 1.6. Metode Penelitian ... 4 1.7. Sistematika Penulisan ... 5 BAB II ... 7 LANDASAN TEORI ... 7 2.1. Landasan Teori ... 7 2.1.1. Data Mining ... 7
2.1.2. Teknik Data Mining ... 8
2.1.3. Pekerjaan Dalam Data Mining ... 9
2.1.4. Proses Data Mining ... 9
xiii
2.1.6. Tahapan – Tahapan Data Mining... 12
2.1.7. Decision Tree ... 13 2.1.8. Algoritma C4.5 ... 15 2.1.9. Entrophy... 25 2.1.10. Gain ... 26 2.1.11. Confusion Matrix ... 26 2.1.12. Klasifikasi ... 27 2.1.13. RapidMiner ... 30 2.1.14. PHP ... 32
2.1.15. Basis Data (Databases) ... 32
2.1.16. MySQL ... 33
2.2. Tinjauan Penelitian ... 34
2.3. Bank ... 37
2.4. Fungsi Bank ... 37
2.5. Kegiatan – Kegiatan Bank ... 38
2.6. Kredit ... 39
2.7. Fungsi dan Tujuan Kredit ... 40
2.8. Syarat Pengambilan Kredit Bank XYZ ... 40
2.9. Kriteria Keterlambatan Kredit Bank XYZ ... 41
BAB III ... 41 METODE PENELITIAN ... 42 3.1. Instrumen Penelitian ... 42 3.1.1. Bahan ... 42 3.1.2. Peralatan... 42 3.2. Objek Penelitian ... 43
3.3. Sistem Yang Berjalan ... 43
3.3.1. Flowmap Sistem Yang Sedang Berjalan ... 44
3.3.2. Kelebihan dan Kelemahan Sistem ... 46
3.3.3. Evaluasi Sistem ... 46
3.4. Kerangka Pemikiran ... 46
3.5. Metode Pengumpulan Data ... 48
xiv
3.7. Metode Yang Diusulkan ... 51
3.8. Desain Sistem ... 52 3.8. Pemodelan ... 54 3.9. Analisis Sistem ... 55 3.9.1. Jenis Data ... 55 3.9.2. Sumber Data ... 56 3.9.3. Variabel Data ... 56
3.10. Desain Eksperimen dan Pengujian Algoritma ... 57
3.11. Tahap Eksperimen ... 57
3.12. Validasi dan Evaluasi... 57
3.13. Pengukuran Akurasi Algoritma ... 58
3.14. Implementasi ... 58
3.15. Pengujian ... 59
3.16. Evaluasi Hasil ... 59
BAB IV ... 59
HASIL DAN PEMBAHASAN ... 60
4.1. Pengolahan Data ... 60
4.2. Pengujian Data ... 61
4.3. Hasil Pengujian Data ... 65
4.4. Pemodelan Datamining Menggunakan Algoritma C4.5 ... 68
4.5. Perancangan Proses ... 77
BAB V ... 80
KESIMPULAN DAN SARAN ... 80
5.1 Kesimpulan ... 80
5.2 Saran ... 80
DAFTAR PUSTAKA ... 81
1
BAB I
PENDAHULUAN
1.1. Latar Belakang
Kredit bukan merupakan sesuatu yang asing lagi bagi masyarakat luas, masyarakat desa saja mengenal kredit. Banyak masyarakat mengambil kredit untuk memenuhi kebutuhan mereka, seperti, untuk membangun rumah, kebutuhan sehari-hari, modal, biaya anak sekolah, dan lain-lain. Kredit adalah kepercayaan.
PT. Bank XYZ adalah salah satu bank yang menyediakan layanan Kredit Pegawai kepada para nasabahnya. Pengajuan kredit Pegawai bisa dilakukan oleh pemohon yang telah memenuhi syarat dari pihak bank. Pemberian kredit ini masih menjadi masalah yang krusial, karena pihak bank masih sangat sulit untuk menentukan pola debitur atau pemohon yang menyebabkan kredit lancar atau macet. Banyak faktor yang menyebabkan kredit macet, diantaranya jumlah penghasilan tiap bulan dan banyaknya kebutuhan ekonomi. Pembayaran kredit yang macet membuat performa bank menjadi buruk.
Pada Bank XYZ Cabang kredit yang banyak diambil adalah kredit pegawai, dimana hanya yang berpenghasilan tetap yang diperbolehkan mengambil kredit tersebut. Syarat untuk mengajukan kredit pada Bank XYZ juga sangatlah mudah, tetapi walaupun demikian, masih ada juga nasabah yang membayar kredit secara macet. Apalagi jika nasabah tersebut tiba-tiba menghilang, tidak terlihat lagi dalam instansinya. Sedangkan untuk nasabah yang meninggal sebelum kreditnya lunas, biaya itu ditanggung oleh asuransi.
Pembayaran kredit nasabah yang macet ini dapat berdampak negatif untuk kesehatan Bank, karena apabila nilai NPL (Non Performing Loan) pada Bank ini mencapai 2% dapat dikatakan Bank tidak memiliki performa yang bagus atau bahkan bangkrut, karena seharusnya nilai NPL pada Bank adalah dibawah 2%. Untuk menekan nilai NPL, pihak Bank harus selektif terhadap nasabah kredit yang membayar secara macet pada kredit. Sehingga penelitian ini bisa dijadikan sebagai
acuan pihak Bank untuk menilai nasabah dengan record data yang ada untuk pengambilan kredit selanjutnya.
Oleh karena itu, data nasabah dari Bank XYZ menjadi bahan acuan untuk menganalisa pola nasabah pemohon kredit. Pemohon kredit termasuk dalam kategori lancar, diperlukan perhatian khusus, kurang lancar, atau macet. Dalam kasus ini digunakan teknik data mining decision tree untuk mengklasifikasi pola nasabah dengan menggunakan pohon keputusan algoritma C4.5.
Algoritma C4.5 diperkenalkan oleh Quinlan (1996) sebagai versi perbaikan dari ID3. Dalam ID3, pada decision tree hanya bisa digunakanuntuk fitur bertipe kategorikal saja (nominal atau ordinal), sedangkan untuk tipe numerik (interval atau rasio) tidak dapat digunakan. Perbaikan yang membedakan algoritma C4.5 dari ID3 adalah dapat menangani fitur dengan tipe numerik, melakukan pemotongan decision tree, dan penurunan rule set. Algoritma C4.5 juga menggunakan kriteria gain dalam menentukan fitur yang menjadi pemecah node pada pohon yang diinduksi.[1]
Berdasarkan pertimbangan di atas dan dorongan untuk menerapkan pengetahuan yang diperoleh, maka penulis melakukan suatu penelitian ilmiah yang membahas tentang “PENERAPAN DATA MINING UNTUK MEMPREDIKSI
POLA NASABAH MENGGUNAKAN ALGORITMA C4.5”.
1.2. Identifikasi Masalah
Berdasarkan latar belakang di atas maka permasalahan yang di bahas pada skripsi ini adalah:
a. Pihak Bank masih susah untuk menentukan kelayakan nasabah penerima kredit dalam kategori kredit lancar diperlukan perhatian khusus, kurang lancar, atau macet.
b. Pihak Bank membutuhkan waktu yang lama untuk menetukan kelayakan nasabah penerima kredit.
1.3. Rumusan Masalah
Berdasarkan uraian latar belakang masalah sebelumnya, maka dirumuskan permasalahan bagaimana cara memprediksi data nasabah kredit pada Bank XYZ dengan menggunakan algoritma C4.5?
1.4. Batasan Masalah
Adapun yang menjadi batasan masalah agar tidak menyimpang dari maksud dan tujuan yang sebenarnya, maka penulis membatasi masalah pada penulisan ini, batasan masalahnya sebagai berikut :
a. Metode Data Mining yang digunakan adalah decision tree dengan algoritma yang digunakan adalah Algoritma C.4.5.
b. Data yang digunakan adalah data training nasabah sebelum adanya survey lapangan oleh petugas, yang berarti data hanya digunakan untuk memprediksi nasabah yang layak mendapatkan kredit.
c. Penerapan digunakan hanya untuk menentukan analisa kelayakan nasabah penerima kredit.
d. Hasil dari proses mining adalah terbentuknya pola data berupa beberapa
rules (aturan prediksi).
1.5. Tujuan dan Manfaat
1.5.1. Tujuan Penelitian
Berdasarkan rumusan masalah yang diuraikan diatas, maka tujuan dari penelitian ini adalah untuk menerapkan data mining pada pengklasifikasian data nasabah kredit pegawai pada Bank XYZ dengan algoritma C4.5 agar mengetahui pola nasabah pada pembayaraan kredit.
1.5.2. Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan manfaat bagi semua pihak yaitu :
1. Penulis
a. Sebagai sarana untuk menerapkan ilmu yang telah didapatkan selama perkuliahan.
b. Menambah pemahaman dan pengalaman terutama dalam bidang kajian data mining khususnya algorima C4.5
c. Penelitian ini menjadi salah satu syarat kelulusan S1 (Strata-1) program studi Sistem Informasi di Universitas Pelita Bangsa Cikarang.
2. Pembaca
Dapat digunakan sebagai informasi dan tambahan pengetahuan tentang perancangan sistem untuk klasifikasi pola nasabah dengan menggunakan algoritma C4.5.
3. Bank XYZ
Dengan adanya penerapan datamining untuk menentukan pola nasabah pada Bank XYZ ini dapat membantu menyediakan pengetahuan dan informasi yang bisa dijadikan acuan pihak Bank untuk menilai nasabah dengan record data yang ada untuk pengambilan kredit selanjutnya.
1.6. Metode Penelitian
Dalam menyusun skripsi ini, penulis melakukan beberapa metode untuk memperoleh data atau informasi dalam menyelesaikan permasalahan. Adapun metode tersebut adalah :
Ada beberapa metode dalam melakukan penelitian ini antara lain : 1. Studi literatur
Studi literatur dilakukan dengan mengumpulkan data, informasi dan referensi mengenai kredit macet dan kredit pegawai melalui buku, jurnal, skripsi, tesis, kamus dan internet sebagai informasi dan sumber data berkaitan dengan data mining. Pada tahap ini penulis juga memperdalam pengetahuan mengenai metode Decision Tree C4.5 dan data pengklasifikasian data nasabah kredit pegawai.
2. Analisis data
Tahap ini dilakukan untuk menganalisis data yang telah diperoleh sebelumnya untuk mendapatkan pemahaman mengenai pola klasifikasi kolektibilitas kredit menggunakan Decision Tree C4.5 terhadap aplikasi prediksi kolektibilitas kredit pegawai.
3. Perancangan
Pada tahap ini dilakukan perancangan sistem yang akan dibangun, seperti merancang proses pembangunan sistem dan antarmuka.
4. Implementasi
Tahap ini merupakan tahap penerapan rancangan sistem yang telah dibangun untuk pembangunan program sesuai dengan kode perangkat lunak yang akan digunakan.
5. Pengujian
Tahap ini merupakan tahap pengujian perangkat lunak yang telah dibangun untuk mengetahui keakuratan sistem dan layak atau tidak layaknya sistem untuk digunakan oleh user.
6. Dokumentasi dan Pelaporan
Pada tahap ini dilakukan dokumentasi dan penyusunan laporan hasil sistem yang telah dibangun.
7. Studi Kepustakaan
Penelitian Pustakan di lakukan untuk mengumpulkan data dan informasi melalui buku-buku dan perlengkapan lainnya yang sesuai dengan permasalahan dalam tugas akhir ini.
1.7. Sistematika Penulisan
Sistematika Penulisan skripsi bertujuan untuk memperjelas garis besar dan penyusunan skripsi ini, maka Metode penulisan skripsi ini adalah:
BAB I : PENDAHULUAN
Bab ini berisi Latar Belakang Masalah, Identifikasi Masalah, Rumusan Masalah, Batasan Masalah, Tujuan dan Manfaat, Metode Penelitian, Sistematika Penulisan.
BAB II : LANDASAN TEORI
Bab ini merupakan kumpulan referensi yang berkaitan dengan penelitian, baik dari buku-buku yang memuat pemecahan masalah dari penelitian maupun informasi yang diperoleh melalui internet.
BAB III : METODE PENELITIAN
Pada bab ini dilakukan analisis dan perancangan sistem serta penerapan metode decision tree dengan algoritma C4.5 untuk prediksi kolektibilitas kredit pegawai. Kemudian menerapkan hasil analisis dan perancangan ke dalam sistem.
BAB IV : HASIL PENELITIAN DAN PEMBAHASAN
Bab ini merupakan implementasi dari analisis dan perancangan yang telah disusun pada Bab 3 dan pengujian untuk mengetahui apakah hasil yang didapatkan sesuai dengan yang diharapkan.
BAB V : PENUTUP
Bab ini terdiri dari kesimpulan yang merupakan uraian dari bab-bab sebelumnya dan saran sebagai pengembangan pada penelitian berikutnya.
7
BAB II
LANDASAN TEORI
2.1. Landasan Teori
2.1.1. Data Mining
Data mining adalah proses menentukan pola dan informasi dari data yang berjumlah besar. Sumber data dapat berupa database, data warehouse, web, tempat penyimpanan informasi lainnya atau data yang mengalir ke dalam sistem yang dinamis (Han, et al, 2012: 8).[2]
Data Mining adalah studi untuk pengumpulan, pembersihan, pemprosesan, analisis dan mendapatkan pengetahuan yang berguna dari sebuah data (Aggarwal 2015).[3]
Dapat disimpulkan bahwa data mining adalah penerapan suatu atau beberapa metode terhadap sejumlah data yang besar untuk mencari sebuah pola, informasi ataupun sebuah pengetahuan yang tersimpan dalam sebuah data.
Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran computer (machine learning) untuk menganalisis dan mengekstrasi pengetahuan (knowledge) secara otomatis. Definisi lain diantaranya adalah pembelajaran berbasis induksi (inductionbasedlearning) adalah proses pembentukan definisi-definisi konsep umum yang dilakukan dengan cara mengobservasi contoh-contoh spesifik dari konsep-konsep yang akan dipelajari. Knowledge Discovery in Databases (KDD) adalah penerapan metode pada data mining. Dalam konteks ini data mining merupakan satu langkah dari proses KDD (Abdillah, 2013).[4]
Data Mining adalah proses analisa data dari sudut yang berbeda dan mengolahnya menjadi informasi-informasi penting yang bisa digunakan untuk meningkatkan keuntungan, meminimalisasi biaya pengeluaran, atau bahkan keduanya. Secara teknis, data mining dapat disebut juga sebagai proses untuk menemukan korelasi atau pola dari ratusan atau ribuan field dari sebuah relasional basis data yang besar.
Kemampuan data mining dalam mencari informasi bisnis yang berharga dari basis data yang sangat besar, dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya, teknologi ini dipakai untuk [5]:
1. Prediksi dan sifat-sifat bisnis, dimana data miningsecara otomatis melakukan proses pecarian informasi untuk memprediksi basis data dalam jumlah besar. 2. Penemuan pola-pola yang tidak diketahui sebelumnya, dimana data mining
“menyapu” basis data, kemudian mengidentifikasi polapola yang sebelumnya tersembunyi dalam satu sapuan.
Nama data mining sebenarnya mulai dikenal sejak tahun 1990, ketika pekerjaan pemanfaatan data menjadi sesuatu yang penting dalam berbagai bidang, mulai dari bidang akademik, bisnis, hingga medis. Data mining dapat diterapkan pada berbagai bidang yang mempunyai sejumlah data, tetapi karena wilayah penelitian dengan sejarah yang belum lama, dan belum melewati masa “remaja”, maka data mining masih diperdebatkan posisi bidang pengetahuan yang memilikinya.[6]
2.1.2. Teknik Data Mining
Beberapa Teknik dan sifat data mining adalah sebagai berikut : 1. Klasterisasi
Mempartisi data-set menjadi beberapa sub-net atau kelompok sedemikian rupa sehingga elemen – elemen dari suatu kelompok tertentu memiliki set property yang di share bersama, dengan tingkat similaritas yang tinggi dalam suatu kelompok yang rendah. Disebut juga dengan “unsupervised learning”.
2. Regresi
Memprediksi nilai dari suatu variable kontinyu yang diberikan berdasarkan nilai dari variable yang lain, dengan mengasumsikan sebuah model ketergantungan linier atau nonlinear.
3. Klasifikasi
Menentukan sebuah record data baru ke salah satu dari beberapa kategori (kelas) yang telah didefinisikan sebelumnya dan disebut juga dengan “supervised learning”.
4. Kaidah Asosiasi (association rule)
Mendeteksi kumpulan atribut – atribut yang muncul bersamaan (co-occur) dalam frekuensi yang sering dan membentuk sejumlah kaidah dari kumpulan – kumpulan tersebut. (Hermawati, 2013:14)[7]
2.1.3. Pekerjaan Dalam Data Mining
Pekerjaan yang berkaitan dengan data mining dapat dibagi menjadi empat kelompok, yaitu: model prediksi, analisis cluster, analisis sosiasi, dan deteksi anomali.
a. Model Prediksi
Pekerjaan ini berkaitan dengan pembuatan sebuah model yang dapat melakukan pemetaan dari setiap himpunan variabel ke setiap targetnya, kemudian menggunakan model tersebut untuk memberikan nilai target pada himpunan baru yang didapat.
b. Analisis Cluster
Pekerjaan ini melakukan pengelompokkan data ke dalam kelompok yang ada berdasarkan karakteristik yang sama dari setiap kelompok yang ada.
c. Analisis Asosiasi
Analisis asosiasi digunakan untuk menemukan pola yang menggambarkan kekuatan hubungan fitur dalam data. Pola yang ditemukan biasanya mempresentasikan bentuk aturan implikasi atau subset fitur.
d. Deteksi Anomali
Pekerjaan deteksi anomali berkaitan dengan penamatan beberapa data dari sisa sejumlah data yang memiliki klasifikasi berbeda.
2.1.4. Proses Data Mining
Secara sistematis, ada tiga langkah utama dalam data mining (Gorunescu, 2011):
a. Eksplorasi / pemrosesan awal data
Eksplorasi atau pemrosesan awal data terdiri dari „pembersihan‟ data, normalisasi data, transformasi data, penanganan data yang salah, reduksi dimensi, pemilihan subset fitur, dan sebagainya.
b. Membangun model dan melakukan validasi terhadapnya
Membangun model dan melakukan validasi terhadapnya berarti melakukan analisis berbagai model dan memilih model dengan kinerja prediksi yang terbaik. Dalam langkah ini digunakan metode-metode seperti kalsifikasi, regresi, analisis cluster, deteksi anomali, analisis asosiasi, analisis pola sekuensial, dan sebagainya.
c. Penerapan
Penerapan berarti menentukan model pada data agar menghasilkan prediksi masalah yang diinvestigasi.[8]
2.1.5. Perkembangan Data Mining
CRISP-DM (Cross-Industry Standart Process for Data Mining) merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang dapat diaplikasikan di berbagai sektor.[9]
Adapun siklus hidup pengembangan data mining di antaranya yaitu : 1. Business Understanding
Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian menterjemahkan pengetahuan tersebut ke dalam pendefinisian masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut.
2. Data Understanding
Tahap ini akan dimulai dengan pengumpulan data yang kemudian dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam tentang data, mengidentifikasi masalah tentang data atau untuk mendeteksi adanya bagian menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi.
3. Data Preparation
Pada tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang akan diproses pada tahap pemodelan) dari data mentah. Tahap ini dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel, record, dan atribut – atribut data, termasuk proses pembersihan dan transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan (modeling). 4. Modeling
Tahap ini merupakan pemilihan dan penerapan berbagai teknik pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai yang optimal. Secara khusus ada beberapa teknik berbeda yang dapat diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik pemodelan ang memutuhkan format data khusus, sehingga pada tahap ini masih memungkinkan kembali ke tahap sebelumnya.
5. Evaluation
Pada tahap ini model sudah terbentuk dan diharapkan memiliki kualitas baik jika dilihat dari sudut pandang analisa data. Kemudian akan dilakukan evaluasi terhadap kefektifan dan kualitas model sebelum digunakan dan menentukan apakah model dapat mencapai tujuan yang ditetapkan pada fase awal. Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining.
6. Deployment
Tahap ini pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau mengimplementasikan proses data mining yang berulang dalam perusahaan. Dalam banyak kasus tahap deployment melibatkan konsumen, disamping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.
2.1.6. Tahapan – Tahapan Data Mining
Berikut ini merupakan proses atau langkah-langkah dalam melakukan data mining: 1. Data Cleaning, proses awal data mining adalah proses data cleaning. Proses cleaning ini bertujuan untuk membersihkan data dari data yang tidak konsisten. Biasanya, data yang diperoleh ada yang tidak lengkap, seperti data yang hilang, salah ketik, dan sebagainya. Data-data tersebut lebih baik dibuang karena akan mempengaruhi kinerja proses selanjutnya.
2. Data Integration, merupakan proses untuk menggabungkan beberapa sumber data ke dalam satu database. Proses ini perlu dilakukan dengan cermat dan teliti karena apabila terjadi kesalahan pada integrasi data maka bisa memberikan hasil yang menyimpang dan mempengaruhi proses selanjutnya.
3. Data Selection, merupakan proses menganalisis data-data yang relevan dari database karena sering ditemukan bahwa tidak semua data dibutuhkan dalam proses data mining. Data tersebut dipilih dan diseleksi dari database untuk dianalisis.
4. Data Transformation, merupakan tipe data pada database diubah ke dalam pola tertentu sehingga dapat diproses dalam data mining. Proses ini sangat bergantung pada jenis yang dibutuhkan dalam database.
5. Data Mining, merupakan proses pokok dalam KDD. Proses ini menggunakan metode yang tepat dengan tujuan untuk menghasilkan pola data tertentu. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
6. Evaluation and presentation, proses untuk mengidentifikasi pola yang tepat. Pola-pola tersebut dievaluasi untuk menilai apakah hasil yang diharapkan tercapai atau tidak. Jika hasil yang diperoleh tidak sesuai maka terdapat beberapa cara untuk memperbaiki hal tersebut, salah satu contohnya yaitu mencoba metode data mining yang lain.
7. Knowledge, proses ini merupakan visualisasi dan representasi teknik yang digunakan untuk memperoleh informasi sehingga informasi yang dihasilkan mudah dimengerti oleh orang-orang yang tidak memahami data mining.
Gambar 2.1 Proses dalam Knowledge Discovery in Database
2.1.7. Decision Tree
Decision tree merupakan metode klasifikasi dalam bentuk diagram yang
direpresentasikan seperti struktur pohon, setiap simpul internal merupakan sebuah atribut, setiap cabang merupakan nilai atribut, dan setiap simpul daun atau simpul terminal merupakan label class, serta simpul yang paling atas adalah simpul akar (Han, et al, 2012: 330) [2]. Metode ini popular karena model yang terbentuk mudah dipahami. Salah satu kekurangan pada decision tree adalah membutuhkan waktu dan jumlah memori yang banyak untuk data yang besar dalam mendesain pohon keputusan yang optimal.
Decision Tree merupakan representasi sederhana dari teknik klasifikasi
untuk sejumlah kelas berhingga, dimana simpul internal maupun simpul akar ditandai dengan nama atribut, rusuk-rusuknnya diberi label nilai atribut yang mungkin dan simpul daun ditandai dengan kelas-kelas yang berbeda.(Fajar Astuti, 2013).[10]
Decision tree atau pohon keputusan adalah pohon yang digunakan sebagai
prossedur penalaran untuk mendapatkan jawaban dari masalah yang dimasukkan. Pohon yang dibentuk tidak selalu berupa pohon biner. Jika semua fitur dalam data set menggunakan 2 macam nilai kategorikal maka bentuk pohon yang didapatkan berupa pohon biner. Jika dalam fitur berisi lebih dari 2 macam nilai kategorikal atau
menggunakan tipe numerik maka bentuk pohon yang didapatkan biasanya tidak berupa pohon biner.
Decision tree merupakan metode klasifikasi yang paling sering digunakan.
Karena dalam pengerjaannya tidak memerlukan waktu yang lama dan hasilnyapun mudah untuk dipahami dan banyak penelitian dalam kasus ini sering menggunakan decision tree untuk mendapatkan hasil yang maksimal.
Pada decision tree terdapat tiga jenis node, yaitu :
a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output lebih dari satu.
b. Internal Node, merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal 2.
c. Leaf node atau terminal node, merupakan node terakhir, pada node ini hanya terdapat satu input dan tidak mempunyai output.
Kelebihan yang dimiliki decision tree antara lain:
a. Hasil analisa berupa diagram pohon yang mudah dimengerti.
b. Mudah untuk dibangun, serta membutuhkan data percobaan yang lebih sedikit dibandingkan algoritma klasifikasi lainnya.
c. Mampu mengolah data nominal dan kontinyu.
d. Menggunakan teknik statistik sehingga dapat divalidasikan.
e. Akurasi yang dihasilkan mampu menandingi teknik klasifikasi lainnya.
Contoh dari pohon keputusan dapat dilihat di Gambar 2.3 berikut ini :
Adapun Kelebihan dari Descision Tree yaitu :
1. Mempunyai konsep yang jelas dan mudah dipahami. Descision Tree yang dihasilkan dari proses penelitian dapat menjelaskan bagaimana model klasifikasi data bekerja.
2. Mudah diimplementasikan dengan menggunakan algoritma rekrusif. Adapun Kekurangan dari Descision Tree yaitu :
1. Sulit diaplikasikan untuk himpunan data sangat besar dengan ribuan atribut dan milyaran objek data.
Mudah mengalami overfit karena proses pelatihan greedly tidak menjamin dihasilkannya pohon keputusan yang optimum.
2.1.8. Algoritma C4.5
Algoritma C4.5 adalah suatu deretan algoritma untuk permasalahan klasifikasi didalam sebuah mesin dan himpunan data. Dengan nilai data yang bervariasi, dimana kejadian diuraikan oleh koleksi atribut dan mempunyai salah satu dari satu set kelas yang eksklusif.
Algoritma C4.5 merupakan algoritma klasifikasi yang dapat menghasilkan pohon keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang dapat diterima, efisien dalam menangani atribut bertipe diskret dan numerik (Kamagi dan Seng, 2014).[11]
Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Kelebihan algoritma C4.5 dapat menghasilkan pohon keputusan yang mudah di interprestasikan, dapat menangani data numerik (kontinyu) dan diskrit (Prasetyo, 2014).[12]
Algoritma C4.5 diperkenalkan oleh Quinlan (1996) sebagai versi pembenahan dari ID3. Dalam ID3, induksi decision tree hanya dapat digunakan pada fitur bertipe kategorikal (nominal), sedangkan tipe numerik (ratio) tidak bisa digunakan. Perubahan yang membedakan algoritma C4.5 dan ID3 adalah dapat menangani fitur dengan tipe numerik, melakukan pemotongan (pruning) decision tree, dan penurunan (deriving) rule set. Algorima C4.5 juga menggunakan kriteria
gain dalam menentukan fitur yang menjadi pemecah node pada pohon yang diinduksi.
Algoritma C4.5 adalah satu algoritma untuk klasifikasi penggolongan data. Data yang digunakan adalah data pinjaman kredit kepemilikan rumah pada nasabah yang akan dikelompokkan ke dalam class lancar atau macet.
Terdapat beberapa tahapan untuk menentukan apakah seorang nasabah bermasalah atau tidak menggunakan C4.5.
Hal terpenting dalam induksi decision tree adalah bagaimana menyatakan syarat pengujian pada node. Ada 3 kelompok penting syarat pengujian node : 1. Fitur Biner
Fitur yang hanya memiliki 2 nilai berbeda disebut dengan fitur biner. Syarat pengujian ketika fitur ini menjadi node (akar maupun internal) hanya punya dua pilihan cabang.
2. Fitur bertipe kategorikal
Untuk fitur yang nilainya bertipe kategorikal (nominal atau ordinal) bisa mempunyai beberapa nilai berbeda.
3. Fitur bertipe numerik
Untuk fitur bertipe numerik, syarat pengujian dalam node (akar maupun internal) dinyatakkan dengan perbandingan pengujian (A<v) atau (A≥v) dengan hasil biner, atau untuk multi dengan hasil berupa jangkauan nilai dalam bentuk 𝑣𝑖 ≤ A <𝑣𝑖+1, untuk i=1,2,...,k.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut :
1. Pilih kriteria sebagai akar.
2. Buat cabang untuk tiap-tiap nilai. 3. Bagi kasus dalam cabang.
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Dalam algoritma C4.5 sebelum membangun pohon keputusan hal yang paling perlu dilakukan adalah menentukan atribut sebagai akar. Kemudian dibuat cabang untuk setiap nilai dalam akar tersebut. Langkah selanjutnya adalah membagi kasus dalam cabang. Kemudian mengulangi proses pada setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk memilih atribut dengan akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus berikut :
Gain (S, A) = Entrophy(S) − ∑ |Si|
|S| ∗ Entrophy (S) n i=i Keterangan: S : Himpunan kasus A : Atribut
N : Jumlah partisi atribut A |Si| : Jumlah kasus pada partisi ke-i |S| : Jumlah kasus dalam S
Sehingga akan diperoleh nilai gain dari atribut yang paling tertinggi. Gain adalah salah satu atribute selection measure yang digunakan untuk memilih test atribute tiap node pada tree. Atribut dengan information gain tertinggi dipilih sebagai test atribute dari suatu node. Sementara itu, perhitungan nilai entropi dapat dilihat pada persamaan :
𝐸𝑛𝑡𝑟𝑜𝑝ℎ𝑦 = ∑𝑛𝑖=1−𝑝𝑖 ∗ log2 𝑝𝑖 Keterangan:
S : Himpunan kasus A : Atribut
N : Jumlah partisi S
Pi : Proporsi dari Si terhadap S
disertakan contoh kasus yang dituangkan dalam Tabel 2.1. Tabel 2.1 Contoh Data Sampel
NO CUACA SUHU KELEMBABAN ANGIN MAIN
1 Cerah Panas Tinggi Kecil Tidak
2 Cerah Panas Tinggi Besar Tidak
3 Berawan Panas Tinggi Kecil Ya
4 Hujan Sejuk Tinggi Kecil Ya
5 Hujan Dingin Normal Kecil Ya
6 Hujan Dingin Normal Besar Ya
7 Berawan Dingin Normal Besar Ya
8 Cerah Sejuk Tinggi Kecil Tidak
9 Cerah Dingin Normal Kecil Ya
10 Hujan Sejuk Normal Kecil Ya
11 Cerah Sejuk Normal Besar Ya
12 Berawan Sejuk Tinggi Besar Ya
13 Berawan Panas Normal Kecil Ya
14 Hujan Sejuk Tinggi Besar Tidak
Dalam kasus yang tertera pada Tabel 2.1, akan dibuat pohon keputusan untuk menentukan main tenis atau tidak dengan melihat keadaan cuaca, temperatur, kelembaban dan keadaan angin. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut:
1. Pilih atribut sebagai akar
2. Buat cabang untuk masing-masing nilai 3. Bagi kasus dalam cabang
4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.
dari atribut- atribut yang ada. Hasil perhitungan nilai Entropy digunakan untuk menghitung nilai Gain. Untuk menghitung Gain digunakan rumus seperti tertera diatas.
Berikut ini adalah penjelasan lebih rinci mengenai masing-masing langkah dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk menyelesaikan permasalahan pada Tabel 2.1.
Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut Cuaca, Suhu, Kelembaban, dan Aangin. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.2.
Tabel 2.2 Perhitungan Node 1
Node Jml Kasus (S) Tidak (S1) Ya (S2) Entropy Gain 1 TOTAL 14 4 10 0.863120569 CUACA 0.258521037 BERAWAN 4 0 4 0
HUJAN 5 1 4 0.721928095 CERAH 5 3 2 0.970950594 SUHU 0.183850925 DINGIN 4 0 4 0 PANAS 4 2 2 1 SEJUK 6 2 4 0.918295834 KELEMBABAN 0.370506501 TINGGI 7 4 3 0.985228136 NORMAL 7 0 7 0 ANGIN 0.005977711 KECIL 8 2 6 0.811278124 BESAR 6 4 2 0.918295834
Baris Total kolom Entropy pada Tabel 3.2 dihitung dengan rumus sebagai berikut:
Entrophy (Total) = 0.863120569
Sementera itu nilai Gain pada baris Cuaca dihitung dengan menggunakan rumus
Dari hasil pada Tabel 2.2 dapat diketahui bahwa atribut dengan Gain tertinggi adalah Kelembaban yaitu sebesar 0.37. Dengan demikian Kelembaban dapat menjadi node akar. Ada 2 nilai atribut dari Kelembanan yaitu Tinggi dan Normal. Dari kedua nilai atribut tersebut, nilai atribut Normal sudah mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya, sehingga tidak perlu dilakukan perhitungan lebih lanjut. Atribut normal yang sudah terklasifikasi kasusnya dengan keputusan Ya menjadikan 1 aturan atau rule yang terbentuk, tetapi untuk nilai atribut Tinggi masih perlu dilakukan perhitungan lagi karena belum terklasifikasikan kasusnya.
Langkah pertama dalam membangun pohon keputusan yaitu memilih atribut sebagai akar. Dari hasil perhitungan diatas dapat digambarkan pohon keputusan sementara tampak seperti Gambar 2.3
Gambar 2.3 Pohon Keputusan Hasil Perhitungan Node 1
Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut Cuaca, Suhu dan Angin yang dapat menjadi node akar dari nilai atribut Kelembaban yaitu Tinggi. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.3.
Node Jml Kasus (S) Tidak (S1) Ya (S2) Entropy Gain 1.1 KELEMBABAN TINGGI 7 4 3 0.985228136 CUACA 0.69951385 BERAWAN 2 0 2 0 HUJAN 2 1 1 1 CERAH 3 3 0 0 SUHU 0.020244207 DINGIN 0 0 0 0 PANAS 3 2 1 0.918295834 SEJUK 4 2 2 1 ANGIN 0.020244207 KECIL 4 2 2 1 BESAR 3 2 1 0.918295834
Dari hasil pada Tabel 2.3 dapat diketahui bahwa atribut dengan Gain tertinggi adalah Cuaca yaitu sebesar 0.67. Dengan demikian Cuaca dapat menjadi node cabang dari nilai atribut Tinggi. Ada 3 nilai atribut dari Cuaca yaitu Berawan, Hujan dan Cerah. Dari ketiga nilai atribut tersebut, nilai atribut Berawan sudah mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya dan nilai atribut Cerah sudah mengklasifikasikan kasus menjadi satu dengan keputusan Tidak, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut Hujan masih perlu dilakukan perhitungan lagi.
1.1
Tidak
2.4 berikut:
Gambar 2.4 Pohon Keputusan Hasil Perhitungan Node 1.1
Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut Suhu dan Angin yang dapat menjadi node cabang dari nilai atribut Hujan. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.4.
Tabel 2.4 Perhitungan Node 1.1.2
Node Jml Kasus (S) Tidak (S1) Ya (S2) Entropy Gain
1.1 Normal 1.1.2 KELEMBABAN TINGGI Dan CUACA HUJAN 2 1 1 1 SUHU 0 DINGIN 0 0 0 0 PANAS 0 0 0 0 SEJUK 2 1 1 1 ANGIN 1 KECIL 1 0 1 0 BESAR 1 1 0 0
Dari hasil pada tabel 2.4 dapat diketahui bahwa atribut dengan Gain tertinggi adalah Angin yaitu sebesar 1. Dengan demikian Angin dapat menjadi node cabang dari nilai atribut Hujan. Ada 2 nilai atribut dari Angin yaitu Kecil dan Besar. Dari kedua nilai atribut tersebut, nilai atribut Kecil sudah mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya dan nilai atribut Besar sudah mengklasifikasikan kasus menjadi satu dengan keputusan Tidak, sehingga tidak perlu dilakukan perhitungan lebih lanjut untuk nilai atribut ini. Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 2.5.
Gambar 2.5 Pohon Keputusan Hasil Perhitungan Node 1.1.2
Dengan memperhatikan pohon keputusan pada Gambar 2.5, diketahui bahwa semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan pada Gambar 2.5 merupakan pohon keputusan terakhir yang terbentuk.
Dari hasil pohon keputusan yang terbentuk hingga terakhir menghasilkan 5 aturan atau rule keputusan dari target yang ingin dicapai yaitu bermain tenis atau tidak. Rule tersebut diantaranya yaitu :
1. Jika kelembaban normal maka bermain.
2. Jika kelembaban tinggi dan cuaca cerah maka tidak bermain. 3. Jika kelembaban tinggi dan cuaca berawan maka bermain.
4. Jika kelembaban tinggi dan cuaca hujan dan angin kecil maka bermain. 5. Jika kelembaban tinggi dan cuaca hujan dan angin besar maka tidak
bermain.
Dari aturan-aturan yang telah dihasilkan nantinya akan digunakan untuk mencocokkan kasus pada variabel target yang diinputkan. Tiap record akan dikoreksi statusnya dengan aturan yang ada sehingga dapat diklasifikasikan dalam satu kelas berdasarkan target yang ingin diketahui.
2.1.9. Entrophy
Menurut Suyanto (2017:134), secara istilah Entrophy adalah keberbedaan atau keberagaman. Dalam data mining, Entrophy didefinisikan sebagai suatu
parameter untuk mengukur heterogenitas (keberagaman) dalam suatu himpunan data. Semakin heterogen himpunan suatu data, semakin besar pula nilai Entrophy-nya. Secara matematis Entrophy dirumuskan sebagai berikut:
𝐸𝑛𝑡𝑟𝑜𝑝ℎ𝑦 = ∑𝑛𝑖=1−𝑝𝑖 ∗ log2 𝑝𝑖 Keterangan:
S : Himpunan kasus A : Atribut
N : Jumlah partisi S
Pi : Proporsi dari Si terhadap S
Dimana n adalah jumlah nilai yang terdapat pada atribut target (jumlah kelas). Sedangkan Pi menyatakan porsi atau rasio antara jumlah sampel di kelas i dengan jumlah sampel pada himpunan data.
2.1.10. Gain
Secara istilah Gain adalah perolehan informasi. Dalam data mining Gain didefinisikan sebagai ukuran efektivitas suatu atribut dalam mengklasifikasikan data. Secara matematis, gain dirumuskan sebagai berikut:
𝐺𝑎𝑖𝑛(S. A) = 𝐸𝑛𝑡𝑟𝑜𝑝ℎ𝑦(𝑠)∑|𝑆𝑖|
|𝑠| 𝐸𝑛𝑡𝑟𝑜𝑝ℎ𝑦(𝑆𝑖) Keterangan:
S = Himpunan Kasus A = Atribut
c = Jumlah partisi atribut A
|Si| = Jumlah kasus partisi ke i |S| = Jumlah kasus dalam s
Dengan atribut yang nilai gain yang paling tertinggi dipilih sebagai atribut tes untuk simpul.
2.1.11. Confusion Matrix
Confusion matrix adalah tool yang digunakan untuk evaluasi model
prediksi yang akan dibandingkan dengan kelas yang asli dari inputan atau dengan kata lain berisi informasi nilai actual dan prediksi pada klasifikasi (Gorunescu, 2011: 319).
Rumus presisi, akurasi dan recall
1. Akurasi : Tingkat kedekatan antara nilai prediksi dengan nilai aktual. 2. Presisi : Tingkat ketepatan antara informasi yang diminta oleh
pengguna dengan jawan yang dibeikan oleh sistem. 3. Recall : Tingkat keberhasilan sistem dalam menentukan kembali
sebuah informasi.
Tabel 2.5 Rumus Confusion Matrix
Tabel Akurasi, Presisi dan Recall
Nilai Sebenarnya
TRUE FALSE
Nilai Prediksi
Pred. Good TP FP
(True Positive) (False Positive)
Pred. Disposal FN TN
(False Negative) True Negative
Rumus Confusion Matrix
Akurasi TP+TN TP+TN+FP+FN Presisi TP TP+FN Recall TP TP+FP
2.1.12. Klasifikasi
Menurut Hermawati (2013:55), Klasifikasi merupakan proses pemberlajaran suatu fungsi tujuan (target) f yang memetakan tiap himpunan atribut
x ke satu dari label kelas yang didefinisikan sebelumnya. Fungsi target disebut juga model klasifikasi.[7]
Klasifikasi merupakan tugas penambangan data yang memetakan data ke dalam kelompok-kelompok kelas (Jain dkk, 2013). Teknik klasifikasi melakukan pengklasifikasian item data ke label kelas yang telah ditetapkan, membangun model klasifikasi dari kumpulan data input, membangun model yang digunakan untuk memprediksi tren data masa depan (Shazmeen dkk, 2013). Algoritma yang umum digunakan meliputi K-Nearest neighbor, Naïve Bayes Classification, Pohon
Keputusan (Decision Tree), Jaringan Saraf (Neural Network), dan Suport Vector Machines (Sahu dkk, 2011).
Klasifikasi merupakan proses untuk menemukan fungsi dan model yang dapat membedakan atau menjelaskan konsep atau kelas data dengan tujuan memperkirakan kelas yang tidak diketahui dari suatu objek. Dalam proses pengklasifikasian biasa terdapat dua proses yang harus dilakukan, yaitu:
1. Proses Training
Pada proses ini akan digunakan data training set atau data sampel yang telah diketahui label-label atau atribut dari data sampe tersebut untuk membangun model.
2. Proses Testing
Pada proses testing ini dilakukan untuk mengetahui keakuratan model yang telah dibuat pada proses training maka dibangun data yang disebut dengan data testing untuk mengklasifikasikan label – labelnya.
Klasifikasi merupakan penempatan objek-objek ke salah satu dari beberapa kategori yang telah ditetapkan sebelumnya. Klasifikasi sekarang ini telah banyak digunakan dalam berbagai aplikasi, sebagai contoh pendeteksian pesan email, spam berdasarkan header dan isi atau mengklasifikasikan galaksi berdasarkan bentuk-bentuknya. Pada proses klasifikasi data yang diinputkan adalah data record atau data sample. Pada setiap record dikenal sebagai instance atau contoh yang ditentukan oleh sebuah tuple (x,y). Dimana x adalah himpunan atribut dan y adalah atribut tertentu yang menyatakan sebagai label class.
1. Kelas
Merupakan variable tidak bebas yang merupakan label dari hasil klasifikasi. Sebagai contoh adalah kelas loyalitas pelanggan, kelas badai, gempa bumi, dan lain-lain.
2. Prediktor
Merupakan variable bebas suatu model berdasarkan dari karakteristik atribut data yang diklasifikasi, misalnya merokok, minum minuman beralkohol, tekanan darah, status perkawinan, dan sebagainya.
3. Set data pelatihan
Merupakan sekumpulan data lengkap yang berisi kelas dan prediktor untuk dilatih agar dapat mengelompokkan ke dalam kelas yang tepat.
4. Set data uji
Berisi data - data baru yang akan dikelompokkan oleh model guna mengetahui akurasi dari model yang telah dibuat.
Sebagian besar istilah - istilah yang ada dalam aktivitas klasifikasi sama dengan yang digunakan dalam aplikasi database. Namun beberapa mungkin tidak begitu dikenal, istilah - istilah tersebut antara lain:
1. Set data yang digunakan untuk proses pelatihan dikenal dengan namanama yang berbeda, antar lain: records, tuples, vector, instan, objek, dan sample. 2. Tiap set data tersebut memili suatu atribut.
3. Pengklasifikasian, merupakan data-data dengan sifat seperti data pelatihan untuk menguji akurasi dari model yang telah dibuat.
Teknik klasifikasi terbagi menjadi beberapa teknik yang diantaranya sebagai berikut:
Gambar 2.6 Teknik Klasifikasi
2.1.13. RapidMiner
RapidMiner merupakan perangakat lunak yang bersifat terbuka (open source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi.
RapidMiner merupakan software yang berdiri sendiri untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan menggunakan bahasa java sehingga dapat bekerja di semua sistem operasi. RapidMiner sebelumnya bernama YALE (Yet Another Learning Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit dari University of Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL (GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan aplikasi yang dikembangkan mengunakan RapidMiner di lebih dari 40 negara. RapidMiner sebagai software open source untuk data mining tidak perlu diragukan lagi karena software ini sudah terkemuka di dunia. RapidMiner menempati peringkat pertama sebagai Software data mining pada polling oleh KDnuggets, sebuah portal data-mining pada 2010-2011. RapidMiner menyediakan
GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis. GUI ini akan menghasilkan file XML (Extensible Markup Language) yang mendefenisikan proses analitis keingginan pengguna untuk diterapkan ke data. File ini kemudian dibaca oleh RapidMiner untuk menjalankan analis secara otomatis.
Rapid Miner memiliki beberapa sifat sebagai berikut:
a. Ditulis dengan bahasa pemrograman Java sehingga dapat dijalankan di berbagai sistem operasi.
b. Proses penemuan pengetahuan dimodelkan sebagai operator trees.
c. Representasi XML internal untuk memastikan format standar pertukaran data. d. Bahasa scripting memungkinkan untuk eksperimen skala besar dan
otomatisasi eksperimen.
e. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin penanganan data.
f. Memiliki GUI, command line mode, dan Java API yang dapat dipanggil dari program lain.[13]
RapidMiner (YALE) adalah perangkat lunak open source untuk knowledge discovery dan data mining. Rapidminer memiliki kurang lebih 400 prosedur (operator) data mining termasuk operator untuk masukan, output, data preprocessing dan visualisasi (Sulianta, dkk 2010:101).[14]
Beberapa fitur dari rapidminer, antara lain: 1. Berlisensi gratis (open source).
2. Multiplatform karena diprogram dalam bahasa Java.
3. Internal data berbasis XML sehingga memudahkan pertukaran data eksperimen.
4. Dilengkapi dengan scripting language untuk otomatisasi eksperimen.
5. Memiliki GUI (Graphical User Interface), command line mode (batch mode), dan Java API yang dapat dipanggil dari program lain.
6. Dapat dikembangkan dengan menambahkan plugin dan ekstension. 7. Fasilitas plotting untuk visualisasi data multidimensi dan model.
Gambar 2.7 RapidMiner
2.1.14. PHP
Menurut dokumen resmi PHP, PHP merupakan singkatan dari PHP Hypertex
Processor. PHP merupakan bahasa berbentuk skrip yang ditempatkan dalam server
dan diproses di server. Bermula pada tahun 1994 saat Rasmus Lerdorf membuat sejumlah skrip perl yang dapat mengamati siapa saja yang melihat-lihat riwayat hidupnya. Skrip-skrip ini selanjutnya dikemas mejadi tool yang disebut “Personal
Home Page“. Paket inilah yang menjdi cikal bakal PHP. Pada tahun 1995, Rasmus
menciptakan PHP/FI versi 2. Pada versi ini pemogram dapat menempelkan kode terstruktur di dalam tag HTML. Selain itu, kode PHP juga bisa berkomunikasi dengan database dan melakukan perhitungan-perhitungan yang kompleks.
2.1.15. Basis Data (Databases)
Basis data adalah media untuk menyimpan data agar dapat diakses dengan mudah cepat (Rosa A.S dan M.Shalahudin, 2015:43).
Basis data dapat didefinisikan sebagai himpunan kelompok data yang saling berhubungan yang di organisasikan sedemikian rupa agar kelak dapat dimanfaatkan kembali dengan cepat dan mudah. Prinsip utamanya adalah pengaturan data. Tujuan
utamanya kemudahan dan kecepatan dalam pengambilan kembali data. (Priyanto Hidayatullah dan Jauhari Khairul Kawistara, 2017:142).
Elemen basis data pada sistem informasi berfungsi sebagai media untuk penyimpanan data dan informasi yang dimiliki oleh sistem infomasi bersangkutan. Setiap aplikasi dan sistem yang memiliki data di dalamanya (dengan disertai proses manipulasi data berupa insert, delete, edit/update), pasti memiliki sebuah data. (I Putu Agus Eka Pratama, 2014:12).
Berdasarkan pengertian diatas dapat disimpulkan bahwa basis data merupakan media untuk menyimpan sekelompok kumpulan data yang saling berhubungan dan berisi informasi sehingga dapat di akses dengan cepat dan mudah.
2.1.16. MySQL
MySQL (My Structured Query Language) merupakan perangkat lunak sistem
basis data, perangkat lunak ini juga sering disebut DBMS (Database Management
System). Namun berbeda dengan basis data konvensional seperti dbf, dat, dan mdb. MySQL sendiri memiliki beberapa kelebihan diantaranya yaitu multi user, bersifat multithread serta mendukung sistem jaringan.
MySQL adalah program database yang mampu mengirim dan menerima data
dengan sangat cepat dan multiuser.MySQL memiliki dua bentuk lisensi, yaitu free
software dan sharewere. MySQL yang free software bebas digunakan untuk
keperluan pribadi atau usaha tanpa harus membaar atau membeli lisensi, yang berada di bawah lisensi GNU/GPL.
Fitur-fitur dalam MySQL adalah sebagai berikut: a. Multiplatform
MySQL tersedia pada beberapa platform seperti Windows, Linux, Unix,
dan lain sebagainya.
b. Andal, Cepat, dan Mudah Digunakan
MySQL tergolong sebagai server basis data (server yang melayani
yang besar dengan kecepatan tinggi, mendukung banyak sekali fungsi untuk mengakses basis data, dan mudah digunakan.
c. Dukungan SQL
MySQL mendukung perintah SQL (Structured Query Language). SQL
merupakan standar dalam pengaksesan basis data relasional.
2.2. Tinjauan Penelitian
Sebelum memulai penelitian ini, penulis terlebih dahulu melakukan studi kepustakaan dari penelitian-penelitian dan sumber-sumber lain. Dari studi kepustastakaan itu penulis menemukan beberapa penelitian yang mendorong penulis untuk mengangkat tema seperti diatas. Penelitian tersebut yaitu:
1. “Perancangan dan Pembuatan Aplikasi Datamining Berbasis Web Menggunakan Algoritma C4.5 Untuk Memprediksi Kelulusan Mahasiswa S-1 Pada Universitas Darma Persada” yang ditulis oleh Junarto. Penelitian ini bertujuan untuk mengetahui tingkat kelulusan mahasiswa pada Universitas Darma Persada, siapa saja mahasiswa yang lulus tepat waktu, lulus lebih cepat, lulus terlambat dengan menggunakan algoritma C4.5. Peneliti mengambil data training dari data alumni mahasiswa program studi Teknik Informatika Universitas Darma Persada angkatan tahun 2007 dan 2008, sedangkan untuk data testing menggunakan data alumni 2009. Dengan demikian dapatdisimpulkan bahwa data mining dengan algoritma C4.5 dapat diterapkan untuk memprediksi tingkat kelulusan mahasiswa dengan empat kategori yaitu lulus cepat, lulus tepat waktu, lulus terlambat, dan dropout. Aplikasi Data Mining dengan metode klasifikasi algoritma c4.5 ini dapat memproses data mahasiswa menjadi sebuah aturan-aturan yang berguna sebagai masukan penentu keputusan walaupun jumlah data dapat mempengaruhi persentase keakuratannya. Berdasarkan hasil evaluasi dengan membandingkan keputusan asli dengan keputusan hasil mining c4.5, maka dapat dihitung persentase keakuratan sehingga memperoleh nilai sebesar 85%.
2. “Penerapan Algoritma C4.5 pada Program Klasifikasi Mahasiswa Dropout” yang ditulis oleh Anik Andriani. Penelitian ini menggunakan algoritma C4.5 untuk mengklasifikasikan mahasiswa DO (dropout) dan mahasiswa yang masih aktif sebagai acuan dalam membuat kebijakan dan tindakan untuk mengurangi jumlah mahasiswa DO. Kesimpulannya, hasil evaluasi dan validasi dengan confussion marix menunjukkan tingkat akurasi pada algoritma C4.5 sebesar 97,5%. Sedangkan hasil evaluasi dan validasi dengan ROC/AUC menunjukkan nilai lebih dari 0,9 sehingga dapat dimasukkan ke dalam excellent classification. Penerapan rule dari algoritma C4.5 yang digunakan dalam klasifikasi mahasiswa potensi dropout terhadap data baru diperoleh hasil evaluasi dan validasi dengan confussion matrix menghasilkan tingkat akurasi sebesar 90%.
3. “Penerapan Data Mining untuk Analisa Pola Perilaku Nasabah dalam Pengkreditan Menggunakan Metode C4.5 Studi Kasus pada KSU Insan Kamil Demak” yang ditulis oleh Rina Dewi Indah Sari dan Yuwono Sindunata. Penelitian ini ditulis untuk membantu menganalisis perilaku nasabah dalam pengkreditan. Dalam suatu sistem analisa penentuan nasabah perlu dilakukan pendeteksian kriteria-kriteria nasabah yang digunakan untuk menentukan layak atau tidaknya nasabah dalam pengambilan kredit. Hasil yang didapatkan dari uji coba sebanyak 20 data uji dihasilkan 13 data benar dan 7 data salah, sehingga dapat disimpulkan tingkat keakurasian sebesar 65%.
4. “Faktor-Faktor yang Mempengaruhi Penyaluran Kredit Bank Umum di Indonesia” yang ditulis oleh Greydi Normala Sari. Data yang digunakan adalah data sekunder dari Bank umum di Indonesia yang meliputi Dana Pihak Ketiga (DPK), Capital Adequancy Ratio (CAR), Non performing Loan (NPL), kredit, dan BI Rate pada periode Januri 2008-Februari 2012 (bulanan) data time series. Tujuan penelitian ini adalah untuk mengetahui pengaruh Dana Pihak Ketiga (DPK), Capital Adequancy Ratio (CAR), Non Perforing Loan (NPL), dan BI Rate terhadap penyaluran kredit bank umum di Indonesia. DPK berpengaruh positif terhadap penyaluran kredit. Hal ini
ditunjukkan oleh koefisien regresi DPK yaitu sebesar (1.154040). Artinya setiap kenaikan DPK sebesar 1% maka penyaluran kredit akan naik sebesar 1.15%, ceteris paribus. CAR berpengaruh negatif terhadap penyaluran kredit. Hal ini ditunjukkan oleh koefisien regresi CAR yaitu sebesar (0.013287), artinya setiap kenaikan CAR sebesar 1% maka penyaluran kredit akan turun sebesar 0.013%, ceteris paribus. NPL berpengaruh negatif terhadap penyaluran kredit. Hal ini ditunjukkan oleh koefisien regresi NPL yaitu sebesar (-0.021909), artinya setiap kenaikan NPL sebesar 1% maka penyaluran kredit akan turun sebesar 0.021%, ceteris paribus. BI Rate berpengaruh positif terhadap penyaluran kredit. Hal ini ditunjukkan oleh koefisien regresi BI Rate yaitu sebesar (0.016437), artinya setiap kenaikan BI Rate sebesar 1% maka penyaluran kredit akan naik sebesar 0.016%, ceteris paribus. Kesimpulan dari penelitian ini adalah bahwa secara simultan maupun secara parsial variabel DPK, CAR, NPL, BI Rate berpengaruh terhadap penyaluran kredit Bank Umum di Indonesia.
5. “Implementasi Data Mining dengan Algoritma C4.5 untuk Memprediksi Tingkat Kelulusan Mahasiswa” yang ditulis oleh David Hartanto Kamagi dan Seng Hansun. Penelitian ini bertujuan untuk mengetahui tingkat kelulusan mahasiswa pada Universitas Multimedia Nusantara, siapa saja mahasiswa yang lulus tepat waktu, lulus lebih cepat, lulus terlambat atau dropout dengan menggunakan algoritma C4.5. Peneliti mengambil data training dari data alumni mahasiswa program studi Teknik Informatika Universitas Multimedia Nusantara angkatan tahun 2007 dan 2008, sedangkan untuk data testing menggunakan data alumni 2009. Dengan demikian dapatdisimpulkan bahwa data mining dengan algoritma C4.5 dapat diterapkan untuk memprediksi tingkat kelulusan mahasiswa dengan empat kategori yaitu lulus cepat, lulus tepat waktu, lulus terlambat, dan dropout. Aplikasi desktop berhasil memprediksi kelulusan mahasiswa dengan presentase 87,5% dari enam puluh data training dan empat puluh data testing. Hasil prediksi kelulusan dari aplikasi ini dapat membantu bagian program studi untuk mengetahui status kelulusan mahasiswa.
2.3. Bank
Menurut Undang-Undang Republik Indonesia Nomor 10 tahun 1998 pasal 1 ayat 2, Bank adalah badan usaha yang menghimpun dana dari masyarakat dalam bentuk simpanan dan menyalurkannya kepada masyarakat dalam bentuk kredit dan atau bentuk-bentuk lainnya dalam rangka meningkatkan taraf hidup rakyat banyak.
Sedangkan menurut para ahli (Rahmadhani & Mawardi, 2011) Bank merupakan lembaga yang menghubungkan antara pihak yang kelebihan dana dengan pihak yang kekurangan dana, dan memperlancar arus pembayaran, serta mencari keuntungan dari usaha yang dijalankannya.[15]
Selain itu Kasmir (2011:2) berpendapat bahwa “Bank merupakan Lembaga keuangan yang kegiatannya menghimpun dana dari masyarakat dalam bentuk simpanan kemudian menyalurkan kembali ke masyarakat, serta memberikan jasa – jasa bank lainnya”.[16]
Dari definisi diatas dapat disimpulkan bahwa bank adalah suatu Lembaga keuangan yang kegiatannya menghimpun dana dari masyarakat dalam bentuk simpanan. Selanjutnya bank menyalurkan dana tersebut dalam bentuk pinjaman atau kredit serta dapat berfungsi untuk memperlancar lalulintas pembayaran.
2.4. Fungsi Bank
(Konch, 2012) menyatakan bahwa fungsi bank sebagai lembaga intermediasi khususnya dalam penyaluran kredit mempunyai peranan penting bagi pergerakan roda perekonomian secara keseluruhan dan memfasilitasi pertumbuhan ekonomi.[17]
Menurut (Rahmadhani & Mawardi, 2011) secara umum fungsi utama bank adalah menghimpun dana dari masyarakat dan menyalurkannya kembali pada masyarakat untuk berbagai tujuan atau sebagai financial intermediary.[15]