• Tidak ada hasil yang ditemukan

DATA MINING UNTUK NASABAH (PT. XX) MENGGUNAKAN ALGORITMA C4.5

N/A
N/A
Protected

Academic year: 2022

Membagikan "DATA MINING UNTUK NASABAH (PT. XX) MENGGUNAKAN ALGORITMA C4.5"

Copied!
5
0
0

Teks penuh

(1)

1. Pendahuluan.

Kebutuhan dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah dikumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang seperti statistik, kecerdasan buatan, database dan lain sebagainya pada data berskala besar itu yang akhirnya memunculkan metodologi baru yang disebut data mining.

Untuk melakukan analisis karakteristik data nasabah PT. XX dapat digunakan metode data mining, metode tersebut saat ini tersedia cukup banyak, maka yang akan dilakukan dalam data ini adalah algoritma C4.5.

Algoritma C4.5 adalah algoritma klasifikasi data dengan metode pohon keputusan yang memiliki kelebihan misalnya dapat mengolah data numeric (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan dan tercepat diantara algoritma-algoritma yang menggunakan memori utama di komputer.

Klasifikasi sebagai fungsi prediksi dapat diaplikasikan untuk meramalkan kelancaran nasabah di PT. XX. Semakin awal tanda-tanda kelancaran nasabah diketahui semakin baik karena pihak manajemen dapat melakukan perbaikan-perbaikan.

2. Data Mining

2.1 Defenisi Data Mining

Data mining adalah istilah yang digu- nakan untuk menguraikan penemuan pengeta- huan di dalam database. Data mining adalah proses yang menggunakan tehnik statistic, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengi- dentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (kusrini dan Emha Taufiq Luthfi, 2009).

“Menurut Sujana (2010), Data mining adalah sebuah proses untuk menemukan pola atau pengetahuan yang bermanfaat secara otomatis dari sekumpulan data yang berjumlah banyak, data mining sering dianggap sebagai bagian dari Knowledge Discovery in Database (KDD) yaitu sebuah proses mencari pengetahuan yang bermanfaat dari data, proses KDD secara garis besar dapat dijelaskan sebagai berikut :

a) Data Selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, DATA MINING UNTUK NASABAH (PT. XX)

MENGGUNAKAN ALGORITMA C4.5

Masdiana Sagala

Dosen Universitas Katolik St. Thomas Sumatera Utara

ABSTRAKSI

Pada penelitian ini, penulis berusaha menambang data (data mining) nasabah kemudian data yang diperoleh dilakukan klasifikasi pohon keputusan dengan menggunakan algoritma C4.5, untuk memprediksi seorang nasabah apakah Normal Lunas atau Preterminate dalam melunasi kreditnya, dengan menjadikan atribut jenis pembayaran sebagai atribut tujuan, dan atribut gaji, jumlah anak dan jumlah DP sebagai variabel parameter. Pada algoritma C4.5 dilakukan perhitungan entropy dan gain untuk memperoleh node akar dan node lainnya. Penelitian ini menggunakan metode pohon keputusan dengan menggunakan perangkat lunak open source WEKA (Waikato Environment for knowledge Analiysis) algoritma yang digunakan adalah C4.5 (j48 imlementasi di WEKA). Nasabah yang akan diprediksi yaitu nasabah Normal Lunas atau nasabah Preterminate sebagai output yang dihasilkan sedangkan untuk inputan adalah atribut gaji, jumlah anak dan jumlah DP. Dan dari hasil pengujian secara manual dan menggunakan aplikasi WEKA menghasilkan akar yang sama yaitu Jumlah DP sebagai node akar dan jumlah anak sebagai node cabang.

Kata Kunci: data mining, pohon keputusan,algoritma C4.5.

(2)

disimpan dalam suatu berkas, terpisah dari basis data operasional.

b) Pre-processing/ Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Selain itu dilakukan proses enrichment, yaitu proses “memperkaya”

data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

c) Transformation

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses Data mining.

Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

d) Interpretation/ Evaluation

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

e) Decision tree

Decision tree adalah flow-chart seperti struktur tree, dimana tiap internal node menunjukkan sebuah test pada sebuah atribut, tiap cabang menunjukkan hasil dari test, dan leaf node menunjukkan class- class atau class distribution.

3. Pohon Keputusan (Decision Tree)

Pohon Keputusan atau dikenal dengan Decision Tree adalah salah satu metode klasifikasi yang menggunakan representasi suatu struktur pohon yang berisi alternatif- alternatif untuk pemecahan suatu masalah.

Pohon ini juga menunjukkan faktor-faktor yang mempengaruhi hasil alternatif dari keputusan tersebut disertai dengan estimasi hasil akhir bila kita mengambil keputusan tersebut. Peranan pohon keputusan ini adalah sebagai Decision Support Tool untuk membantu manusia

dalam mengambil suatu keputusan (Ratih Ariadni dan Isye Arieshanti) .

4. Algoritma C4.5

4.1 Defensi Algoritma C4.5

Algoritma C4.5 adalah algoritma klasifikasi data dengan metode pohon keputusan yang memiliki kelebihan misalnya dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan dan tercepat diantara algoritma-algoritma yang menggunakan memori utama di komputer (Nurma Jayanti, dkk, 2011).

4.2 Metode Algoritma C4.5

Algoritma C4.5 yaitu sebuah algoritma yang digunakan untuk membangun decision tree (pengambilan keputusan) Algoritma C4.5.

Terdapat 4 langkah dalam menentukan pohon keputusan menggunakan algoritma C4.5

1. Memilih atribut sebagai akar (root) 2. Membuat cabang untuk tiap-tiap nilai 3. Membagi kasus dalam cabang

4. Mengulangi proses dalam setiap cabang, hingga semua kasus dalam cabang memiliki kelas yang sama

Dalam penelitian ini menggunakan metode Algoritma C 4.5 untuk menentukan nasabah dimasa yang akan datang dengan dengan klasifikasi Normal Lunas dan Preterminate sebagai atribut tujuan, atribut parameter indikator gaji, jumlah anak, jumlah DP. dilakukan penghitungan information gain, yang diperoleh dengan terlebih dahulu menentukan nilai entropy seperti pada Rumus 1.

Entropy(S) = * log2 Pi ...(1)

Keterangan:

S : Himpunan kasus

A : fitur

n : jumlah partisi

pi : porporsi dari Si terhadap S Gain(S, A)

= Entropy(S)- *Entropy(Si) ... (2) Keterangan:

S : Himpunan kasus : jumlah kasus pada partisi

A : atribut : Jumlah kasus dalam S n : jumlah partisi atribut A

(3)

4.3 Information Gain

Information gain adalah salah satu atribute selection measure yang digunakan untuk memilih test atribute tiap node pada tree. Atribut dengan information gain tertinggi dipilih sebagai test atribut dari suatu node (Sujana, 2010).

Menghitung jumlah kasus, jumlah kasus untuk keputusan normal lunas, jumlah kasus untuk keputusan preterminate, dan entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut Gaji, Jumlah Anak, dan Jumlah DP setelah itu dilakukan perhitungan Gain untuk setiap atribut, hasil perhitungan ditunjukkan oleh tabel 1

Baris Total kolom Entropy untuk jumlah Anak pada tabel 1 diperoleh dengan permasaan 2 sebagai berikut:

1. Menghitung nilai entropy untuk total Entropy(Total)=(-5/15*log2(5/15))+

(-10/15*log2(10/15)) = - ( 0.333333)*( -1.58496)- ( 0.666667)*( -0.58496)

= 0.9182958

2. Menghitung nilai entropy untuk Gaji 1 Entropy(Gaji)=(-1/1*log2(1/1))+

(-0/1*log2(0/1)) = 0 3. Menghitung nilai entropy untuk Gaji 2 Entropy(Gaji)=(-4/14*log2(4/14))+

(-10/14*log2(10/14)) = 0.8631206

Sementara itu, nilai Gain pada baris gaji dihitung dengan persamaan 1 sebagai berikut:

Gain(Total,Gaji)=Entropy(total) – * Entropy(gaji)

Gain(Total,Gaji)= 0.9182958-((1/15* 0)+

(14/15*0.8631206)) = 0.11271664

4. Menghitung nilai entropy untuk Jumlah Anak 1

Entropy(Jumlah Anak)

=(-5/13*log2(5/13))+(-8/13*log2(8/13)) = 0.9612366

5. Menghitung nilai entropy untuk Jumlah Anak 2

Entropy(Jumlah Anak)

=(-0/2*log2(0/2))+(-2/2*log2(2/2)) = 0

Sementara itu, nilai Gain pada baris gaji dihitung dengan persamaan 1 sebagai berikut:

Gain(Total,Jumlah Anak)

=Entropy(total)– * Entropy(Jumlah Anak)

Gain(Total, Jumlah Anak) = 0.9182958-

((13/15* 0.9612366)+(2/15*0)) = 0.08522411

6. Menghitung nilai entropy untuk Jumlah DP1 Entropy(Jumlah DP)

=(-0/6*log2(0/6))+(-6/6*log2(6/6))=0 7. Menghitung nilai entropy untuk Jumlah DP

2

Entropy(Jumlah DP)

=(-5/9*log2(5/9))+(-4/9*log2(4/9))

= 0.9910761

Sementara itu, nilai Gain pada baris gaji dihitung dengan persamaan 1 sebagai berikut:

Gain(Total,Jumlah DP)

= Entropy(total) – * Entropy(Jumlah DP)

Gain(Total,Jumlah DP)

= 0.9182958-((6/15* 0)+

(9/15*0.9910761)) = 0.3236502

Tabel 1. Perhitungan Node 1

Node

Jumlah Kasus (S)

Normal Lunas (S1)

Preterminate

(S2) Entropy Gain

1.1 Total 15 10 5 0.9182958

Gaji 0.11271664

1 1 0 1 0

2 14 10 4 0.8631206

Jumlah

Anak 0.08522411

1 13 8 5 0.9612366

2 2 2 0 0

Jumlah DP

0.3236502

1 6 6 0 0

2 9 4 5 0.9910761

(4)

Dari hasil pada tabel 4. 1 dapat diketahui bahwa atribut dengan Gain tertinggi adalah Jumlah DP yaitu sebesar 0.3236502 dengan demikian Jumlah DP dapat menjadi node akar.

Ada dua nilai atribut dari jumlah DP yaitu 1 (Jumlah DP <=1000000) dan 2 (Jumlah DP>1000000) dari kedua nilai tersebut, nilai atribut 1 sudah mengklasifikasikan, yaitu keputusannya 6 nasabah Normal Lunas sehingga tidak perlu lagi dilakukan perhitungan lebih lanjut, tetapi untuk atribut 2 masih perlu dilakukan perhitungan lagi. Dari hasil tersebut digambarkan pohon keputusan sementara tampak seperti gambar 1.

Dari tabel 2 dapat diketahui bahwa atribut dengan Gain tertinggi adalah jumlah Anak, yaitu sebesar 0.319760062. Dengan demikian Jumlah anak dapat menjadi cabang dari nilai atribut 2. Untuk atribut Jumlah Anak memiliki dua nilai yaitu 1 (Jumlah Anak <=2) dan 2 (Jumlah Anak > 2 ) untuk Jumlah Anak 1 diklasifikasi yaitu, 5 nasabah Preterminate dan untuk Jumlah Anak 2 mengklasifikasi 2

diklasifikasi yaitu, 5 nasabah Preterminate dan untuk Jumlah Anak 2 mengklasifikasi 2 nasabah Normal Lunas, Jumlah Anak 2 diklasifikasi yaitu, 2 nasabah Normal Lunas Yang dapat gambar pohon keputusan seperti gambar 2

Gambar 2. Pohon Hasil Node 1.1

Gambar 1 Pohon Keputusan Hasil Perhitungan Node 1

Berdasarkan pohon keputusan terakhir yang terbentuk pada gambar 2, maka aturan atau rule yang terbentuk adalah sebagai berikut:

1. Jika Jumlah DP= 1 maka Jenis Pembayaran= Normal Lunas

2. Jika Jumlah DP = 2 dan jumlah Anak =1 maka Jenis Pembayaran= Preterminate 3. Jika Jumlah DP =2 dan Jumlah Anak =2 maka Jenis Pembayaran= Normal Lunas

Berdasarkan dari rule/knowledge yang dihasilkan maka dapat disimpulkan ada rule yang cukup sesuai didalam menentukan lancarnya seorang calon nasabah dalam melunasi kredit yaitu jika jumlah DP=2 (Jumlah DP > 1.000.000) dan jumlah anak =1 (jumlah anak <=2) dimana 7,14% melunasi kredit dengan Preterminate dan 0,285% melunasi kredit Normal Lunas.

5. Hasil Pengujian

Pengujian terhadap hasil analisa, sangat penting untuk dilakukan untuk menentukan dan memastikan apakah hasil analisa tersebut benar atau tidak. Untuk menguji kebenaran dari hasil pengolahan data yang dikerjakan secara manual tersebut dapat menggunakan salah satu software aplikasi WEKA Knowlege Explorer

Tabel 2. Perhitungan Node 1.1

Node

Jumlah Kasus (S)

Normal Lunas (S1)

Preterminate

(S2) Entropy Gain

1.1 Jumlah DP-2 9 4 5 0.9910761

Gaji 0.102187171

1 1 0 1 0

2 8 4 4 1

Jumlah Anak 0.319760062

1 7 2 5 0.8631206

2 2 2 0 0

(5)

Gambar 3. Hasil Visualisasi Tree

Dimana rule yang dihasilkan pada gambar 3 adalah :

1. Jika Jumlah DP <= 1 maka jenis Pembayaran = Normal Lunas

2. Jika Jumlah DP > 1 dan Jumlah anak <=

1 maka jenis Pembayaran = Priterminate 3. Jika Jumlah DP > 1 dan Jumlah anak >

1 maka jenis Pembayaran = Normal Lunas

Dari dua hasil pengujian yang telah dilakukan yaitu proses secara manual dan menggunakan software WEKA 3.5.7 dapat diambil sebuah kesimpulan bahwa hasil pengujian sama karena akar yang dihasilkan menggunakan aplikasi WEKA 3.5.7 sama dengan menggunakan hitungan manual yaitu Jumlah DP sebagai akar dan Jumlah Anak sebagai cabang

6.1 Kesimpulan

1. Karakteristik data nasabah pada PT. XX yang digunakan pada aplikasi WEKA 3.5.7 dapat menghasilkan suatu pohon keputusan dengan metode Algoritma C4.5.

2. Pohon keputusan yang dihasilkan digunakan untuk mengambil keputusan pada nasabah PT. XX dengan menggunakan hasil data mining algoritma C4.5, dan dari pohon keputusan yang dihasilkan digunakan untuk mengambil keputusan untuk nasabah yang Normal Lunas atau Preterminate.

3. Pemilihan variabel parameter dan attribut keputusan yang akan digunakan dalam memprediksi juga sangat mempengaruhi rule atau knowledge yang dihasilkan.

DAFTAR PUSTAKA

Aa Zezen Zaenal Abidin (2011) “Jurnal Implementasi Algoritma C4.5 Untuk Menentukan Tingkat Bahaya Sunami”

Ahmad Saikhun, dkk (2011) “Jurnal Fuzzy Decesion Tree Dengan Algoritma C4.5 Pada Data Diabetes Indian Pima”

Angga Ginanjar Mabrur, Riani Lubis (2012)

“Penerapan Data Mining Untuk Memprediksi Kriteria Nanasah Kredit”

Dana Sulistiyo Kusuma, Moch. Arief Bijaksana, Dhinta Darmawantoro “jurnal Data Mining Dengan Algoritma Apriori Pada RBMS Oracle”

Fitriani (2011) “Tesis Algoritma C4.5 Dalam Data Mining Untuk Menentukan Klasifikasi Calon Mahasiswa Baru”

Kusrini dan Luthfi Taufiq Emha. (2009). “ Algoritma Data Mining”. Yogyakarta : Andi

Mawati Ayup (2007) “Jurnal Proses Data Mining Dalam Sistem Pembelajaran Berbantuan Komputer”

Marselina Silvia Suhartina, Ernastuti (2010)

‘Jurnal Graduation Prediction Of Gunadarma University Studends Using Algorithm And Naïve Bayes C4.5 Algorithm”

Nurma Jayanti, dkk (2008) “Tehnik klasifikasi Pohon keputusan Untuk Memprediksi kebangkrutan Bank Berdasarkan Rasio Keuangan Bank”

Ratih Ariandini, Isye Arishanti “Implementasi Metode Pohon keputusan Untuk Klasifikasi Data Dengan Nilai Fitur Yang Tidak pasti”

Sujana (2010) “Jurnal Aplikasi Mining Data Mahasiswa Dengan Metode Klasifikasi Decesion Tree”

Umi hanik (2011) “Jurnal Fuzzy Decesion Tree dengan Algoritma C4.5 Pada Data Diabetes Indian Pima”

Gambar

Tabel  1. Perhitungan Node 1
Gambar 1  Pohon Keputusan Hasil  Perhitungan Node 1
Gambar 3. Hasil Visualisasi Tree

Referensi

Dokumen terkait

Sesuatu hal dilema dan pilihan yang susah bagi setiap auditor ketika mengusulkan pendapat audit going concern, jika ada kesalahan dilakukan auditor melalui penyampaian opini

Hasil pengujian sitem lama dengan sistem baru di peroleh sistem lama di Desa Sidoharjo tercatat 17KK yang mendapatkan bantuan dari 36KK berati 47% yang

Sebagai contoh, perlu adanya materi “ Penetapan Standar Pelayanan ” karena materi tersebut tercantum dalam buku panduan Diklat BPSDM tahun 2017 3. Tim WI

Oleh karena pasar tidak pernah efisien, maka pasar valuta asing pada kondisi exposure yaitu merupakan suatu kondisi yang terbuka terhadap risiko... Pengembangan Model

Setelah dihitung dengan integer programming didapatkan solusi bahwa jenang yang dimasak dalam satu periode memasak untuk menghasilkan yang paling optimal

Berdasarkan evaluasi yang dilakukan atas peran pengendalian internal terhadap pelaksanaan Good Cooperative Governance (GCG) menunjukkan bahwa pengendalian yang diterapkan

Keragaman genetika yang cukup tinggi dapat di- deteksi dari empat belas aksesi kentang yang diguna- kan dalam penelitian ini.. Sebanyak 60 alel terdeteksi berdasarkan 12

Hal ini mengandung arti bahwa setiap kenaikan Sense pada Experiental Marketing kafe satu satuan maka akan diikuti kenaikan pula pada variabel Y yaitu Word of Mouth