Penentuan Kelayakan Debitur Menggunakan Metode Decision Tree C4.5 Dan Oversampling Adaptive Synthetic (ADASYN)

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya 3712

Penentuan Kelayakan Debitur Menggunakan Metode Decision Tree C4.5 Dan Oversampling Adaptive Synthetic (ADASYN)

Farhan Setya Dhitama¹, Fitra A. Bachtiar²

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: ¹[email protected], ²[email protected]

Abstrak

Kredit adalah kegiatan atau layanan yang tidak bisa lepas dari kehidupan pada era saat ini. Kredit juga dapat diartikan sebagai pinjaman uang, barang, atau jasa yang memiliki batas perjanjian waktu sendiri dan dapat menyertakan jaminan maupun tidak. Saat ini sudah banyak perusahaan di Indonesia yang menyediakan jasa kredit. Salah satu tantangan bagi perusahaan yang bergerak di penyediaan kredit adalah kredit yang menunggak. Kurang tepatnya penilaian pada awal debitur ingin mengajukan kredit menjadi penyebab dari kredit yang menunggak itu sendiri. Adanya penelitian ini bertujuan untuk melakukan analisis dan penentuan keputusan kelayakan calon debitur untuk menerima pemberian kredit pada bank penyedia kredit di Lamongan. Pada sistem pengambilan keputusan dalam pemberian kelayakan kredit, metode Decision Tree C4.5 digunakan untuk mengklasifikasikan ke dalam kelas diterima atau ditolaknya calon debitur dan juga menggunakan metode Adaptive Synthetic (ADASYN) untuk melakukan proses oversampling pada kelas minoritas, karena sangat data yang mendapatkan keputusan ditolak tidak seimbang jumlahnya dengan data yang mendapat keputusan diterima kreditnya.

Penelitian ini menggunakan metode Decision Tree C4.5 sebagai teknik pengklasifikasikan kelayakan debitur dan metode ADASYN sebagai teknik oversampling pada data yang memiliki minority class.

Fitur-fitur pada data yang digunakan adalah Character, Capital, Capacity, Condition, Collateral, Usia, dan Tanggungan. Data yang akan digunakan untuk perhitungan klasifikasi akan dinormalisasi terlebih dahulu menggunakan persamaan Z-Score agar persebaran data tidak terlalu lebar. Penelitian ini berhasil mengembangkan sistem yang dapat mengklasifikasi kelayakan debitur menggunakan metode Decision Tree C4.5 dan Adaptive Synthetic (ADASYN) untuk oversampling pada imbalance class. Hasil pengujian menunjukkan evaluasi terbaik didapatkan ketika pembagian data minor pada training berjumlah 5 dan pada testing berjumlah 2 dan untuk parameter klasifikasi depth bernilai 1 dan k bernilai 3. Accuracy, Precision, Recall, dan F-Measure yang didapatkan pada penelitian ini adalah Accuracy mendapatkan nilai 90%, Precision 100%, Recall bernilai 89%, dan F-Measure bernilai 94%.

Kata kunci: kredit, debitur, klasifikasi, Decision Tree C4.5, imbalance class, oversampling, Adaptive Synthetic (ADASYN)

Abstract

Credit is an activity or service that cannot be separated from life in the current era. Credit can also be interpreted as a loan of money, goods or services that have a limited time agreement and may include guarantees or not. Nowadays there are many companies in Indonesia that provide credit services. One of the challenges for companies engaged in credit provision is the credit that is delinquent. Less precisely judgment at the beginning debtors want to apply for credit being the cause of the credit that delinquent itself. This research aims to analyze and determine the feasibility decision of prospective debtor to receive credit from the credit provider bank in Lamongan. In the decision making system of credit eligibility, the method of decision Tree C 4.5 was used to classify into accepted classes or rejection potential debtors and also use Adaptive Synthetic (ADASYN) methods to perform oversampling processes on minority classes, as highly data that has been rejected is unbalanced in number with data that received credit decisions. The study uses the Decision Tree C 4.5 method as the debtor feasibility technique and the ADASYN method as an oversampling technique on the data that has the minority class. The features of the data used are Character, Capital, Capacity, Condition, Collateral, Age, and Dependents. The data to be used for classification calculations will be normalised using the Z-Score equation so that the data spread is not too wide. This research successfully develops a system that can classify debtor's eligibility using the Decision Tree C 4.5 and Adaptive Synthetic

(2)

Fakultas Ilmu Komputer, Universitas Brawijaya

(ADASYN) methods for oversampling in the imbalance class. The test results show the best evaluation gained when the minor data sharing in training is 5 and in the testing amount of 2 and for the depth classification parameter of 1 and k is worth 3. Accuracy, Precision, Recall, and F-Measure obtained in this research is the Accuracy of getting 90%, Precision 100%, Recall worth 89%, and F-Measure is worth 94%

Keywords: Credit, debtor, classification, Decision Tree C 4.5, imbalance class, oversampling, Adaptive Synthetic (ADASYN)

1. PENDAHULUAN

Setiap orang memiliki kebutuhan harian yang berbeda. Kebutuhan yang berbeda-beda tersebut meningkatkan peluang terjadi bertambahnya biaya yang tidak biasa dalam keseharian. Oleh karena itu, banyak orang yang membutuhkan kredit untuk mengurangi penunggakan biaya yang dikeluarkan dalam sehari. Kredit atau pinjaman adalah penggunaan uang atau barang yang diberikan pada saat tertentu dapat berupa jasa, bunga, atau tanpa bunga berserta jaminan atau tanpa jaminan (Kasmir, 1999).

Salah satu tantangan yang dihadapi oleh perusahaan dalam menghadapi kredit adalah terjadinya kredit macet atau Non-Performing Loan. Permasalahan ini terjadi ketika debitur tidak mampu membayar kredit sesuai dengan kontrak yang ditetapkan. Menurut data statistic dari OJK, pada akhir 2018, kredit macet fintech berada di kisaran 1,5%. Pada Januari 2019 dan Februari 2019 naik mendekati 2% dan sampai 3,18%.

Untuk mengatasi permasalahan ini, perlu dilakukan penentuan kelayakan debitur.

Penentuan ini akan dilakukan dengan metode machine learning yaitu dengan Decision Tree C4.5 dan ADASYN. Pada penelitian sebelumnya yang membahas penentuan kelayakan pemberian kredit dengan metode Naïve Bayes didapatkan akurasi sebesar 79,84 % dengan data mentah, 88,61% dengan data yang sudah dilakukan tahap pre-processing, dan 90,28%

dengan data yang sudah dilakukan preprocessing dan dikonversikan (Kurniawan &

Mahendra, 2015). Terdapat pula penelitian mengenai perbandingan 3 metode kelasifikasi yang didapati akurasi paling tinggi yaitu menggunakan metode Decision Tree dengan rata-rata akurasi di seluruh data yang digunakan adalah 85,76% dibandingkan menggunakan metode Naïve Bayes hanya menghasilkan rata- rata akurasi sebesar 71,59% (Arifin, 2009).

Decision Tree C4.5 merupakan metode

klasifikasi yang memiliki performa baik dalam hal mengklasifikasikan data seimbang, akan tetapi Decision Tree C4.5 terkadang juga digunakan untuk proses klasifikasi pada data yang tidak seimbang antara banyak data minority class dan majority class. Seperti pada penelitian yang mengklasifikasikan macam- macam kendaraan berdasarkan siluet dan diabetes di India menggunakan data yang tidak seimbang dan dilakukan klasifikasi menggunakan metode Decision Tree, didapatkan hasil pengujian yang hanya dengan Decision Tree mendapatkan akurasi 92%, menggunakan oversampling SMOTE mendapatkan akurasi sebesar 92%, dan untuk oversampling dengan ADASYN mendapatkan akurasi sebesar 93%, sedangkan masing-masing pada data diabetes mendapatkan 68%, 66%, dan 69% (He, Bai, Garcia, & Li, 2008). Jadi pada kasus tersebut untuk data yang tidak seimbang lalu dilakukan oversampling dengan ADASYN akurasinya naik 1% dibandingkan yang hanya menggunakan metode Decision Tree.

Berdasarkan pengamatan mengenai permasalahan kredit pada paragraf kedua dengan membandingkan kedua jurnal di atas maka judul yang tepat untuk penelitian ini adalah

“Penentuan Kelayakan Debitur Menggunakan Metode Decision Tree C4.5 dan Oversampling Adaptive Synthetic (ADASYN)”. Dalam penelitian ini algoritma Decision Tree C4.5 akan digunakan untuk mempelajari data kredit score calon debitur sebelumnya yang telah ditentukan dan menentukan kelayakan dari debitur yang nantinya akan menghasilkan debitur dapat diberikan pinjaman atau tidak.

2. LANDASAN TEORI 2.1. Kredit

Kredit berasal dari kata latin yaitu credo atau credere yang dapat diartikan peminjaman uang, barang, maupun jasa dalam jangka waktu tertentu dengan kesepakatan kedua belah pihak (pengkredit dan pemberi kredit).Menurut Kasmir (1999), Kredit atau pinjaman adalah

(3)

penggunaan uang atau barang yang diberikan pada saat tertentu dapat berupa jasa, bunga, atau tanpa bunga berserta jaminan atau tanpa jaminan. Dalam penentuan kelayakan kredit, ada beberapa faktor yang menentukan apakah kredit seseorang diterima atau ditolak. Kelima faktor (5C) antara lain Character, Capacity, Capital, Condition, dan Collateral (Sembiring, 2007).

2.2. Normalisasi

Normalisasi merupakan satu langkah yang sangat berguna untuk membatasi nilai pada semua fitur dalam rentang yang sudah ditentukan. Normalisasi juga dapat meningkatkan akurasi dan efisiensi pada algoritme klasifikasi. Normalisasi didapat dengan menghitung mean dan standar deviasi dari suatu data (KumarSingh, 2015). Persamaan untuk menghitung mean dapat dilihat pada Persamaan 1.

𝑥̅ = ∑ 𝑋_𝑖 𝑛

(1)

Keterangan:

𝑋_𝑖 = data ke-i, dengan i=1,2,...,n 𝑥̅ = mean

Persamaan untuk menghitung standar deviasi dapat dilihat pada Persamaan 2.

𝜎

= √∑^𝑛_𝑖=1(𝑋𝑖− 𝑥̅)²

𝑛 − 1 (2)

Keterangan:

𝑋_𝑖 = data ke-i, dengan i=1,2,...,n 𝑥̅ = mean

𝑛 = banyaknya data

Perhitungan nilai Z mengikuti pada Persamaan 3.

𝑍 = 𝑋_𝑖− 𝑥̅

𝜎 (3)

Keterangan:

𝑋_𝑖 = data ke-i, dengan i=1,2,...,n 𝑋⁻ = mean

𝜎 = standar deviasi

2.3 Imbalance Class

Imbalance class merupakan

ketidakseimbangan dalam jumlah data training antara dua kelas yang berbeda, salah satu kelasnya merepresentasikan jumlah data yang sangat besar (mayority class) sedangkan kelas yang lainya merepresentasikan jumlah data yang sangat kecil (minority class) (Irawan, Bijaksana,

& Darmantoro, 2007). Salah satu langkah yang dapat dilakukan untuk mengatasi permasalahan tersebut adalah mengambil sampel secara acak dari dataset training. Dua pendekatan yang biasa digunakan adalah dengan menghapus contoh dari kelas mayoritas, yang disebut undersampling, dan untuk menduplikasi contoh dari kelas minoritas, yang disebut oversampling.

Pada penelitian kali pendekatan yang dilakukan adalah dengan menggunakan oversampling.

Oversampling bertujuan untuk meningkatkan sampel kelas minoritas sampai sama dengan kelas mayoritas lain dengan menduplikasi secara acak sampel kelas minoritas (He et al., 2018).

2.3.1 Adaptive Syntethic (ADASYN)

ADASYN merupakan metode untuk pendekatan sampling pada pembelajaran dengan dataset yang tidak seimbang (He, Bai, Garcia, &

Li, 2008). Ide utama dari ADASYN adalah menggunakan bobot distribusi untuk data pada kelas minoritas berdasarkan pada tingkat kesulitan pembelajaran data oleh model, di mana data sintesis dihasilkan dari kelas minoritas yang susah untuk belajar dibandingkan dengan data minoritas yang lebih mudah untuk belajar (He, Bai, Garcia, & Li, 2008). Langkah – langkah yang dilakukan dalam proses Adaptive Synthetic dalam penelitian ini sebagai berikut:

1. Menentukan nilai parameter dari ADASYN, yaitu nilai dth (nilai dari maksimal toleran data tidak seimbang) dan B (nilai dari level keseimbangan).

2. Menghitung derajat keseimbangan dengan rumus berikut.

𝑑 = 𝑚𝑟

𝑚𝑥 (4)

Keterangan:

d = derajat keseimbangan

mr = jumlah data yang memiliki kelas minoritas

mx = jumlah data yang memiliki kelas mayoritas

(4)

3. Memeriksa kondisi apakah nilai d (derajat keseimbangan) kurang dari dth (nilai dari maksimal toleran data tidak seimbang).

4. Menghitung banyaknya data sintetis yang akan dibuat dengan rumus berikut.

𝐺 = (𝑚𝑥 − 𝑚𝑟) × 𝐵 (5) Keterangan:

G = banyaknya sintetis data yang akan dibuat

mr = jumlah data yang memiliki kelas minoritas

mx = jumlah data yang memiliki kelas mayoritas

B = level keseimbangan

5. Menghitung rasio berdasarkan k-nearest neighbor menggunakan euclidean distance.

𝑟 =∆

𝑘 (6)

Keterangan:

r = rasio

Delta = jumlah data yang bukan termasuk minority class pada hasil KNN K = jumlah ketetanggaan

6. Menormalisasi nilai ratio untuk mendapatkan nilai density distribution.

𝑟𝑥 = 𝑟 × ∑ 𝑟

(7) Keterangan:

Rx = density distribution R = ratio

∑ 𝑟 = jumlah

7. Menghitung banyaknya data sintesis yang akan dibuat untuk setiap data minority.

𝑔 = 𝑟𝑥 × 𝐺 (8)

Keterangan:

g = banyaknya data sintetis dari minority class

Rx = density distribution

G = banyaknya data sintetis yang dapat dibuat

8. Melakukan perulangan sebanyak g yang memilih satu xu (data minor) berdasarkan xi (ketetanggaan data) yang sedang dilakukan perulangan dan

membuat data sintesis dengan persamaan

𝑠 = 𝑥_𝑖× (𝑥_𝑢− 𝑥_𝑖) × λ (9) Keterangan:

S = data sintetis baru

𝑥_𝑖 = data minority class yang masuk ke dalam perulangan

𝑥𝑢 = data dari data latih yang dipilih secara acak

λ = angka acak dari 0 sampai 1

2.3.2 K-Nearest Neighbour (KNN)

K-Nearest Neighbor (KNN) adalah metode klasifikasi yang merupakan algoritme supervised karena data yang akan diklasifikasikan berdasarkan banyaknya kedekatan jarak dengan mayoritas kelas (Santoso, 2007). Berikut ini merupakan langkah- langkah penerapan KNN pada penelitian.

1. Menentukan nilai parameter dari KNN, yaitu nilai k (jumlah data yang akan dipilih berdasarkan jarak terdekat), x (data yang akan dipelajari dan dihitung jaraknya), dan xi (data yang dipakai untuk dicari data terdekatnya dari data x).

2. Melakukan perulangan berdasarkan banyak data x. Pada perulangan ini didapatkan jarak dari data xi ke setiap data x dengan persamaan euclidean berikut.

𝐸(𝑥, 𝑦) = √∑(𝑥_𝑖− 𝑦_𝑖)²

𝑛

𝑖=1

(10)

3. Mengurutkan jarak yang sudah didapat dari terkecil sampai terbesar.

4. Memilih data sebanyak k sesuai urutan pada nomor 3.

2.4. Decision Tree

Decision Tree atau biasa disebut pohon keputusan adalah metode klasifikasi yang menggunakan hierarki struktural (struktur pohon). Konsep umum dari Decision Tree adalah mengubah data menjadi aturan-aturan keputusan. Manfaatnya ialah memecah proses pengambilan keputusan dari yang kompleks menjadi sederhana. Dalam metode Decision

(5)

Tree, ada beberapa istilah yang harus dipahami, yaitu sebagai berikut (Jain, 2017).

1. Root Node: Merupakan node yang mewakili seluruh populasi atau sampel yang selanjutnya dibagi menjadi dua set homogen atau lebih. Node ini merupakan node yang berada paling atas pada pohon keputusan.

2. Splitting: Merupakan proses pembagian node menjadi dua atau lebih menjadi sub-node.

3. Decision Node: Sub-node yang terbagi menjadi beberapa sub-node.

4. Leaf / Terminal Node: Node tanpa anak (tidak ada pemisahan lebih lanjut) disebut Leaf atau Terminal node.

5. Pruning: Mengurangi ukuran Decision Tree dengan menghapus node.

6. Branch / Sub-Tree: Sub bagian dari pohon keputusan

7. Parent dan Child Node: Node yang dibagi menjadi sub-node disebut parent node dan sub-node tersebut disebut sebagai child node.

2.4.1 Entropy

Entropy adalah perhitungan yang digunakan untuk menentukan seberapa informatif atribut yang ada dengan menghitung homogenitas sampel. Apabila sampel benar- benar homogen, nilai entropi adalah nol dan apabila sampel dibagi rata, nilai entropy adalah satu. Persamaan untuk menghitung nilai entropy dapat dilihat pada Persamaan 11.

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 = − ∑ 𝑙𝑜𝑔2 𝑝(𝑤𝑖|𝑠)

𝑛

𝑖=1

(11)

Keterangan:

𝑝 : Jumlah semua row data pada label class ke i.

𝑤𝑖 : features s : Data training

2.4.2 Information Gain

Information Gain adalah perhitungan yang membantu dalam pemilihan atribut sebagai akar dalam Decision Tree dan kuantitas statistik yang mengukur seberapa baik suatu atribut

mengklasifikasikan data. Persamaan 22 menunjukkan perhitungan Information Gain.

𝐼𝐺(𝑡) = − ∑^𝑚_𝑖=1𝑃(𝐶_𝑖)log 𝑃(𝐶_𝑖) +

𝑃(𝑡) ∑^𝑚_𝑖=1𝑃(𝐶_𝑖|𝑡)log (𝑃(𝐶_𝑖|𝑡) + 𝑃(𝑡̅) ∑^𝑚 𝑃(𝐶_𝑖|𝑡̅)log 𝑃(𝐶_𝑖|𝑡)̅

𝑖=1 (22)

Keterangan:

𝑡 : term unik.

𝑚 : banyaknya kelas.

𝐼𝐺(𝑡) : nilai Information Gain dari term 𝑡.

𝑃(𝐶_𝑖) : peluang dari kelas 𝐶_𝑖 yang dihitung berdasarkan bagian dokumen yang termasuk kelas 𝐶_𝑖.

𝑃(𝑡) : peluang kemunculan dari term 𝑡.

𝑃(𝐶_𝑖|𝑡) : peluang kelas 𝐶_𝑖 dengan syarat kemunculan term 𝑡 yang dihitung berdasarkan bagian dokumen dengan kelas 𝐶_𝑖 yang memiliki kemunculan term 𝑡 minimal satu kali.

𝑃(𝑡̅) : peluang term 𝑡 tidak muncul.

𝑃(𝐶_𝑖|𝑡̅) : peluang kelas 𝐶_𝑖 dengan syarat tidak mengandung term 𝑡 yang dihitung berdasarkan bagian dokumen dengan kelas 𝐶_𝑖 namun tidak memiliki term 𝑡.

2.5. Evaluasi Confusion Matrix

Dalam menentukan ukuran kualitas dari sebuah klasifikasi dapat menggunakan Confusion Matrix. Confusion Matrix adalah matriks yang dapat mencatat seberapa banyak benar dan salahnya suatu algoritma dalam melakukan klasifikasi (Sokolova, Japkowicz and Szpakowicz, 2006). Pada penelitian ini digunakan evaluasi Accuracy, Precision, Recall, dan F-Measure yang dicakup dalam metode Confusion Matrix dimana variabel yang digunakan adalah sebagai berikut :

Gambar 1 Confusion Matrix Keterangan:

True Positive (TP): Jumlah kelas yang semula masuk kelas positif diklasifikasikan sebagai kelas positif oleh sistem.

True Negatives (TN): Jumlah kelas yang semula masuk kelas negatif diklasifikasikan

(6)

sebagai kelas negatif oleh sistem.

False Positive (FP): Jumlah kelas yang semula masuk kelas negatif diklasifikasikan sebagai kelas positif oleh sistem.

False Negatives (FN): Jumlah kelas yang semula masuk kelas positif diklasifikasikan sebagai kelas negatif oleh sistem.

Evaluasi precision ialah tingkat ketepatan informasi yang dikeluarkan oleh sistem. Nilai precision didapat dengan mengidentifikasi jumlah data yang relevan dari output yang diterima. Nilai evaluasi precision didapat dari persamaan precision sebagai berikut.

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒

true positive+𝑓𝑎𝑙𝑠𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 (23) Evaluasi recall merupakan tingkat keberhasilan terhadap kesesuaian informasi yang didapat dari output. Nilai recall diperoleh dengan mencari jumlah data relevan yang diterima. Nilai evaluasi recall didapat dari persamaan recall sebagai berikut.

𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒

𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝑓𝑎𝑙𝑠𝑒 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒 (24) Evaluasi f-measure merupakan bobot harmonik nilai mean dari recall dan precision.

Nilai precision akan dilambangkan P dan nilai recall akan dilambangkan R pada persamaan F- Measure. Nilai evaluasi F-measure didapat dari persamaan berikut.

𝐹 − 𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 2 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙 (25) Evaluasi accuracy adalah tingkat ketepatan prediksi dengan benar berdasarkan data aktual.

Nilai evaluasi accuracy didapat dari persamaan accuracy sebagai berikut.

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = ^{𝑇𝑃+𝑇𝑁}

𝑇𝑃+𝐹𝑃+𝑇𝑃+𝐹𝑁 (26) Keterangan:

TP: True Positive TN: True Negative FP: False Positive FN: False Negative

3. METODOLOGI 3.1 Tipe Penelitian

Penelitian yang dilakukan merupakan tipe penelitian non- implementatif analitik.

Penelitian non-implementatif adalah tipe penelitian yang memiliki tujuan untuk mengidentifikasi hubungan antar elemen dalam

objek yang digunakan sebagai dasar untuk mengambil keputusan. Fokus masalah pada penelitian ini berupada klasifikasi kelayakan debitur menggunakan metode Decision Tree C4.5 dan Adaptive Syntehtic (ADASYN).

3.2 Teknik Pengumpulan Data

Penelitian ini menggunakan teknik studi dokumen di mana data mentah yang digunakan adalah data sekunder yang berasal dari penelitian yang dilakukan oleh Ilahiyah (2018). Data yang digunakan adalah data debitur Bank A. Data tersebut berupa nilai 5C (Character, Conditional, Capital, Capacity, Collateral, Condition), usia, tanggungan dari nasabah tahun 2012. Jumlah record data yang diperoleh adalah sebesar 63 data yang didalamnya sudah termasuk data kelas “tolak” dan “terima”.

Terdapat 7 data yang termasuk ke dalam kelas

“tolak” dan 56 data yang termasuk ke dalam kelas “terima”.

3.3 Perancangan Sistem

Bahasa pemrograman yang akan digunakan adalah Python dan akan diimplementasikan pada IDE Jupyter Notebook. Pertama-tama dataset dilakukan preprocessing untuk menormalisasi data dengan metode Z-Score. Kemudian dilakukan oversampling dengan metode ADASYN. Dalam tahap implementasi, terjadi proses dalam membuat machine learning yang digunakan untuk klasifikasi kelayakan debitur dengan menggunakan metode Decision Tree C4.5. Tahapan terakhir adalah melakukan evaluasi terhadap model. Alur sistem secara keseluruhan dapat dilihat pada Gambar 2.

(7)

Gambar 2 Diagram Alir Sistem 3.4 Metode Evaluasi

Jelaskan dibagian ini tentang metode evaluasi yang digunakan untuk evaluasi model 4. HASIL DAN ANALISIS

Pengujian yang dilakukan ialah dengan menghitung nilai Accuracy, Precision, Recall, dan F-Measure. Pengujian nilai-nilai tersebut dibagi menjadi beberapa fase yaitu dengan nilai balance level (B) dari parameter Oversampling Adaptive Synthetic (ADASYN) adalah 1, 2, 3, 4, 5 yang menyatakan setiap nilainya berapa ratus persenkah data minority class akan dibentuk data sintetiknya yang sebelumnya data sudah dilakukan splitting terhadap training dan testing berdasarkan banyaknya data minority class untuk mencari tahu pengaruh dari banyaknya data minority class dalam proses training menggunakan metode Oversampling Adaptive Synthetic (ADASYN) sampai metode klasifikasi Decision Tree C4.5 dan juga dilakukan pengujian terhadap parameter depth dari Decision Tree C4.5 untuk mencari nilai depth terbaik dalam klasifikasi calon debitur. Nilai depth yang dilakukan pengujian adalah 1, 2, 3, 5 ,7.

4.1 Pengujian Nilai B pada ADASYN

Pengujian dilakukan untuk menentukan parameter terbaik dalam mengklasifikasi calon debitur. Pengujian ini dilakukan pembagian dataset dengan perbandingan data minor untuk data training dan data testing. Setiap nilai B akan diuji pada setiap perbandingan data minor pada training dan testing dan akan menghasilkan Accuracy, Precision, Recall, dan F-Measure.

Nilai B yang digunakan pada Oversampling Adaptive Synthetic (ADASYN) adalah 0, 1, 2, 3, dan 5. Sedangkan nilai pada parameter K adalah 7, nilai dth adalah 0.5, dan nilai depth adalah 2.

Hasil pengujian nilai B pada data minor training 5 dan testing 2 dapat dilihat pada Tabel 1 sedangkan untuk hasil pengujian nilai B pada data minor training 6 dan testing 1 dapat dilihat pada Tabel 2.

Tabel 1 Hasil pengujian dengan data minor pada training 5 dan testing 2

Data Minor Training 5 & Testing 2 Nilai

B

Accuracy Precis ion

Recall F- Measure

0% 0,9 0,89 1 0,94

100% 0,9 0,89 1 0,94

200% 0,9 0,89 1 0,94

300% 0,9 0,89 1 0,94

400% 0,9 0,89 1 0,94

500% 0,9 0,89 1 0,94

Berdasarkan hasil pengujian, dapat disimpulkan bahwa nilai B yang berubah-ubah tidak berpengaruh kepada pengujian. Nilai Accuracy yang didapat adalah 90%, nilai Precision 89%, nilai Recall 100%, nilai F- Measure 94%.

Data Minor Training 6 & Testing 1 Nilai

B

Accuracy Precis ion

Recall F- Measur

e

0% 0,9 1 0,89 0,94

100% 0,9 1 0,89 0,94

200% 0,9 1 0,89 0,94

300% 0,9 1 0,89 0,94

(8)

400% 0,9 1 0,89 0,94

500% 0,9 1 0,89 0,94

Berdasarkan hasil pengujian, dapat disimpulkan bahwa nilai B yang berubah-ubah tidak berpengaruh kepada pengujian. Nilai Accuracy yang didapat adalah 90%, nilai Precision 100%, nilai Recall 89%, nilai F-Measure 94%.

4.2 Pengujian Nilai Depth Tree pada Decision Tree C4.5

Pengujian ini akan mencari nilai depth terbaik berdasarkan nilai Accuracy, Precision, Recall, F-Measure yang didapat selama percobaan. Dalam percobaan ini akan menggunakan data pada pengujian dengan data minor training berjumlah 5 dan testing berjumlah 2 dikarenakan pada percobaan sebelumnya didapatkan nilai Accuracy, Precision, Recall, dan F-Measure terbaik pada pembagian data pada percobaan ini. Hasil pengujian depth dapat dilihat pada Tabel 3.

Dep th

Accurac y

Precisio n

Recall F-

Measure

1 90% 89% 1 94%

2 90% 89% 1 94%

3 90% 89% 1 94%

5 90% 89% 1 94%

7 90% 89% 1 94%

Berdasarkan hasil pengujian pada Tabel diatas, maka nilai depth yang terbaik untuk klasifikasi calon debitur pada depth = 1 dikarenakan jika nilai depth lebih dari 1 untuk nilai Accuracy, Precision, Recall, dan F- Measure yang didapat tidak berubah.

4.5 Analisis Hasil

Berdasarkan percobaan sebelumnya mengenai pengaruh banyak data minor yang terbagi dalam data training jugatesting dan pengaruh nilai B pada proses Oversampling Adaptive Synthetic (ADASYN) didapatkan nilai terbaik pada evaluasi Accuracy adalah 90% pada seluruh percobaan dengan perbandingan data minor untuk training dan testing yang berbeda- beda yang menunjukkan perbedaan penyebaran data minor dan perubahan nilai B tidak

berpengaruh pada Accuracy , sedangkan untuk nilai terbaik pada evaluasi Precision adalah 100% pada data yang memiliki perbandingan minor 5 pada training dan 2 pada testing yang menunjukkan pada data ini terdapat pembagian yang memiliki variasi berbeda dengan pembagian yang lainnya sehingga dapat mempengaruhi ketika dilakukan testing, dan pada evaluasi Recall yang terbaik bernilai 100%

pada data seluruh percobaan kecuali pada data yang memiliki perbandingan minor 5 pada training dan 2 pada testingdengan nilai 89%

yang menunjukkan perbedaan pembagian data minor berpengaruh terhadap pembelajaran data, untuk evaluasi F-Measure didapatkan nilai terbesar 94% pada data yang memiliki perbandingan minor 5 pada training & 2 pada testing dan minor 6 pada training & 1 pada testing yang menunjukkan pengaruh banyaknya data minor yang dijadikan untuk training akan lebih baik pada saat digunakan pada klasifikasi dengan Decision Tree C4.5. Jadi untuk pengaruh pembagian data minor pada training dan testing cukup berpengaruh untuk membantu dalam hal pembelajaran model, semakin banyak variasi data minor yang dipelajari akan semakin baik model klasifikasi yang didapatkan dari metode Decision Tree C4.5, sedangkan untuk variasi nilai B pada proses Oversampling tidak berpengaruh pada seluruh percobaan karena data yang digunakan tidak cukup bervariasi dalam pembentukan data sintetik yang baru.

Pada pengujian nilai depth tree yang digunakan pada klasifikasi calon debitur didapatkan bahwa depth yang terbaik ialah 1 dikarenakan untuk klasifikasi pada data calon debitur yang digunakan hanya mendapat kan 1 branch jadi untuk 𝑑𝑒𝑝𝑡ℎ lebih dari 1 tidak akan berpengaruh pada hasil evaluasi Accuracy, Precision, Recall, maupun F-Measure. Branch yang dihasilkan hanya 1 disebabkan oleh adanya pembagian data untuk node kanan 4 dan node kiri 4 dan datanya sangat heterogen yang tidak memiliki hasil kelas yang sama antara tolak dan terima dan menghasilkan entrophy terkecil sedangkan nilai information gainnya terbesar, jadi untuk information gain yang terbesar akan digunakan sebagai root tree.

(9)

Gambar 3 Confusion Matrix dari hasil klasifikasi Dari Gambar 3 didapat bahwa hasil klasifikasi dengan perbandingan data minor di training dan testing ialah 5 banding 2 mempunyai error pada klasifikasi data kelas tolak menjadi data kelas terima, hal ini disebabkan oleh salah satu data minor yang digunakan pada saat testing memiliki nilai dari fitur character sama dengan nilai yang memiliki kelas terima, sedangkan untuk data kelas tolak yang benar diklasifikasi sebagai kelas tolak memiliki nilai fitur character yang berbeda sendiri.

Secara keseluruhan metode klasifikasi calon debitur dengan Decision Tree C4.5 yang dibantu oleh Adaptive Synthetic (ADASYN) untuk Oversampling data minor dapat digunakan secara baik untuk menentukan kelayakan calon debitur walaupun tidak melalui proses Oversampling, metode Decision Tree C4.5 cukup baik melakukan klasifikasi dengan data

minor yang tidak seimbang.

5. KESIMPULAN DAN SARAN

Penelitian berhasil merancang sistem klasifikasi kelayakan debitur menggunakan metode Decision Tree C4.5 dan ADASYN.

Penelitian ini menggunakan data hasil preprocessing menggunakan ADASYN untuk melakukan oversampling terhadap data yang memiliki minority class. Proses yang dijalankan pada sistem adalah, membaca data dari file csv, oversampling data dengan ADASYN, menjalankan metode Decision Tree C4.5, dan mendapatkan label dari data yang baru. Hasil pengujian yang didapat dari penelitian menggunakan evaluasi confusion matrix didapatkan yang terbaik ialah data yang sudah dilakukan oversampling dengan ADASYN mendapatkan akurasi 0,9

dibandingkan dengan data yang tidak dilakukan proses oversampling mendapatkan akurasi 0,834.

Menggunakan metode Oversampling lain seperti SMOTE dan Bordeline SMOTE untuk mengetahui apakah dapat memberikan hasil yang lebih bari dari ADASYN. Penggunaan metode klasifikasi lain seperti Random Forest, SVM, atau teknik klasifikasi dengan jaringan syaraf tiruan untuk mengetahui apakah metode klasifikasi lain dapat memberi hasil akurasi lebih baik daripada metode Decision Tree C4.5.

6. DAFTAR REFERENSI

Alvarez, S. A. (2002). An exact analytical relation among recall, precision, and classification accuracy in information retrieval. Diambil kembali dari Research gate:

https://www.researchgate.net/publicatio n/228906049_An_exact_analytical_rela tion_among_recall_precision_and_class ification_accuracy_in_information_retri eval

Aradea, Satriyo, Ariyan, & Yuliana. (2011).

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU.

Arifin, M. Z. (2009). Perbandingan Akurasi Klasifikasi dari Algoritma Niave Bayes, C4.5, dan Oner(1R).

Bhattarai, Y. R. (2016). Effect of non-

performing loan on the profitability of commercial banks in Nepal. Prestige International Journal of Management and Research, 1-9.

Brownlee, J. (2020, January 15). Random Oversampling and Undersampling for Imbalanced Classification. Diambil kembali dari Machine Learning Mastery:

https://machinelearningmastery.com/ra ndom-oversampling-and-

undersampling-for-imbalanced- classification/

Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE

Transactions on Information Theory, 13(1), 21-27.

Fetra, N., & Irsyad, M. (2015). Aplikasi Pencarian Chord dalam Membantu

(10)

Penciptaan Lagu Menggunakan Algoritma Fast Fourier Transform (FFT) dan Metode Klasifikasi K- Nearest Neighbor (KNN). Jurnal CoreIT: Jurnal Hasil Penelitian Ilmu Komputer dan Teknologi Informasi, 30- 36.

Franedya, R. (2019, March 29). Akses Data Nasabah Dibatasi, Kredit Macet Fintech Tembus 3,2%. Diambil kembali dari CNBC Indonesia:

https://www.cnbcindonesia.com/tech/2 0190329133406-37-63690/akses-data- nasabah-dibatasi-kredit-macet-fintech- tembus-32

He, H., Bai, Y., Garcia, E. A., & Li, S. (2008).

ADASYN: Adaptive Synthetic Sampling Approach for Imbalanced.

International Joint Conference on Neural Networks , 1322-1328.

Irawan, A. C., Bijaksana, M. A., &

Darmantoro, D. (2007). ANALISIS ALGORITMA RAREBOOST-1 DALAM KASUS IMBALANCE CLASS. Tugas Akhir Universitas Telkom.

Kasmir. (1999). Bank dan Lembaga Keuangan Lainnya. Jakarta: Raja Grafindo Persada.

Khamis, H. S., Cheruiyot, K. W., & Kimani, S.

(2014). Application of k- Nearest Neighbour Classification in Medical Data Mining . International Journal of Information and Communication Technology Research, 121-128.

Kompasiana. (2015, November). Mengenali Kredit atau Pinjaman. Jakarta:

Kompasiana.

KumarSingh, B. &. (2015). A Investigations on Impact of Feature Normalization Techniques on Classifiers &

Performance in Breast Tumor

Classification. . International Journal of Computer Applications, 11-15.

Kurniawan, A. W., & Mahendra, D. C. (2015).

Klasifikasi Kelayakan Kredit Dengan Menggunakan Metode Naive Bayes.

Linoff, G. S., & Berry, M. J. (2011). Data Mining Techniques (Vol. III).

Indianapolis: Wiley.

Mesarić1, J., & Šebalj, D. (2016). Decision trees for predicting the academic success of students.

Narkhede, S. (2018, May 9). Understanding Confusion Matrix. Diambil kembali

dari Towards Data Science:

https://towardsdatascience.com/underst anding-confusion-matrix-a9ad42dcfd62 Nguyen, H., Cooper, E., & Kamei, K. (2011).

Borderline over-sampling for

imbalanced data. International Jpurnal of Knowledge Engineering and Soft Data Paradigms, 3(1), 4-21.

Quinlan, J. (1987). C4.5 Programs for Machine Learning. San Mateo: Morgan

Kaufmann Publisher.

Riyadi, S., Iqbal, M., & Lauren, N. (2015).

STRATEGI PENGELOLAAN NON PERFORMING LOAN BANK UMUM YANG GO PUBLIC. Jurnal Dinamika Manajemen, 84-96.

Santoso. (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. 1st ed. Yogyakarta: Graha Ilmu.

Sembiring, S. (2007). Arti Penting Jaminan dalam Pemberian Kredit dalam Transaksi Bisnis Perbankan. Jurnal Hukum Gloria Juris, 25-26.