Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme Support Vector Machine Linear Kernel untuk Kasus Imbalanced Data

(1)

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN

ALGORITME SUPPORT VECTOR MACHINE LINEAR KERNEL

UNTUK KASUS IMBALANCED DATA

AVITA UNAIYA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)

(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme Support Vector Machine Linear Kernel

untuk Kasus Imbalanced Data adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, April 2014

Avita Unaiya

(4)

ABSTRAK

AVITA UNAIYA. Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme

Support Vector Machine Linear Kernel untuk Kasus Imbalanced Data. Dibimbing oleh AZIZ KUSTIYO.

Pada penelitian ini dilakukan analisis klasifikasi debitur kartu kredit menggunakan algoritme support vector machine linear kernel yang mampu mengklasifikasikan calon debitur ke dalam kategori baik dan buruk. Data yang digunakan merupakan imbalanced data karena data dari satu kelas mendominasi data yang lain. Algoritme klasifikasi umumnya memberikan kinerja buruk pada

imbalanced data karena kelas minoritas lebih sulit diprediksi dibanding kelas mayoritas. Salah satu cara yang dapat digunakan untuk menangani permasalahan ini adalah dengan strategi sampling menggunakan teknik oversampling dan

undersampling. Penelitian ini membandingkan nilai akurasi, recall, precision, serta F-measure Hasil penelitian menunjukkan nilai akurasi yang cukup tinggi pada data asli sebesar 83.59% namun, nilai recall, precision, dan F-measure yang dihasilkan sebesar 0%. Teknik oversampling acak menunjukkan kinerja terbaik dengan akurasi sebesar 54.14%, recall sebesar 53.47%, precision sebesar 61.30%, dan F-measure sebesar 54.51%.

Kata kunci: imbalanced data, oversampling, support vector machine, undersampling

ABSTRACT

AVITA UNAIYA. Credit Card Debtor Classification using Support Vector Machine Linear Kernel Algotihm for Imbalanced Data. Supervised by AZIZ KUSTIYO.

In this research, classification analysis of credit card debtors is conducted by using support vector machine linear kernel that can classify debtors into two categories good or bad. The data used in this research is imbalanced because most data are from one class. Classification algorithms generally result in poor performance on imbalanced data because the minority class is more difficult to predict than the majority class. One way that can be used to solve this problem is by using a sampling method with oversampling and undersampling technique. This research compares the value of accuracy, recall, precision, and F-measure. The evaluation result shows a fairly high accuracy values in the original data is 83.59% but, the value of recall, precision, and F-measure are 0%. Random oversampling technique gives the best performance with 54.14% accuracy, 53.47% recall, 61.30% precision, and 54.51% F-measure.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada

Departemen Ilmu Komputer

KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN

ALGORITME SUPPORT VECTOR MACHINE LINEAR KERNEL

UNTUK KASUS IMBALANCED DATA

AVITA UNAIYA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(6)

Penguji:

(7)

Judul Skripsi : Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme Support Vector Machine Linear Kernel untuk Kasus Imbalanced Data

Nama : Avita Unaiya

NIM : G64100029

Disetujui oleh

Aziz Kustiyo, SSi MKom Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom Ketua Departemen

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Ungkapan terima kasih penulis sampaikan kepada ayah, ibu, serta seluruh keluarga, atas segala doa dan kasih sayangnya.

Terima kasih penulis ucapkan kepada Bapak Aziz Kustiyo, MKom selaku pembimbing, kepada Ibu Karlina Khiyarin Nisa, MT dan Bapak Wisnu Ananta Kusuma, MT selaku penguji. Terima kasih atas semua bimbingan dan saran yang diberikan dalam menyelesaikan karya ilmiah ini. Terima kasih juga penulis sampaikan kepada Dewi Sri Rahayu, Aisyah Syahidah, Pristi Sukmasetya, Annisa Amalia, Riska Effirokh, dan Ilkomerz 47 atas kerja samanya. Semoga karya ilmiah ini bermanfaat.

Bogor, April 2014

(9)

DAFTAR ISI

DAFTAR TABEL viii

DAFTAR GAMBAR viii

DAFTAR LAMPIRAN viii

PENDAHULUAN 1

Latar Belakang 1

Perumusan Masalah 1

Tujuan Penelitian 2

Manfaat Penelitian 2

Ruang Lingkup Penelitian 2

METODE 2

Pengadaan Data 2

Praproses Data 4

Normalisasi Data 4

Strategi Sampling 4

10-Fold Cross Validation 5

Klasifikasi Support Vector Machine 5

Analisis Hasil Klasifikasi 7

HASIL DAN PEMBAHASAN 8

Praproses Data 8

Strategi Sampling 9

Hasil Klasifikasi 9

Analisis Hasil Klasifikasi 12

Perbandingan dengan Penelitian Sebelumnya 14

SIMPULAN DAN SARAN 15

Simpulan 15

Saran 16

DAFTAR PUSTAKA 16

RIWAYAT HIDUP 26

(10)

DAFTAR TABEL

1 Atribut data 4

2 Confussion matrix dua kelas 7 3 Confussion matrix data asli 12 4 Confussion matrix oversampling acak 13 5 Confussion matrix oversampling duplikasi 13 6 Confussion matrix undersamplingcluster 14 7 Confussion matrix undersampling acak 14

8 Perbandingan dengan penelitian sebelumnya 15

DAFTAR GAMBAR

1 Tahapan penelitian 3

2 Konsep dasar SVM 6

3 Hasil percobaan data asli 9

4 Hasil percobaan oversampling duplikasi 10

5 Hasil percobaan oversampling acak 10

6 Hasil percobaan undersampling acak 11

7 Hasil percobaan undersampling cluster 11

DAFTAR LAMPIRAN

1 Keterangan atribut 18

(11)

PENDAHULUAN

Latar Belakang

Banyak layanan yang diberikan oleh usaha perbankan salah satunya yaitu layanan kredit. Layanan kredit yang diberikan bank kepada debitur di antaranya kredit pemilikan rumah (KPR), kredit kendaraan, kredit usaha mikro, dan kartu kredit. Berdasarkan data penerbit kartu kredit yang dirilis Bank Indonesia (2013), jumlah penerbit kartu kredit mencapai 22 penerbit. Pemberian kredit kepada debitur bisa menimbulkan risiko ketidakmampuan debitur atas kewajiban pembayaran utangnya, baik utang pokok maupun bunganya atau keduanya. Oleh sebab itu, setiap bank melakukan proses analisis dalam menentukan penerimaan pengajuan kredit. Hal ini dilakukan dengan tujuan untuk mengurangi peluang kerugian bank akibat menerima pengajuan kredit yang berpotensi bermasalah.

Berbagai penelitian terkait proses analisis terhadap kredit yang diajukan telah dilakukan. Penelitian-penelitian tersebut dilakukan oleh Anggraini (2013), Wijayanti (2013), dan Ulya (2013) dengan membuat model klasifikasi menggunakan data debitur kartu kredit. Data debitur kartu kredit merupakan data skala besar dengan distribusi kelas tidak merata antara debitur kategori good dan

bad. Anggraini (2013) melakukan klasifikasi dengan pohon keputusan menggunakan algoritme C4.5 dan CART. Algoritme C4.5 memberikan nilai akurasi sebesar 88.65% dan algoritme CART memberikan nilai akurasi sebesar 88.52%. Wijayanti (2013) melakukan klasifikasi menggunakan algoritme FKNN dan menghasilkan akurasi sebesar 91.93%, sedangkan Ulya (2013) melakukan klasifikasi menggunakan algoritme KNN dan didapat nilai akurasi sebesar 96.24%. Kasus klasifikasi data tidak seimbang juga diteliti oleh Japkowicz dan Stephen (2002) menggunakan data kerang abalone dan algoritme SVM dengan metode undersampling yang menghasilkan akurasi sebesar 64.36%.

Data umumnya memiliki dua kondisi yaitu data seimbang dan data tidak seimbang. Data seimbang merupakan kondisi distribusi data pada dua kelas mendekati sama dan data tidak seimbang merupakan kondisi sebuah himpunan data terdapat satu kelas yang memiliki jumlah instance yang lebih kecil dibandingkan kelas lainnya (Chawla 2003). Untuk mengatasi ketidakseimbangan data dilakukan strategi sampling yaitu oversampling dan undersampling. Pada

oversampling dilakukan duplikasi pada data minoritas, dan pada undersampling

dilakukan pemilihan instance pada data mayoritas sehingga jumlahnya sama dengan data minoritas.

Penelitian ini akan membuat suatu model untuk mengklasifikasikan debitur ke dalam kategori good atau bad menggunakan algoritme support vector machine

(SVM) linear kernel. Karena data yang digunakan pada penelitian ini merupakan data tidak seimbang maka dilakukan strategi sampling yaitu oversampling dan

undersampling untuk mengatasinya.

Perumusan Masalah

(12)

2

proses analisis yaitu mengklasifikasikan debitur kartu kredit ke dalam kategori

good atau kategori bad. Penelitian ini akan menganalisis bagaimana algoritme SVM dapat mengklasifikasikan debitur kartu kredit ke dalam kategori debitur

good atau debitur bad.

Tujuan Penelitian

Tujuan dari penelitian ini adalah menerapkan oversampling dan

undersampling untuk mengklasifikasikan debitur kartu kredit ke dalam kategori debitur good atau debitur bad pada data tidak seimbang menggunakan algoritme SVM.

Manfaat Penelitian

Hasil dari penelitian ini diharapkan dapat menjadi salah satu alternatif model bagi pihak penerbit kartu kredit dalam menganalisis proses penerimaan kredit, sehingga dapat mengurangi jumlah potensi kerugian bank akibat menerima pengajuan kredit yang berpotensi bermasalah. Selain itu, hasil dari penelitian ini juga diharapkan dapat memberi gambaran mengenai kinerja support vector machine classifier pada data tidak seimbang.

Ruang Lingkup Penelitian

Ruang lingkup dalam penelitian ini adalah set data yang digunakan merupakan data pada penelitian Anggraini (2013) yaitu data debitur kartu kredit Bank X tahun 2008 dan 2009. Strategi sampling yang digunakan dalam penelitian ini adalah oversampling dan undersampling. Algoritme yang digunakan dalam penelitian ini adalah SVM.

METODE

Penelitian ini dilakukan dalam beberapa tahapan. Alur tahapan penelitian yang dilakukan dapat dilihat pada Gambar 1.

Pengadaan Data

(13)

3

.

Gambar 1 Tahapan penelitian

Oversampling

Strategi Sampling

Undersampling

Mulai

Praproses Data Pengadaan Data

Normalisasi Data

10-Fold Cross Validation

Data Uji Data Latih

Klasifikasi SVM

Hasil Klasifikasi

Analisis Hasil Klasifikasi

(14)

4

Praproses Data

Praproses data dilakukan untuk membantu dalam pengenalan atribut dan data segmen yang relevan. Data asli memiliki 14 atribut yang terdiri dari 3 kategori, yaitu rasio, nominal, dan ordinal. Atribut disajikan pada Tabel 1:

Tabel 1 Atribut data

Ordinal Nominal Rasio

Pendidikan Jenis kelamin Pendapatan

Status pekerjaan Jumlah tanggungan Jenis pekerjaan Umur

Tipe perusahaan Masa kerja Status rumah Lama tinggal

Status pernikahan Banyaknya kartu kredit lain Presentase utang kartu kredit lain Keterangan lengkap atribut tersebut dapat dilihat pada Lampiran 1. Ada 5 atribut yang memiliki missing value, yaitu tipe perusahaan, status pekerjaan, jenis pekerjaan, presentase utang kartu kredit lain, dan banyaknya kartu kredit lain. Untuk mengatasi missing value dilakukan penghapusan data terhadap record yang memiliki missing value.

Normalisasi Data

Atribut dengan nilai rentang yang cukup panjang dibandingkan dengan nilai atribut lainnya memiliki pengaruh besar terhadap atribut berskala pendek (Nurjayanti 2011). Untuk menghindari perbedaan rentang tersebut dilakukan normalisasi data pada atribut pendapatan, jumlah tanggungan, masa kerja, lama tinggal, dan umur, sehingga didapatkan range antara 0 sampai 1 mengunakan teknik min-max normalization, dengan rumus sebagai berikut (Larose 2005):

X*= X-min(X) max X -min(X)

Keterangan:

X*= nilai setelah normalisasi X = nilai sebelum normalisasi min(X) = nilai minimum atribut

max(X) = nilai maksimum dari suatu atribut Strategi Sampling

(15)

5 yang dapat memberi distribusi data seimbang untuk setiap kelas (He dan Edwardo 2009). Strategi sampling yang digunakan yaitu oversampling dan undersampling.

Oversampling dilakukan dengan 2 cara yaitu dengan menduplikasi data minoritas sebanyak data mayoritas dan pembangkitan data minoritas secara acak sebanyak data mayoritas. Strategi undersampling juga dilakukan dengan 2 cara yaitu,

undersampling acak dan undersampling clustering. Undersampling acak dilakukan dengan cara mengambil secara acak data mayoritassehingga jumlahnya sama dengan dengan data minoritas. Undersampling clustering dilakukan dengan proses clustering pada data majority menggunakan metode k-means sebanyak 10

cluster dan menggunakan WEKA. Agar data yang diambil tidak mengelompok pada suatu cluster, jumlah data yang diambil pada masing-masing cluster

menggunakan rumus berikut (Yen dan Lee 2009):

Ci=_{jumlah data kelas mayoritas}jumlah data cluster i ×jumlah data kelas minoritas

10-Fold Cross Validation

Teknik yang digunakan untuk membagi data uji dan data latih adalah k-fold cross validation. Teknik ini membagi data menjadi k subset dengan ukuran yang sama. Setelah subset terbentuk, dilakukan pengulangan sebanyak k-kali untuk pelatihan dan pengujian. Pada iterasi pertama, subset 1 akan menjadi data uji, sedangakan subset 2 sampai subset k akan menjadi data latih. Iterasi selanjutnya,

subset 2 akan menjadi data uji, maka subset 1, subset 3 sampai subset k menjadi data latih, dan seterusnya sebanyak k iterasi (Han dan Kamber 2006). Pada penelitian ini k yang digunakan adalah 10. Data dibagi menjadi 10 bagian terpisah dengan ukuran yang sama. Masing-masing bagian data secara bergantian digunakan sebagai data uji sebanyak 10 kali dan sebagai data latih sebanyak 10 kali. Data uji menggunakan 1 subset dan data latih menggunakan 9 subset. Hal ini dilakukan berulang kali sampai semua subsample pernah menjadi data uji.

Klasifikasi Support Vector Machine

Support vector machine (SVM) merupakan metode klasifikasi jenis

supervised, karena ketika proses pelatihan diperlukan target pembelajaran tertentu (Widodo dan Handayanto 2013). Prinsip dasar support vector machine adalah

linear classifier yang berusaha menemukan fungsi pemisah (hyperplane) optimal yang bisa memisahkan dua set data dari dua kelas yang berbeda.

(16)

6

Gambar 2 Konsep dasar SVM

Kelas -1 dan kelas +1 diasumsikan dapat terpisah secara sempurna oleh

hyperplane yang didefinisikan sebagai berikut: (w . _�) + b = 0 dengan:

� = nilai data

= vektor bobot � = bias

Margin terbesar dapat ditemukan dengan memaksimalkan jarak antara

hyperplane dan titik terdekatnya, yaitu 1/‖w‖. Hal ini dapat dirumuskan sebagai masalah quadratic programming (QP), yaitu mencaari titik minimal pada persamaan:

min τ w =1₂‖w‖2

dengan memperhatikan constraint pada persamaan: y_i xi.w+b ≥1

Masalah ini dapat dipecahkan dengan Lagrange Multiplier.

� w,b,a =1₂‖w‖2_-_∑_∝

i(y_i((xi.

l

i=1

w+b)-1))

∝i adalah pengganda lagrange yang bernilai nol atau positif. Nilai optimal hyperplane dapat dihitung denga memaksimalkan nilai L terhadap w dan b, dan memaksimalkan L terhadap ∝_i.

Algoritme SVM memiliki beberapa macam fungsi kernel. Menurut Santosa (2010), fungsi kernel yangumum digunakan adalah:

-1 +1

vektor kelas +1 vektor kelas -1

Support Vectors

(17)

7 1 linear kernel

K(xi,x)=xTxi

2 polynomial kernel

K(xi,x)=(xTxi+1)d

3 radial basis function (RBF) kernel

K xi,x = exp - ‖xi-x‖2 , dengan = 1

2σ2

4 tangent hyperbolic (sigmoid)

K xi,x = tanh( xTxi+ ₁), dengan , ₁∈ R

Dari keempat fungi kernel tersebut x_i merepresentasikan vektor dari setiap data, d merepresentasikan jumlah derajat dari fungsi polinomial, dan γ merepresentasikan ukuran rentangan pada kurva gaussian. SVM menerapkan

kernel yang digunakan untuk merepresentasikan data ke dimensi lebih tinggi.

Kernel yang digunakan pada penelitian ini adalah linear kernel. Dari hasil percobaan akan didapatkan model SVM dengan linear kernel yang memiliki akurasi pelatihan 10-cross fold validation.

Analisis Hasil Klasifikasi

Untuk mengetahui keefektifan suatu algoritme dalam mengklasifikasikan data, dilakukan perhitungan akurasi, precision, recall, dan f-measure yang didapatkan dari confusion matrix pada Tabel 2 (Weng dan Poon 2008).

Tabel 2 Confusion matrix dua kelas Kelas aktual Kelas hasil prediksi

Kelas positif Kelas negatif

Kelas positif TP FN

Kelas negatif FP TN

Keterangan:

- True Positive (TP) adalah jumlah instance kelas positif yang diprediksi benar sebagai kelas positif

- False Negative (FN) adalah jumlah instance kelas positif yang diprediksi salah sebagai kelas negatif

- False Positive (FP) adalah jumlah instance kelas negatif yang diprediksi salah sebagai kelas positif

(18)

8

Semakin tinggi akurasi, precision, recall, dan f-measure, maka algoritme semakin baik dalam melakukan klasifikasi. Akurasi, precision, recall, dan f-measure dapat dihitung menggunakan rumus berikut (Weng dan Poon 2008) : 1 Akurasi

Akurasi adalah jumlah perbandingan data yang benar dengan jumlah keseluruhan data. Akurasi dapat dihitung menggunakan rumus berikut:

Akurasi = _TP₊TP_TN+₊TN_FP₊_FN × %

2 Precision

Precision digunakan untuk mengukur seberapa besar proporsi dari kelas data positif yang berhasil diprediksi dengan benar dari keseluruhan hasil prediksi kelas positif. Precision dapat dihitung menggunakan rumus berikut:

Precision= _TPTP₊_FP × %

3 Recall

Recall digunakan untuk menunjukkan persentase kelas data positif yang berhasil diprediksi benar dari keseluruhan data kelas positif. Recall dapat dihitung menggunakan rumus berikut:

Recall= _TPTP₊_FN × %

4 F-measure

F-measure merupakan gabungan dari precision dan recall yang digunakan untuk mengukur kemampuan algoritme dalam mengklasifikasikan kelas minoritas.

F-measure dapat dihitung menggunakan rumus berikut: F = 2 × _RecallRecall₊ × _PrecisionPrecision

Berdasarkan hasil analisis akan didapatkan model data terbaik. Model data tersebut digunakan sebagai dasar pada proses prediksi data baru.

HASIL DAN PEMBAHASAN

Praproses Data

(19)

9 Strategi Sampling

Saat teknik oversampling diterapkan, jumlah data bertambah menjadi 6518 data. Saat teknik undersampling diterapkan, jumlah data berkurang menjadi 1272 data.

Hasil Klasifikasi

Penelitian ini menggunakan teknik k-fold cross validation untuk membagi data uji dan data latih dengan k yang digunakan adalah 10, sehingga dilakukan 10 kali proses klasifikasi untuk masing-masing teknik sampling. Hasil yang ditampilkan merupakan rata-rata dari 10 kali proses klasifikasi. Untuk linear kernel perlu dicari nilai C optimal. Pencarian nilai C yang optimal dilakukan dengan percobaan menggunakan 10-cross fold validation terhadap data dengan rentang nilai C dari 1 sampai 10. Dari hasil pencarian didapatkan nilai C dengan akurasi tertinggi yaitu sebesar 1.

Percobaan Data Asli

Data asli dalam percobaan ini adalah data yang belum mengalami proses

sampling tetapi sudah mengalami tahap praproses data. Data ini terdiri dari 636

record data minoritas yang merupakan kategori debitur buruk atau kelas positif dan 3259 record data mayoritas yang merupakan debitur kategori baik atau kelas negatif, sehingga total untuk percobaan data asli berjumlah 3895 record data. Kemudian dilakukan 10-fold cross validation pada masing-masing data bad dan data good untuk memperoleh data uji dan data latih.Setelah itu, data diproses agar dapat diolah pada software WEKA. Akurasi, recall, precision, dan F-measure

data asli dapat dilihat pada Gambar 3.

Gambar 3 Hasil percobaan data asli Percobaan Oversampling Duplikasi

Pada percobaan ini, data minoritas yaitu 636 record data bad akan dibangkitkan dengan cara duplikasi sehingga jumlahnya menjadi 2623 record data, lalu digabungkan dengan 636 record data asli kelas minoritas sehingga jumlah kelas minoritas sama dengan kelas mayoritas yaitu sebanyak 3259 record data. Data tersebut akan digabungkan dengan 3259 record data asli kelas mayoritas atau kelas good sehingga jumlah total data yang digunakan pada percobaan ini adalah 6518 record data. Kemudian dilakukan 10-fold cross validation pada

(20)

10

masing data bad dan data good untuk memperoleh data uji dan data latih. Setelah itu, data diproses agar dapat diolah pada software WEKA. Akurasi, recall,

precision, dan F-measure pada percobaan oversampling duplikasi dapat dilihat pada Gambar 4.

Gambar 4 Hasil percobaan oversampling duplikasi Percobaan Oversampling Acak

Pada percobaan ini, data minoritas yaitu 636 record data bad akan dibangkitkan dengan cara acak menggunakan software Minitab sehingga jumlahnya menjadi 2623 record data, lalu digabungkan dengan 636 record data asli kelas minoritas sehingga jumlah kelas minoritas sama dengan kelas mayoritas yaitu sebanyak 3259 record data. Data tersebut akan digabungkan dengan 3259

record data asli kelas mayoritas atau kelas good sehingga jumlah total data yang digunakan pada percobaan ini adalah 6518 record data. Kemudian dilakukan 10-fold cross validation pada masing-masing data bad dan data good untuk memperoleh data uji dan data latih. Setelah itu, data diproses agar dapat diolah pada software WEKA. Akurasi, recall, precision, dan F-measure pada percobaan

oversampling acak dapat dilihat pada Gambar 5.

Gambar 5 Hasil percobaan oversampling acak Percobaan Undersampling Acak

Pada percobaan ini, data mayoritas yaitu 3259 record akan dikurangi jumlahnya dengan cara acak sehingga jumlahnya menjadi 636 record data. 636

49.17% _47.64% 55.31%

43.56%

0% 20% 40% 60% 80% 100%

Akurasi Recall Precision F-measure

54.14% 53.47%

61.30%

54.51%

0% 20% 40% 60% 80% 100%

(21)

11

record data tersebut diambil secara acak menggunakan software Minitab. Data tersebut akan digabungkan dengan 636 record data asli kelas minoritas atau kelas

bad sehingga jumlah total data yang digunakan pada percobaan ini adalah 1272

record data. Kemudian dilakukan 10-fold cross validation pada masing-masing data bad dan data good untuk memperoleh data uji dan data latih. Akurasi, recall,

precision, dan F-measure pada percobaan undersampling acak dapat dilihat pada Gambar 6.

Gambar 6 Hasil percobaan undersampling acak Percobaan Undersampling Cluster

Pada percobaan ini, akan dilakukan proses clustering dengan metode k-means yang dibagi sebanyak 10 cluster untuk data mayoritas yaitu 3259 record

data good menggunakan software WEKA. Masing-masing cluster akan diambil sejumlah data menggunakan rumus Yen dan Lee (2009) sehingga jumlahnya menjadi 636 record data. Data tersebut akan digabungkan dengan 636 record data asli kelas minoritas atau kelas bad sehingga jumlah total data yang digunakan pada percobaan ini adalah 1272 record data. Kemudian dilakukan 10-fold cross validation pada masing-masing data bad dan data good untuk memperoleh data uji dan data latih. Akurasi, recall, precision, dan F-measure pada percobaan

undersampling cluster dapat dilihat pada Gambar 7.

Gambar 7 Hasil percobaan undersampling cluster

49.35%

38.92%

30.72% 33.88%

0% 20% 40% 60% 80% 100%

Akurasi Recall Precision F-measure

44.03% 45.55%

35.62% 38.89%

0% 20% 40% 60% 80% 100%

(22)

12

Analisis Hasil Klasifikasi

Berdasarkan hasil klasifikasi pada percobaan data asli, oversampling

duplikasi, oversampling acak, undersampling acak, dan undersampling cluster

dapat diketahui bahwa hasil klasifikasi pada data yang sudah mengalami sampling

lebih baik dibanding hasil klasifikasi pada data asli. Percobaan data asli menghasilkan rata-rata nilai akurasi yang cukup tinggi jika dibandingkan dengan percobaan lain yaitu sebesar 83.59% namun, pada data asli semua data kelas positif diprediksi ke dalam kelas negatif. Pada percobaan ini nilai recall, precision, dan F-measure yang dihasilkan sebesar 0%, nilai ini tidak sebaik dengan nilai akurasinya. Hal ini disebabkan karena jumlah instance kelas positif atau debitur kategori bad yang diprediksi benar sebagai kelas positif yang diperlihatkan pada Tabel 3 bernilai 0, dengan kata lain semua debitur kategori bad diprediksi ke dalam debitur kategori good.

Tabel 3 Confusion matrix data asli Kelas aktual Kelas hasil prediksi

Kelas bad Kelas good

Kelas bad 0 636

Kelas good 0 3259

Klasifikasi dengan teknik oversampling memiliki hasil yang lebih baik dibanding klasifikasi dengan teknik undersampling. Hal ini disebabkan karena jumlah data yang digunakan pada teknik oversampling lebih banyak dibanding teknik undersampling. Pada teknik oversampling semua data kelas negatif atau data debitur kategori good digunakan, sedangkan pada teknik undersampling

hanya menggunakan data kelas negatif sebanyak 636 record data.

Akurasi tertinggi yang diperoleh melalui percobaan menggunakan teknik

oversampling acak sebesar 77.30% dengan nilai recall sebesar 59.51%, precision

sebesar 92.38%, dan F-measure sebesar 72.39%, sedangkan nilai akurasi terendah yang diperoleh sebesar 0.61% dengan nilai recall, precision¸ dan F-measure

sebesar 0%. Akurasi tertinggi yang diperoleh melalui percobaan dengan teknik

oversampling duplikasi sebesar 84.82% dengan nilai recall sebesar 69.63%,

precision sebesar 100%, dan F-measure sebesar 82.09%, sedangkan nlai akurasi terendah yang diperoleh sebesar 0.77% dengan nilai recall, precision, dan F-measure sebesar 0%. Berdasarkan hasil tersebut terlihat bahwa hasil percobaan

oversampling duplikasi lebih baik dibanding hasil percobaan oversampling acak. Namun, jika dilihat dari hasil rata-rata 10 kali percobaan, teknik oversampling

acak memiliki hasil yang lebih baik dibanding teknik oversampling duplikasi. Hal ini disebabkan karena jumlah instance kelas positif atau debitur kategori bad yang diprediksi benar sebagai kelas positif pada teknik oversampling acak lebih besar dibanding jumlah instance kelas positifyang diprediksi benar sebagai kelas positif pada teknik oversampling duplikasi yang ditunjukan pada Tabel 4 dan Tabel 5.

(23)

13 Tabel 4 Confusion matrix oversampling acak

Kelas aktual Kelas hasil prediksi Kelas bad Kelas good

Kelas bad 1743 1516

Kelas good 1468 1791

Tabel 5 Confusion matrix oversampling duplikasi Kelas aktual Kelas hasil prediksi

Kelas bad 1540 1719

Dari 10 kali percobaan menggunakan teknik oversampling acak diperoleh rata-rata nilai akurasi sebesar 54.14%. Nilai ini lebih baik jika dibandingkan dengan rata-rata nilai akurasi yang diperoleh dari 10 kali percobaan pada teknik

oversampling duplikasi yaitu sebesar 49.17%. Hal ini juga terjadi pada nilai recall,

precision, dan F-measure. Rata-rata nilai recall, precision, dan F-measure yang diperoleh dari 10 kali percobaan teknik oversampling acak masing-masing sebesar 53.47%, 61.30%, dan 54.51%, sementara rata-rata nilai recall, precision, dan F-measure yang diperoleh dari 10 kali percobaan teknik oversampling duplikasi masing-masing sebesar 47.64%, 55.31%, dan 43.56%.

Nilai akurasi tertinggi yang diperoleh pada percobaan teknik undersampling

acak sebesar 73.44% dengan nilai recall sebesar 90.62%, precision sebesar 67.44%, dan F-measure sebesar 77.33%, sedangkan nilai akurasi terendah yang diperoleh sebesar 34.17% dengan nilai recall 1.67%, precision sebesar 4.76%, dan

F-measure sebesar 2.47%. Nilai akurasi tertinggi yang diperoleh pada percobaan teknik undersampling cluster sebesar 64.06% dengan nilai recall sebesar 81.25%,

precision sebesar 60.46%, dan F-measure sebesar 69.33%, sedangkan nilai akurasi terendah yang dihasilkan sebesar 31.25% dengan nilai recall, precision, dan F-measure sebesar 0%. Berdasarkan hasil tersebut terlihat bahwa hasil percobaan undersampling acak lebih baik dibanding hasil percobaan

undersampling cluster. Namun, jika dilihat dari hasil rata-rata 10 kali percobaan, teknik undersampling cluster memiliki hasil yang lebih baik dibanding teknik

undersampling acak. Hal ini disebabkan karena jumlah instance kelas positif atau debitur kategori bad yang diprediksi benar sebagai kelas positif pada teknik

(24)

14

Tabel 6 Confusion matrix undersamplingcluster

Kelas aktual Kelas hasil prediksi Kelas bad Kelas good

Kelas bad 292 344

Tabel 7 Confusion matrix undersampling acak Kelas aktual Kelas hasil prediksi

Kelas bad 249 387

Nilai akurasi dari 10 kali percobaan dengan teknik undersampling acak sebesar 49.35%. Nilai ini lebih besar jika dibanding dengan rata-rata nilai akurasi yang diperoleh dari 10 kali percobaan pada teknik undersampling cluster yaitu sebesar 44.03%, namun hal ini tidak berlaku untuk nilai recall, precision, dan F-measure. Rata-rata nilai recall, precision, dan F-measure yang diperoleh dari 10 kali percobaan teknik undersampling acak masing-masing sebesar 38.92%, 30.72%, dan 33.88%, hasil ini lebih kecil dibanding hasil yang diperoleh dari 10 kali percobaan dengan teknik undersampling cluster yaitu masing-masing sebesar 45.55%, 35.62%, dan 38.89%.

Secara keseluruhan, dapat diketahui bahwa hasil tertinggi diperoleh pada teknik oversampling acak. Hal ini disebabkan karena instance kelas positif yang diprediksi benar sebagai kelas positif pada teknik oversampling acak memiliki jumlah tertinggi dibanding instance kelas positif yang diprediksi benar sebagai kelas positif pada teknik yang lain.

Perbandingan dengan Penelitian Sebelumnya

(25)

15 Tabel 8 Perbandingan dengan penelitian sebelumnya

Pendekatan Akurasi Recall Precision F-measure

(%)

Hasil pada penelitian ini menunjukkan nilai F-measure yang rendah jika dibanding hasil penelitian yang lain. Hal ini membuktikan bahwa algoritme SVM kurang optimal dalam mengklasifikasikan debitur ke dalam kategori bad dan kategori good.

SIMPULAN DAN SARAN

Simpulan

Berdasarkan penelitian yang telah dilakukan dapat disimpulkan bahwa: 1 Percobaan data dengan teknik sampling menghasilkan nilai F-measure yang

lebih baik dibanding percobaan data asli.

2 Percobaan data dengan teknik oversampling memiliki hasil yang lebih baik dari percobaan dengan teknik undersampling.

3 Percobaan data asli dengan 10-fold cross validation menghasilkan rata-rata akurasi sebesar 83.59% serta nilai rata-rata untuk recall, precision, dan F-measure sebesar 0% karena algoritme SVM memiliki tingkat kecenderungan untuk mengklasifikasikan data ke dalam kelas negatif, sehingga semua data debitur kategori bad diprediksi ke dalam kategori good.

4 F-measure paling tinggi diperoleh saat percobaan data dengan teknik

oversampling acak sebesar 54.51%.

5 Pada percobaan dengan teknik oversampling acak menghasilkan nilai F-measure sebesar 54.51%. Nilai ini lebih tinggi jika dibandingkan dengan percobaan menggunakan teknik oversampling duplikasi yang menghasilkan nilai F-measure sebesar 43.56%.

(26)

16

percobaan menggunakan teknik undersampling acak yang menghasilkan nilai

F-measure sebesar 33.88%.

7 Hasil percobaan terbaik diperoleh dari percobaan dengan teknik oversampling

acak.

Saran

Pada penelitian selanjutnya diharapkan dapat membandingkan hasil klasifikasi SVM yang didapatkan pada penelitian ini dengan teknik sampling yang lain, seperti synthetic minority oversampling technique dan diharapkan untuk mencoba dengan fungsi kernel yang lain, seperti kernel RBF. Selain itu, diharapkan juga untuk mencoba algoritme klasifikasi yang lain, seperti weighted

SVM.

DAFTAR PUSTAKA

Anggraini D. 2013. Perbandingan algoritme C4.5 dan CART pada data tidak

seimbang untuk kasus prediksi risiko kredit debitur kartu kredit [skripsi].

Bogor (ID): Institut Pertanian Bogor.

Bank Indonesia. 2013. Daftar penerbit kartu kredit. [diunduh 2013 Des 2]. Tersedia pada: http://bi.go.id/ Statistik/Statistik+Sistem+Pembayaran/APMK/ Chawla VN. 2003. C4.5 and imbalance datasets: investigating the effect of sampling method, probabilistic estimate, and decision tree structure. Di

dalam: Workshop on Learning from Imbalanced Datasets II [Internet]; 2003

Aug 21; Washington DC, Amerika Serikat. [diunduh 2013 Sep 9]. Tersedia pada: http://arxiv.org/pdf/1106.1813.pdf.

Han J, Kamber M. 2001. Data Mining Concepts & Techniques. San Fransisco

(US): Morgan Kaufmann.

He H, Edwardo AG. 2009. Learning from imbalanced data. Knowledge and Data

Engineering IEEE Transactions. 21(9):1263-1284.

Japkowicz N, Stephen K. 2004. Applying support vector machine to imbalanced datasets. Di dalam: Boulicaut JF, Esposito F, Giannotti F, Pedreschi D

(editor). Proc. 15th European Conference on Machine Learning. Berlin (DE):

Springer Berlin Heidelberg. pp 39-50.

Kawakibi T. 2009. Steganalisis pada media audio menggunakan metode support

vector machine radial basis function classifier [skripsi]. Bogor (ID): Institut

Pertanian Bogor.

Larose DT. 2005. Discovering Knowledge in Data: An Introduction to Data

Mining. New Jersey (US). J Wiley.

Nurjayanti B. 2011. Identifikasi shorea menggunakan k-nearest neighbor

berdasarkan karakteristik morfologi daun [skripsi]. Bogor (ID): Institut Pertanian Bogor.

Santosa B. 2010. Tutorial support vector machine. Surabaya (ID): Institut

Teknologi Sepuluh Nopember.

Ulya F. 2013. Klasifikasi debitur kartu kredit menggunakan algoritme k-nearest

neighbor untuk kasus imbalanced data [skripsi]. Bogor (ID): Institut

(27)

17

Weng GC, Poon J. 2008. A new evaluation measure for imbalanced datasets. Di

dalam: Roddick FJ, Li J, Christen P, Kennedy P, editor. Data Mining and

Analytics 2008. Volume 87. Conference Seventh Australian Data Mining

Conference (AusDM 2008) [Internet]; 2008 Nov 27; Glenelg Australia.

[diunduh 2013 Des 16]. Tersedia pada:

http://crpit.com/confpapers/CRPITV87Weng.pdf.

Widodo PP, Handayanto RT. 2013. Penerapan data mining. Bandung (ID):

Rekayasa Sains.

Wijayanti R. 2013. Klasifikasi nasabah kartu kredit menggunakan algoritme fuzzy

k-nearest neighbor pada data tidak seimbang [skripsi]. Bogor (ID): Institut Pertanian Bogor.

Yen SJ, Lee YS. 2009. Cluster-based under-sampling approaches for imbalanced

data distributions. Expert System with Applications. 36(3):5718-5727.

(28)

18

Lampiran 1 Keterangan atribut

Tipe atribut Atribut Keterangan

Ordinal Pendidikan 1 = SMP/SMA

2 = Akademi 3= S1/S2

Nominal Gender 1 = Pria

2 = Wanita Status pernikahan 1 = Lajang 2 = Menikah 3 = Bercerai Tipe perusahaan 1 = Kontraktor

2 = Conversion 3 = Industri berat 4 = Pertambangan 5 = Jasa

6 = Transportasi

Status pekerjaan 1 = Permanen

2 = Kontrak

Pekerjaan 1 = Conversion

2 = PNS 3 = Profesional 4 = Wiraswasta 5 = Perusahaan swasta Status rumah 0 = Bukan milik sendiri

1 = Milik sendiri

Rasio Tanggungan Orang

Pendapatan Rupiah per tahun

Banyaknya kartu kredit lain Persentase utang kartu kredit lain

Usia Dalam bulan

Masa kerja Dalam bulan

Lama tinggal _{Dalam bulan}

Kelas 1 = buruk

(29)

19 Lampiran 2 Nilai akurasi dalam % pada data asli dan setiap teknik sampling

Fold

Lampiran 3 Nilai recall dalam % pada data asli dan setiap teknik sampling

(30)

20

Lampiran 4 Nilai precision dalam % pada data asli dan setiap teknik sampling

Fold

(31)

21 Lampiran 6 Confussion matrix data asli

Fold

ke- Confusion matrix

Fold

(32)

22

Lampiran 7 Confusion matrix oversampling acak

Fold

(33)

23 Lampiran 8 Confusion matrix oversampling duplikasi

Fold

(34)

24

Lampiran 9 Confusion matrix undersampling acak

Fold

(35)

25 Lampiran 10 Confusion matrix undersampling cluster

Fold

(36)

26

RIWAYAT HIDUP

Penulis dilahirkan di Tangerang, Banten, Jawa Barat, pada tanggal 25 Mei 1992 sebagai anak pertama dari pasangan Ropingi Suwito dan Dwi Ilmiah. Penulis merupakan lulusan SMA Negeri 34 Jakarta (2007-2010), SMP Negeri 85 Jakarta (2004-2007), dan SD Negeri 01 Jakarta (2004).