ISBN: SNIPTEK 2013

(1)

INF-163

PENERAPAN PARTICLE SWARM OPTIMIZATION UNTUK SELEKSI ATRIBUT

PADA METODE SUPPORT VECTOR MACHINE UNTUK PENENTUAN PENILAIAN

KREDIT

Rinawati

STMIK Nusa Mandiri Jakarta Jl. Damai No.8, Warung Jati Barat

(Margasatwa), Jakarta Selatan rinawati.riw@nusamandiri.ac.id

ABSTRAK — Kredit macet merupakan salah satu resiko

kredit yang dihadapi oleh pelaku industri keuangan dan perbankan. Kredit macet dapat dihindari dengan cara melakukan analisa kredit yang akurat terhadap calon debitur. Keakuratan penilaian kredit sangat penting untuk profitabilitas lembaga keuangan. Peningkatan akurasi penilaian kredit dapat dilakukan dengan cara melakukan seleksi terhadap atribut, karena seleksi atribut mengurangi dimensi dari data sehingga operasi algoritma data mining dapat berjalan lebih efektif dan lebih cepat. Banyak penelitian yang telah dilakukan untuk penentuan penilaian kredit. Salah satu metode yang paling banyak digunakan adalah metode support vector machine. Dalam penelitian ini akan digunakan metode support vector machine dan akan dilakukan seleksi atribut dengan menggunakan particle swarm optimization untuk penentuan penilaian kredit. Setelah dilakukan pengujian maka hasil yang didapat adalah support vector machine menghasilkan nilai akurasi sebesar 75,3 %, nilai precision 63,29% dan nilai AUC sebesar 0,78. Kemudian dilakukan seleksi atribut dengan menggunakan particle swarm optimization dimana atribut yang semula berjumlah 20 variabel prediktor terpilih 15 atribut yang digunakan. Hasil menunjukkan nilai akurasi yang lebih tinggi yaitu sebesar 77,4%, nilai precision 66,62% dan nilai AUC sebesar 0,786. Sehingga dicapai peningkatan akurasi sebesar 2,1 %, dan peningkatan AUC sebesar 0,006. Dengan melihat nilai akurasi dan AUC, maka algoritma support vector machines berbasis particle swarm optimization masuk kedalam kategori klasifikasi cukup.

Kata kunci: penilaian kredit, seleksi atribut, support

vector machine, particle swarm optimization

ABSTRACT - Bad debt is one of credit risk faced by financial industry and banking industry. Bad credit can be avoided by conducting accurate credit analysis of prospective borrowers. The accuracy of credit scoring is essential for profitability of financial institutions. Improving the accuracy of credit scoring can be done by selecting attributes, because attribute selection reduces the dimensions of the data so that data mining algorithm operation can run more effectively and faster. Much research has been done for the

determination of credit ratings. One of the most widely used methods is the support vector machine. In this research will be used support vector machine method and will do the selection of attributes by using particle swarm optimization for determination of credit rating. After testing, the result obtained is the support vector machine to produce accuracy of 75.3%, precision value 63.29% and AUC value of 0.78. Then the attribute selection is done using particle swarm optimization where the original attribute is 20 predictor variables selected 15 attributes used. The results showed a higher accuracy value of 77.4%, precision value 66.62% and AUC value of 0.786. So achieved an increase in accuracy of 2.1%, and an increase of AUC by 0.006. By looking at the accuracy and AUC values, the particle swarm optimization-based vector machines support algorithm falls into the category of sufficient classification.

Keywords: credit rating, attribute selection, support vector machine, particle swarm optimization

PENDAHULUAN

Penilaian kredit merupakan topik yang penting dalam pengelolaan resiko keuangan. Laporan bank Indonesia menunjukkan bahwa pada akhir tahun 2011 tercatat kredit macet senilai Rp. 33.401.000.000.000 naik hingga 17,64% dibandingkan dengan th 2010 sebesar Rp. 28.396.000.000.000 (Indonesia, Bank;, 2012). Hal tersebut menunjukkan bahwa tingkat kredit macet mengalami kenaikan yang tajam.

Kredit macet merupakan salah satu resiko kredit yang dihadapi oleh pelaku industri keuangan dan perbankan. Kredit macet terjadi apabila dalam jangka panjang, lembaga keuangan atau perbankan tidak dapat menarik pinjaman kredit dalam waktu yang telah ditentukan (Jianguo & Tao, 2008). Kredit macet memiliki dampak yang buruk bagi penyedia kredit yaitu berupa resiko kerugian (Hian, Wei & Chwee, 2006).

Kredit macet dapat dihindari dengan cara melakukan analisa kredit yang akurat terhadap calon debitur (Bellotti & Crook, 2007). Tujuan utamanya adalah untuk memperoleh keyakinan bahwa debitur akan dapat memenuhi setiap kewajibannya dan memastikan kualitas

(2)

INF-164 kredit tetap lancar sampai berakhirnya perjanjian kredit.

Keakuratan penilaian kredit sangat penting untuk profitabilitas lembaga keuangan (Gang, Jinxing, Jian & Hongbing, 2011).

Penilaian kredit mengelompokkan para calon debitur menjadi dua jenis yaitu debitur baik dan debitur buruk. Debitur baik memiliki kemungkinan besar akan membayar kewajiban keuangannya dengan lancar, sedangkan debitur buruk memiliki kemungkinan besar mengalami kredit macet (Gang, Jinxing, Jian & Hongbing, 2011). Penilaian kredit sangat penting karena banyak keuntungan yang diperoleh yaitu mengurangi biaya analisa kredit, pengambilan keputusan lebih cepat, pemantauan lebih dekat dengan data yang ada dan memungkinkan untuk menetapkan calon debitur prioritas (Ping, 2009). Penilaian kredit juga bermanfaat bagi penyedia kredit untuk mengukur dan mengelola risiko keuangan dalam memberikan kredit sehingga mereka dapat membuat keputusan yang lebih baik, lebih cepat dan lebih obyektif (Hian, Wei & Chwee, 2006).

Penelitian terdahulu mengenai topik penilaian kredit telah banyak dilakukan seperti penelitian yang dilakukan oleh Tony Bellotti dan Jonathan Crook yang berjudul Support vector machines for credit scoring and

discovery of significant features. Menggunakan model Support Vector Machine (SVM), Logistic Regression (LR), Linear Discriminant Analysis (LDA) dan k-Nearest Neighbours (kNN) untuk penentuan kelayakan pemberian

kredit dan menentukan fitur yang berpengaruh. Hasil menunjukkan bahwa metode Support Vector Machine

(SVM) mengungguli ketiga metode lainnya dan dapat

digunakan sebagai metode yang baik dalam seleksi fitur yang berpengaruh secara signifikan terhadap dasar keputusan kelayakan pemberian kartu kredit dan juga sangat tepat dalam pengolahan data dengan jumlah besar (Bellotti & Crook, 2007). Penelitian selanjutnya dilakukan oleh Jianguo Zhou dan Tao Bai yang berjudul Credit risk

assessment using rough set theory and GA-based SVM.

Meneliti tentang penilaian resiko kredit pada bank komersial. Dilakukan pengurangan terhadap fitur tanpa kehilangan informasi penting, setelah itu dilakukan optimasi terhadap parameter. Hasil menunjukkan bahwa optimasi dengan Genetic Algorithm - Support Vector

Machine (GA-SVM) menghasilkan akurasi yang lebih tinggi

dibandingkan dengan model Discriminant analysis (DA), BP

Neural networks (BPN) dan SVM standar (Jianguo & Tao,

2008). Selanjutnya Wei Xu, Shenghu Zhou, Dongmei Duan dan Yanhui Chen melakukan penelitian dengan judul A

support vector machine based method for credit risk assessment. Mengangkat permasalahan tentang penilaian

resiko kredit dalam industri kartu kredit. Pertama-tama dilakukan pemilihan fitur yang tepat dengan menggunakan

principles component analysis (PCA), tahap kedua pelatihan

dilakukan dengan menggunakan beberapa kernel yang berbeda dalam genetic algorithm untuk mengoptimalkan parameter. Tahap ketiga dilakukan pelatihan dengan menggunakan beberapa strategi ansambel. Hasil menunjukkan bahwa kinerja penilaian resiko kredit

dengan menggunakan strategi ansambel berbasis SVM lebih baik dari strategi SVM tunggal (Wei, Shenghu, Dongmei & Yanhui, 2010).

Hasil penelitian menunjukkan metode Support

Vector Machine (SVM) banyak digunakan karena SVM

memiliki kemampuan generalisasi yang sangat baik untuk memecahkan masalah walaupun dengan sampel yang terbatas (Ming-hui & Xu-chuang, 2007). Keberhasilan SVM tergantung pada pemilihan yang memadai terhadap fitur dan parameter. Dengan kata lain dapat dikatakan bahwa pemilihan fitur dan pemilihan parameter dalam SVM secara signifikan mempengaruhi akurasi klasifikasi (Mingyuan, Chong, ke & Mingtian, 2011).

Seleksi fitur adalah langkah untuk memilih dan mendapatkan informasi yang lebih berharga dari data dengan fitur yang besar. Atribut dan informasi yang berlebihan yang dimasukkan kedalam model penilaian kredit mengakibatkan banyaknya waktu dan biaya yang dikorbankan bahkan akan mengurangi tingkat akurasi dan kompleksitas yang lebih tinggi. Untuk itu diperlukan metode seleksi atribut pada data set dengan jumlah atribut yang besar untuk meningkatkan hasil akurasi (Ping, 2009).

Particle swarm optimization (PSO) merupakan

teknik komputasi evolusioner yang mampu menghasilkan solusi optimal secara global dalam ruang pencarian melalui interaksi individu dalam segerombolan partikel. Setiap partikel menyampaikan informasi berupa posisi terbaiknya kepada partikel yang lain dan menyesuaikan posisi dan kecepatan masing-masing berdasarkan informasi yang diterima mengenai posisi yang terbaik tersebut (Shuzhou & Bo, 2011). Particle swarm

optimization dapat digunakan sebagai teknik optimasi

untuk mengoptimalkan subset fitur dan parameter secara bersamaan (Yun, Qiu-yan & Hua, 2011). Algoritma PSO sederhana dan memiliki kompleksitas yang lebih rendah. sehingga dapat memastikan solusi optimal dengan menyesuaikan pencarian global dan lokal, sehingga kinerja klasifikasi SVM dapat ditingkatkan (Yun, Qiu-yan & Hua, 2011). Melihat kemampuan dari metode Particle swarm

optimization (PSO) tersebut, maka pada penelitian ini

metode Particle swarm optimization (PSO) akan diterapkan untuk seleksi atribut dalam penentuan penilaian kredit sehingga akan diperoleh peningkatan akurasi.

BAHAN DAN METODE

Menurut UU Perbankan No.10 Tahun 1998 Pasal 1 Ayat 11 menyatakan bahwa kredit adalah penyediaan uang atau tagihan yang dapat dipersamakan dengan itu, berdasarkan persetujuan atau kesepakatan pinjam-meminjam antara bank dengan pihak lain yang mewajibkan pihak peminjam untuk melunasi utangnya setelah jangka waktu tertentu dengan pemberian bunga (UU Perbankan No.10 Tahun 1998). Penilaian kredit didefinisikan sebagai teknik dan model keputusan yang mendasari penyedia kredit memutuskan masalah pemberian kredit kepada konsumen (Heiat, 2011).

(3)

INF-165

Penilaian kredit ini merupakan kumpulan data nasabah yang diambil dari data aplikasi pinjaman nasabah. Prinsip dasar dalam menganilisis kredit yang lazim dikenal dengan prinsip 6 C’s, yaitu (Rivai, 2006):

1) Character

Adalah keadaan watak atau sifat dari nasabah, baik dalam kehidupan pribadi maupun dalam lingkungan usaha. Kegunaan dari penilaian terhadap karakter ini adalah untuk mengetahui sampai sejauh mana itikad atau kemauan nasabah untuk memenuhi kewajibannya

(willingness to pay) sesuai dengan perjanjian yang telah

ditetapkan.

2) Capital

Adalah jumlah dana atau modal sendiri yang dimiliki oleh calon nasabah. Semakin besar modal sendiri dalam perusahaan, tentu semakin tinggi kesungguhan calon nasabah dalam menjalankan usahanya dan lembaga pemberi kredit akan merasa lebih yakin dalam memberikan kredit.

3) Capacity

Adalah kemampuan yang dimiliki calon nasabah dalam menjalankan usahanya guna memperoleh laba yang diharapkan. Kegunaan dari penilaian ini adalah untuk mengetahui atau mengukur sampai sejauh mana calon nasabah mampu untuk mengembalikan atau melunasi utang-utang (ability to pay) secara tepat dari usahanya yang diperolehnya.

4) Collateral

adalah barang-barang yang diserahkan nasabah sebagai agunan terhadap kredit yang diterimanya. Collateral tersebut harus dinilai oleh bank untuk mengetahui sejauh mana dari usaha yang diperolehnya.

5) Condition of Economic

Yaitu situasi dan kondisi politik, sosial, ekonomi, budaya yang memengaruhi keadaan perekonomian pada suatu saat yang kemungkinannya memengaruhi kelancaran perusahaan calon kreditur.

6) Constrain

Adalah batasan dan hambatan yang tidak memungkinkan suatu bisnis untuk dilaksanakan pada tempat tertentu, misalkan pendirian suatu usaha pompa bensin yang disekitarnya banyak bengkel las atau pembakaran batu baru.

Data mining adalah aplikasi algoritma spesifik untuk

mengekstrak pola dari data (Abraham, Grosan & Ramos, 2006). Data Mining didefinisikan sebagai proses penemuan pola dalam data (Witten, 2011). Data mining sering juga disebut analisis data eksploratif. Data dalam jumlah besar yang diperoleh dari mesin kasir, pemindaian

barcode dan dari berbagai basis data dalam perusahaan,

kemudiaan ditelaah, dianalisis, dihapus dan dipakai ulang. Pencarian dilakukan pada model yang berbeda untuk memprediksi penjualan, respon pasar, keuntungan dan lain-lain (Olson & Shi, 2008). Cross-Industry Standard

Process for Data Mining (CRISP-DM) diperlukan dalam

perusahaan untuk penggalian data yang dimiliki, terbagi dalam enam fase yaitu pemahaman bisnis, pemahaman data, pengolahan data, pemodelan, evaluasi dan

penyebaran (Larose, 2005). Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005):

1) Deskripsi

Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.

2) Estimasi

Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi.

3) Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi menghasilkan nilai dari hasil di masa mendatang.

4) Klasifikasi

Dalam klasifikasi terdapat target variabel kategori. 5) Pengklusteran

Pengklusteran merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.

6) Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.

Klasifikasi adalah proses menempatkan obyek atau konsep tertentu kedalam satu set kategori, berdasarkan sifat obyek atau konsep yang bersangkutan (Gorunescu, 2011). Metode klasifikasi ditujukan untuk pembelajaran fungsi-fungsi berbeda yang memetakan masing-masing data terpilih kedalam salah satu dari kelompok kelas yang telah ditetapkan sebelumnya. Proses klasifikasi didasarkan pada komponen (Gorunescu, 2011):

1) Kelas (class)

Merupakan variabel dependen dari model yang merupakan kategori variabel yang mewakili label-label yang diletakkan pada obyek setelah pengklasifikasian.

2) Prediktor (predictors)

Merupakan variabel independen dari model yang diwakili oleh karakteristik atau atribut dari data yang diklasifikasikan berdasarkan klasifikasi yang dibuat. 3) Dataset Pelatihan (training dataset)

Merupakan dataset yang berisi dua komponen nilai yang digunakan untuk pelatihan untuk mengenali model yang sesuai dengan kelasnya, berdasarkan prediktor yang ada.

4) Dataset Pengujian (testing dataset)

Merupakan dataset baru yang akan diklasifikasikan oleh model yang dibangun sehingga dapat dievaluasi hasil akurasi klasifikasi tersebut.

Support Vector Machine (SVM) diperkenalkan oleh

Vapnik, Boser dan Guyon pada tahun 1992. Support Vector

Machine (SVM) adalah metode learning machine yang

bekerja atas prinsip Structural Risk Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah class pada input space (Bellotti &

(4)

INF-166 Crook, 2007). Hyperplane terbaik adalah hyperplane yang

terletak ditengah-tengah antara dua set obyek dari dua class. Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin hyperplane tersebut dan mencari titik maksimalnya. Margin adalah jarak antara

hyperplane tersebut dengan pattern terdekat dari

masing-masing class. Pattern yang paling dekat ini disebut sebagai

support vector (Aydin, Karakose & Akin, 2011). Yang

menjadi karakteristik dari Support Vector Machine (SVM) adalah sebagai berikut:

1) Secara prinsip SVM adalah linear classifier.

2) Pattern recognition dilakukan dengan mentransformasikan data pada input space ke ruang yang berdimensi lebih tinggi, dan optimisasi dilakukan pada ruang vector yang baru tersebut.

3) Menerapkan strategi Structural Risk Minimization (SRM).

4) Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua class.

Data yang tersedia dinotasikan sebagai x ∈ R d _sedangkan

label masing-masing dinotasikan yi ∈{-1+1} untuk i =

1,2,....,1 yang mana l adalah banyaknya data. Diasumsikan kedua class –1 dan +1 dapat terpisah secara sempurna oleh hyperplane berdimensi d , yang didefinisikan:

w.x + b = 0

Sebuah pattern xi yang termasuk class –1 (sampel negatif) dapat dirumuskan sebagai pattern yang memenuhi pertidaksamaan:

w.x + b = -1

Sedangkan pattern yang termasuk class +1 (sampel positif):

w.x + b = +1

Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara hyperplane dan titik terdekatnya, yaitu 1/||w||. Hal ini dapat dirumuskan sebagai Quadratic Programming (QP) problem, yaitu mencari titik minimal persamaan

min τ(w) = ||w||2

dengan memperhatikan constraint persamaan yi(xi.w+b) -1 0, i

Seleksi atribut adalah masalah terkait erat dengan pengurangan dimensi. Proses data mining membutuhkan biaya komputasi yang tinggi ketika berhadapan dengan kumpulan data dalam jumlah besar. Mengurangi dimensi yaitu jumlah atribut set data atau kelompok atribut, secara efektif dapat memotong biaya tersebut. Pengurangan dimensi tersebut dilakukan dengan menekan seminimal mungkin kerugian yang dapat terjadi akibat kehilangan sebagian informasi. Tujuan pengurangan dimensi dalam domain data mining adalah untuk mengidentifikasi biaya terkecil di mana algoritma data mining dapat menjaga tingkat kesalahan di bawah perbatasan garis efisiensi. Yang dimaksud dengan biaya adalah fungsi dari kompleksitas teoritis dari algoritma data mining yang berasal dari model, dan berkorelasi dengan waktu yang dibutuhkan algoritma tersebut dalam menjalankan model, serta

ukuran dari kumpulan data (Maimon & Rokach, 2010). Tujuan seleksi atribut adalah untuk mengidentifikasi tingkat kepentingan atribut dalam kumpulan data, dan membuang semua atribut lain seperti informasi yang tidak relevan dan berlebihan. Karena seleksi atribut mengurangi dimensi dari data, maka hal ini akan memungkinkan operasi algoritma data mining dapat berjalan lebih efektif dan lebih cepat. Dalam beberapa kasus dengan dilakukannya seleksi atribut dihasilkan peningkatan tingkat akurasi klasifikasi (Maimon & Rokach, 2010). Alasan untuk melakukan pengurangan dimensi yaitu (Maimon & Rokach, 2010):

1) Penurunan biaya model pembelajaran 2) Meningkatkan kinerja model pembelajaran 3) Mengurangi dimensi yang tidak relevan 4) Mengurangi dimensi yang berlebihan

Metode seleksi fitur dapat diklasifikasikan ke dalam tiga kategori utama (Vercellis, 2009):

1) Metode filter

Metode Filter adalah memilih atribut yang relevan sebelum pindah ke tahap pembelajaran berikutnya, atribut yang dianggap paling penting yang dipilih untuk pembelajar, sedangkan sisanya dikecualikan.

2) Metode wrapper

Metode wrapper menilai sekelompok variabel dengan menggunakan klasifikasi yang sama atau algoritma regresi digunakan untuk memprediksi nilai dari variabel target.

3) Metode embedded

Untuk metode embedded, proses seleksi atribut terletak di dalam algoritma pembelajaran, sehingga pemilihan set optimal atribut secara langsung dibuat selama fase generasi model.

Algoritma Particle swarm optimization PSO pertama kali diusulkan oleh Kennedy dan Eberhart pada tahun 1995. Particle swarm optimization (PSO) adalah jenis algoritma kecerdasan yang berasal dari perilaku kawanan burung mencari makan (Yun, Qiu-yan & Hua, 2011). Dapat diasumsikan dengan sekelompok burung yang secara acak mencari makanan di suatu daerah. Hanya ada satu potong makanan di daerah yang dicari tersebut. Burung-burung tidak tahu di mana makanan tersebut. Tapi mereka tahu seberapa jauh makanan tersebut dan posisi rekan-rekan mereka. Jadi strategi terbaik untuk menemukan makanan adalah dengan mengikuti burung yang terdekat dari makanan (Abraham, Grosan & Ramos, 2006). Untuk menemukan solusi yang optimal, maka setiap partikel akan bergerak kearah posisi yang terbaik sebelumnya (pbest) dan posisi terbaik secara global (gbest). Modifikasi kecepatan dan posisi tiap partikel dapat dihitung menggunakan kecepatan saat ini dan jarak pbesti,d ke

pbestd seperti ditunjukkan oleh persamaan berikut:

vi,m = w.vi,m + c1 * R * (pbesti,m - xi,m) + c2 * R * (gbestm - xi,m)

xid = xi,m + vi,m

Dimana:

n : jumlah partikel dalam kelompok d : dimensi

(5)

INF-167

vi,m : kecepatan partikel ke-i pada iterasi ke-i

w : faktor bobot inersia

c1, c2 : konstanta akeselerasi (learning rate)

R : bilangan random (0-1)

xi,d : posisi saat ini dari partikel ke-i pada iterasi

ke-i

pbesti : posisi terbaik sebelumnya dari partikel ke-i

gbest : partikel terbaik diantara semua partikel

dalam satu kelompok atau populasi

Cross Validation adalah teknik validasi dengan

membagi data secara acak kedalam k bagian dan masing-masing bagian akan dilakukan proses klasifikasi (Han & Kamber, 2006). Dengan menggunakan cross validation akan dilakukan percobaan sebanyak k. Data yang digunakan dalam percobaan ini adalah data training untuk mencari nilai error rate secara keseluruhan. Secara umum pengujian nilai k dilakukan sebanyak 10 kali untuk memperkirakan akurasi estimasi. Dalam penelitian ini nilai k yang digunakan berjumlah 10 atau 10-fold Cross

Validation. tiap percobaan akan menggunakan satu data

testing dan k-1 bagian akan menjadi data training, kemudian data testing itu akan ditukar dengan satu buah data training sehingga untuk tiap percobaan akan didapatkan data testing yang berbeda-beda.

Confusion matrix memberikan keputusan yang

diperoleh dalam traning dan testing, confusion matrix memberikan penilaian performance klasifikasi berdasarkan objek dengan benar atau salah (Gorunescu, 2011). Confusion matrix berisi informasi aktual (actual) dan prediksi (predicted) pada sistem klasifikasi. Adapun persamaan model confusion matrix adalah:

1) Nilai Accuracy adalah proporsi jumlah prediksi yang benar.

2) Sensitivity digunakan untuk membandingkan proporsi TP terhadap tupel yang positif.

3) Specificity digunakan untuk membandingan proporsi TN terhadap tupel yang negatif.

4) PPV (positive predictive value) adalah proporsi kasus dengan hasil diagnosa positif.

5) NPV (negative predictive value) adalah proporsi kasus dengan hasil diagnosa negatif.

Kurva ROC (Receiver Operating Characteristic) adalah alat visual yang berguna untuk membandingkan dua model klasifikasi. ROC mengekspresikan confusion

matrix. ROC adalah grafik dua dimensi dengan false positives sebagai garis horisontal dan true positives sebagai

garis vertikal (Vecellis, 2009). Dengan kurva ROC, kita dapat melihat trade off antara tingkat dimana suatu model dapat mengenali tuple positif secara akurat dan tingkat dimana model tersebut salah mengenali tuple negatif sebagai tuple positif. Sebuah grafik ROC adalah plot dua dimensi dengan proporsi positif salah (fp) pada sumbu X dan proporsi positif benar (tp) pada sumbu Y. Titik (0,1) merupakan klasifikasi yang sempurna terhadap semua kasus positif dan kasus negatif. Nilai positif salah adalah tidak ada (fp = 0) dan nilai positif benar adalah tinggi (tp = 1). Titik (0,0) adalah klasifikasi yang memprediksi setiap kasus menjadi negatif {-1}, dan titik (1,1) adalah klasifikasi

yang memprediksi setiap kasus menjadi positif {1}. Tingkat akuransi nilai AUC dalam klasifikasi data mining dibagi menjadi lima kelompok (Gorunescu, 2011), yaitu:

1) 0.90 - 1.00 = klasifikasi sangat baik (excellent classification)

2) 0.80 - 0.90 = klasifikasi baik (good classification) 3) 0.70 - 0.80 = klasifikasi cukup (fair classification) 4) 0.60 - 0.70 = klasifikasi buruk (poor classification)

5) 0.50 - 0.60 = klasifikasi salah (failure)

Penelitian adalah sebuah kegiatan yang bertujuan untuk membuat kontribusi orisinal terhadap ilmu pengetahuan (Dawson, 2009). Penelitian ini menggunakan penelitian eksperimen. Penelitian eksperimen melibatkan penyelidikan perlakuan pada parameter atau variabel tergantung dari penelitinya dan menggunakan tes yang dikendalikan oleh si peneliti itu sendiri. Dengan metode penelitian sebagai berikut:

1) Pengumpulan data

Pada bagian ini dijelaskan tentang bagaimana dan darimana data dalam penelitian ini didapatkan.

2) Pengolahan awal data

Pada bagian ini dijelaskan tentang tahap awal data mining. Pengolahan awal data meliputi proses input data ke format yang dibutuhkan, pengelompokan dan penentuan atribut data, serta pemecahan data (split) untuk digunakan dalam proses pembelajaran (training) dan pengujian (testing).

3) Model yang diusulkan

Pada tahap ini data dianalisis, dikelompokan variabel mana yang berhubungan dengan satu sama lainnya. Setelah data dianalisis lalu diterapkan model-model yang sesuai dengan jenis data. Pembagian data kedalam data latihan (training data) dan data uji (testing data) juga diperlukan untuk pembuatan model.

4) Eksperimen dan pengujian model

Pada bagian ini dijelaskan tentang langkah-langkah eksperimen meliputi cara pemilihan arsitektur yang tepat dari model atau metode yang diusulkan sehingga didapatkan hasil yang dapat membuktikan bahwa metode yang digunakan adalah tepat.

5) Evaluasi dan validasi hasil

Pada bagian ini dilakukan evaluasi dan validasi hasil penerapan terhadap model penelitian yang dilakukan untuk mengetahui tingkat keakurasian model.

Dalam penelitian ini, data yang diperoleh adalah data sekunder karena diperoleh dari data kredit German database dalam UCI machine learning responsitory. Data kredit German merupakan data publik karena data tersebut dipublikasikan dan data tersebut dapat diakses oleh siapa saja. Masalah yang harus dipecahkan di sini adalah penentuan penilaian kredit dari 1.000 nasabah 700 diidentifikasi sebagai nasabah yang baik dan 300 merupakan nasabah buruk. Terdiri dari 21 atribut. Variabel tersebut ada yang tergolong variabel prediktor atau pemrediksi yaitu variabel yang dijadikan sebagai penentu hasil penilaian kredit, dan variabel tujuan yaitu variabel yang dijadikan sebagai hasil penilaian kredit.

(6)

INF-168 Adapaun variabel prediktor yaitu: checking account,

Duration, history, Purpose, amount, Savings account, Present employment since, Installment rate in percentage of disposable income, Personal status and sex, Other debtors / guarantors, Present residence since, Property, Age in years, Other installment plans, Housing, Number of existing credits at this bank, Job, Number of people being liable to provide maintenance for, Telephone, foreign worker. Sendangkan

variabel tujuannya yaitu Response (UCI, 1996).

Jumlah data awal yang diperoleh dari pengumpulan data yaitu sebanyak 1.000 data, namun tidak semua data dapat digunakan dan tidak semua atribut digunakan karena harus melalui beberapa tahap pengolahan awal data (preparation data). Untuk mendapatkan data yang berkualitas, beberapa teknik yang dilakukan sebagai berikut (Vercellis, 2009):

1) Data validation

Untuk mengidentifikasikan dan menghapus data yang ganjil (outlier/noise), data yang tidak konsisten, dan data yang tidak lengkap (missing value).

2) Data integration and transformationi

Untuk meningkatkan akurasi dan efisiensi algoritma.

3) Data size reduction and discritization

Untuk memperoleh data set dengan jumlah atribut dan record yang lebih sedikit tetapi bersifat informative. Setelah dilakukan replace missing hasil menunjukkan bahwa tidak terdapat missing attribute yang terjadi, sehingga semua data dapat digunakan.

Model yang diusulkan pada penelitian ini adalah menggunakan algoritma support vector machine berbasis

particle swarm optimization, yang terlihat pada Gambar 1

dibawah ini.

Particle Swarm Optiization

Atribute Weighting represented by this particle

Traning SVM Model

Evaluation fitness of particle

Update particle best and global best

Update particle velocity and global position

Is stop condition satisfied ?

Optimal SVM Atribute obtined

Optimal SVM clasification model obtined A particle in the population Given a population of particles

with random positions and velocities

Yes No

Sumber: Hasil penelitian (2013)

Gambar 1 Model yang Diusulkan

HASIL DAN PEMBAHASAN

Dilakukan observasi terhadap variabel C, ε dan

population dari support vector machine dan particle swarm optimization. Hasilnya ditunjukkan oleh Tabel 1 dibawah

ini.

Tabel 1 Observasi C, ε dan population

C ε Population Accuracy AUC

1.0 0.0 5 77.20 % 0.776 1.0 0.0 10 77.40 % 0.786 0.0 1.0 20 70.00 % 0.500 0.0 1.0 30 70.00 % 0.500 1.0 1.0 40 70.00 % 0.500 2.0 2.0 100 70.00 % 0.500 1.0 1.0 200 70.00 % 0.500 Sumber: Hasil penelitian (2013)

Hasil observasi menunjukkan bahwa nilai tertinggi dari akurasi yaitu 77.40 % dan AUC yaitu 0.786 diperoleh dengan nilai C adalah 1.0, ε adalah 0.0 dan population 10. Maka nilai-nilai tersebut digunakan dalam penelitian ini. Langkah selanjutnya adalah menyeleksi atribut yang

(7)

INF-169

digunakan. Dari hasil eksperiment dengan menggunakan algoritma support vector machine berbasis particle swarm

optimization diperoleh hasil seperti dalam Tabel 2 dibawah

ini.

Tabel 2 Hasil Seleksi Atribut

Atribute Weight checking account 0.040 Duration 1 history 0.449 Purpose 0.970 amount 0.591 Savings account 1 Present employment since 1 Installment rate in percentage of

disposable income 1 Personal status and sex 0.737 Other debtors / guarantors 1 Present residence since 1

Property 0

Age in years 1

Other installment plans 0

Housing 0

Number of existing credits at this bank 1

Job 0

Number of people being liable to

provide maintenance for 0

Telephone 0.651

foreign worker 0.037 Sumber: Hasil penelitian (2013)

Hasil menunjukkan 20 variabel prediktor dilakukan seleksi atribut sehingga menghasikan terpilihnya 15 atribut yang digunakan.

Hasil pengujian dengan Confusion Matrik dari metode algoritma Support Vector Machine dan Support

Vector Machine berbasis Particle Swarm Optimization (PSO)

ditunjukkan dalam Tabel 3, dibawah ini.

Tabel 3 Nilai accuracy, sensitivity, specificity, ppv dan npv Support Vector Machine Support Vector Machine Berbasis PSO Accuracy 75.30 77.40 Sensitivity 78.78 80.54 Specificity 62.44 66.52 PPV 88.57 89.29 NPV 44.33 49.67 Sumber: Hasil penelitian (2013)

Hasil perhitungan divisualisasikan dengan kurva ROC. Perbandingan kedua class bisa dilihat pada Gambar 2 yang merupakan kurva ROC untuk algoritma Support

Vector Machine. Kurva ROC pada Gambar 2 mengekspresikan confusion matrix dari Tabel 3 Garis horizontal adalah false positives dan garis vertikal true

positives. Menghasilkan nilai AUC (Area Under Curve)

sebesar 0.780 dengan nilai akurasi klasifikasi cukup (fair

classification).

Gambar 2 Kurva ROC dengan Metode SVM

Sedangkan kurva ROC untuk algoritma Support

Vector Machine berbasis Particle Swarm Optimization.

Kurva ROC pada Gambar 3 mengekspresikan confusion

matrix dari Tabel 3. Garis horizontal adalah false positives

dan garis vertikal true positives. Menghasilkan nilai AUC

(Area Under Curve) sebesar 0.786 dengan nilai akurasi

klasifikasi cukup (fair classification).

Gambar 3 Kurva ROC dengan Metode SVM berbasis PSO Dari tabel 3, Gambar 2 dan Gambar 3 diatas, terlihat bahwa nilai accuracy dan AUC Support Vector Machine berbasis Particle Swarm Optimization lebih tinggi dibandingkan Support Vector Machine tunggal. Penerapan

Particle Swarm Optimization untuk seleksi atribut

menghasilkan peningkatan akurasi sebesar 2.1% dan AUC sebesar 0.006.

KESIMPULAN

Dalam penelitian ini dilakukan pengujian model dengan menggunakan Support Vector Machine dan Support

Vector Machine berbasis Particle Swarm Optimization

dengan menggunakan data kredit German. Model yang dihasilkan diuji untuk mendapatkan nilai accuracy dan AUC dari setiap algoritma sehingga didapat pengujian dengan menggunakan support vector machine didapat nilai

accuracy adalah 75.30 % dan nilai AUC adalah 0.780.

Sedangkan pengujian dengan mengunakan support vector

machine berbasis Particle Swarm Optimization dilakukan

seleksi atribut dan penyesuaian pada parameter C, ε dan

population. Dari 20 variabel prediktor dilakukan seleksi

atribut sehingga menghasikan terpilihnya 15 atribut yang digunakan. didapatkan nilai accuracy 77.40% dan nilai AUC adalah 0.786 Maka dapat disimpulkan pengujian data kredit German UCI data set menggunakan support vector

(8)

INF-170 dalam pemilihan atribut didapat bahwa metode tersebut

lebih akurat dalam penentuan penilaian kredit dibandingkan dengan metode support vector machine tunggal, ditandai dengan peningkatan nilai akurasi sebesar 2.1% dan nilai AUC sebesar 0.006, dengan nilai tersebut masuk kedalam klasifikasi akurasi cukup (fair

classification).

Dari hasil pengujian yang telah dilakukan dan hasil kesimpulan yang diberikan maka ada saran atau usul yang di berikan antara lain:

1) Untuk meningkatkan hasil optimasi dapat dilakukan metode pemilihan parameter dengan metode Genetic

Algorithm dan lain-lain.

2) Mencoba menerapkan metode optimasi yang lain sebagai bahan perbandingan.

UCAPAN TERIMA KASIH

Terima kasih kepada orang tua, kerabat, teman dan semua pihak yang tidak dapat disebutkan satu persatu sehingga penelitian ini selesai dilakukan.

REFERENSI

Abraham, A., Grosan, C., Ramos, V., (2006). Swarm

Intelligence in Data Mining. Springer-Verlag Berlin

Heidelberg.

Aydin, I., Karakose, M., & Akin, E. (2011). A multi-objective artificial immune algorithm for parameter optimization in support vector machine. Journal

Applied Soft Computing, 11, 120-129.

Bellotti, T., & Crook, J. (2007) Support vector machines for credit scoring and discovery of significant features.

Expert System with Application: An International Journal, 36, 3302-3308.

Bank Indonesia (2012). Statistik Perbankan Indonesia

Indonesian Banking Statistic. June, 2012. http://www.bi.go.id/NR/rdonlyres/B03D425D-9BEE-42A7-B500-

DE7C023507CE/26392/BISPIApril20121.pdf

Dawson, C. W. (2009). Projects in Computing and

Information System A Student's Guide. England:

Addison-Wesley.

Gang, W., Jinxing, H., Jian, M., & Hongbing, J. (2011). A comparative assessment of ensemble learning for credit scoring. Expert Systems with Applications: An

International Journal. 38, 223-230.

Gorunescu, Florin (2011). Data Mining: Concepts, Models,

and Techniques. Verlag Berlin Heidelberg: Springer.

Han, J., & Kamber, M. (2006). Data Mining Concepts and

technique. San Francisco: Diane Cerra

Heiat, A. (2011). Modeling Consumer Credit Scoring Through Bayes Network. World Journal of Social

Sciences. 3, 132-141.

Hian, C.K., Wei, C.T., & Chwee, P.G (2006). A Two-step Method to Construct Credit Scoring Models with Data Mining Techniques. International Journal of Business

and Information, 1, 96-118.

Jianguo, Z., & Tao, B. (2008). Credit Risk Assessment using Rough Set Theory and GA-based SVM. The 3rd

International Conference on Grid and Pervasive Computing, 320-325.

Larose, D. T. (2005).Discovering Knowledge in Data. New Jersey: John Willey & Sons, Inc.

Maimon, O., & Rokach, L. (2010). Data Mining and

Knowledge Discovery Handbook (2nd ed). New York:

Springer Dordrecht Heidelberg London

Mingyuan, Z., Chong, F., Luping, J., Mingtian, Z. (2011). Feature selection and parameter optimization for support vector machines: A new approach based on genetic algorithm with feature chromosomes. Expert

Systems with Applications: An International Journal,

38, 5197-5204.

Ming-hui.J., & Xu-chuang, Y. (2007). Construction and Application of PSO-SVM Model for Personal Credit Scoring. ICCS '07 Proceedings of the 7th international

conference on Computational Science,158-161.

Olson, D, & Shi, Y. (2008). Pengantar Ilmu Penggalian

Data Bisnis. Jakarta: Penerbit Salemba Empat.

Ping, Y. (2009). Feature selection based on SVM for credit scoring. International. Conference on Computational

Intelligence and Natural Computing, 2, 44-47.

Rivai, V., & Veithzal, A.P. (2006). Credit Management

Handbook. Jakarta: Raja GrafindoPersada.

Shuzhou, W., & Bo, M. (2011). Parameter Selection Algorithm for Support Vector Machine. Procedia

Environmental Sciences, 11, 538-544.

UCI (1994, November 12). German Credit data. Desember 3, 1996. http://archive.ics.uci.edu/ml/machine-learning- databases/statlog/german/german.data

UU Perbankan No.10 Tahun 1998.

[22] Vercellis, Carlo (2009). Business Intelligent: Data

(9)

INF-171

Southern Gate, Chichester, West Sussex: John Willey & Sons, Ltd.

Wei, X., Shenghu, Z., Dongmei, D. & Yanhui, C.(2010). A Support Vector Machine Based Method For Credit Risk Assessment. IEEE 7th_{International Conference on}

e-Business Engineering, 50-55.

Witten, I. H., Frank, E., & Hall, M. A. (2011).Data Mining:

Practical Machine Learning and Tools. Burlington:

Morgan Kaufmann Publisher.

Yun, L., Qiu-yan, C. & Hua, Z. (2011). Application of the PSO-SVM model for Credit Scoring. Seventh International

Conference on Computational Intelligence and Security,