• Tidak ada hasil yang ditemukan

BAB I PENDAHULUAN Latar Belakang

N/A
N/A
Protected

Academic year: 2021

Membagikan "BAB I PENDAHULUAN Latar Belakang"

Copied!
8
0
0

Teks penuh

(1)

1

BAB I

PENDAHULUAN

Latar Belakang

Kredit merupakan salah satu usaha sekunder yang dapat dilakukan untuk pemenuhan kebutuhan sehari-hari. Pada umumnya, proses kredit dapat dilayani melalui lembaga keuangan seperti bank atau lembaga keuangan lainnya. Keputusan dalam memberikan kredit merupakan salah satu hal yang krusial yang harus dihadapi oleh setiap bank atau lembaga keuangan lain. Apabila kredit tersebut dialokasikan kepada debitur (orang yang melakukan kredit) yang benar, maka bank atau lembaga keuangan itu akan memperoleh keuntungan. Di sisi lain, pemberian kredit bukan tanpa risiko, apabila kredit yang diberikan tergolong dalam jumlah besar dan ternyata debitur mengalami proses gagal bayar, maka hal ini dapat berakibat fatal pada eksistensi bank tersebut. Oleh karena itu, bank yang menyediakan jasa kredit bagi nasabah perlu melakukan sistem manajemen risiko untuk menghindari dampak terburuk dari kejadian gagal bayar yang dilakukan debitur.

Salah satu cara untuk mengelola risiko kredit dengan melakukan credit

scoring. Credit scoring merupakan teknik yang paling umum digunakan untuk

mengevaluasi tingkat kelayakan kredit dengan mempertimbangkan beberapa jenis atribut. Metode ini secara objektif untuk membagi pemohon kredit menjadi dua kategori berdasarkan kemungkinan perilaku pembayaran, yaitu debitur yang baik, tipe debitur ini memiliki kemungkinan akan membayar hutangnya tepat waktu dan selanjutnya menerima kredit. Dan kategori kedua adalah debitur yang buruk, tipe debitur yang permohonan kreditnya ditolak karena memiliki kemungkinan gagal bayar tinggi.

Credit scoring bisa dikerjakan dengan menggunakan metode prediksi

statistik, menggunakan teknik pemodelan berdasarkan data kredit pada masa lalu (history data). Pemodelan untuk credit scoring ada dua yaitu unsupervised learning dan supervised learning. Beberapa metode scoring model dengan unsupervised

(2)

learning, yaitu analisis klaster, k-nearest neighbour, learning vector quantization,

dll. Unsupervised learning tidak membutuhkan acuan awal untuk memperoleh nilai sehingga sistem ini memberikan hasil sepenuhnya pada setiap komputasi. Model lain dari credit scoring adalah supervised learning. Supervised learning sedikit berbeda dengan unsupervised learning karena pada metode supervised learning dibutuhkan acuan awal untuk memperoleh nilai atau biasa disebut predefined class. Banyak sekali metode yang masuk ke dalam supervised learning, yaitu Support

Vector Machine, CHAID, C4.5, C5.0, ID3, CART, QUEST, dll.

Clustering adalah bagian dari unsupervised learning yang digunakan untuk mengelompokkan data berdasarkan kemiripan atribut-atribut dari data tersebut sebelum diolah dalam data mining. Dalam dunia perbankan, segmentasi nasabah memungkinkan tidak hanya dalam mengurangi risiko kredit, namun juga menyesuaikan layanan atau produk yang akan diberikan kepada nasabah sesuai dengan kebutuhan dan ketertarikan mereka. Menurut Luo, dkk. (2003) salah satu kelebihan dari analisis klaster adalah tidak membutuhkan asumsi distribusi tertentu dalam data, sehingga metode ini sesuai untuk credit risk analysis.

Dalam perkembangannya, terdapat dua metode analisis klaster yang populer yaitu metode hierarchical dan metode partitional. Metode hierarchical secara umum mendiskripsikan analisis klaster dari kedekatan-kedekatan objek, meliputi didalamnya adalah jarak antar objek. Sehingga secara garis besar akan membentuk sebuah diagram pohon yang biasanya disebut dengan dendogram. Dari dendogram tersebut bisa dijelaskan bahwa proses klaster didasarkan pada kedekatan-kedekatan antar objek. Objek yang memiliki kedekatan yang cukup tinggi akan membentuk satu klaster, begitu seterusnya hingga terbentuk cluster yang diinginkan.

Metode selanjutnya adalah metode partitional, dimana data yang dipartisi dilihat dari seberapa dekat jarak objek-objek tersebut. Pada metode ini, jumlah klaster harus dideskripsikan terlebih dahulu sebelum proses dimulai. Salah satu metode yang partitional clustering yang populer adalah k-means clustering.

Seperti yang kita tahu bahwa metode k-means hanya dapat digunakan secara efisien dalam melakukan segmentasi terhadap data numerik. Berbagai macam cara digunakan dalam melakukan segmentasi terhadap data campuran yang terdiri dari

(3)

numerik dan kategorik, salah satunya dengan melakukan numerisasi data kategorik. Namun, cara ini tidak dibenarkan karena akan mengubah nilai dari data tersebut. Salah satu metode yang tepat untuk melakukan segmentasi terhadap data campuran yang terdiri dari numerik dan kategorik adalah menggunakan algoritma

k-prototypes.

Penggunaan metode analisis klaster k-prototypes merupakan pilihan yang tepat untuk mengatasi sifat keheterogenan dalam data debitur. Hal ini dikarenakan algoritma analisis klaster k-prototypes tepat untuk mengatasi data dengan tipe campuran yang terdiri dari numerik dan kategorik. Selain menggunakan metode

prototypes, penulis juga akan membandingkan bagaimana performa metode k-prototypes dengan metode modified k-k-prototypes, dimana keduanya berbeda dalam

menentukan jarak antar objek.

Decision tree merupakan salah satu metode dalam supervised learning yang

digunakan untuk mengklasifikasi dan menyusun pohon keputusan. Kelebihan

decision tree ini adalah mudah diinterpretasikan, dapat menggunakan data yang

kontinu, dan mudah diintegrasikan dengan sistem basis data. Kekurangan dari

decision tree ini adalah hubungan yang dibentuk pada decision tree mungkin saja

tidak nyata dan metode dalam decision tree tidak mampu menangani data outlier. Beberapa algoritma yang dapat digunakan dalam pembentukan pohon keputusan, antara lain ID3, CART, C4.5, CHAID, dan C5.0. Perbedaan dari metode-metode tersebut adalah pada algoritma yang digunakan dan prunning (pemangkasan pohon keputusan) yang digunakan. Algoritma C5.0 merupakan penyempurnaan dari algoritma C4.5, dimana algortima ini lebih efisien dalam membentuk pohon keputusan dan lebih cepat dalam prosesnya.

Kedua metode tersebut, unsupervised learning dan supervised learning, dapat digabungkan menjadi satu untuk pemodelan credit scoring yang disebut metode hybrid. Metode hybrid memiliki kelebihan yaitu memiliki ketepatan prediksi yang lebih baik dalam memutuskan pemberian kredit kepada nasabah dibandingkan metode yang menggunakan teknik terpisah karena pada metode

hybrid dapat saling melengkapi kekurangan dan kelebihan yang terdapat pada unsupervised maupun supervised learning.

(4)

Batasan Masalah

Batasan masalah merupakan salah satu hal yang penting dilakukan dalam suatu penulisan. Hal ini dilakukan agar tidak terjadi penyimpangan dari tujuan awal yang ingin dicapai. Tugas akhir ini difokuskan pada pembentukan pohon keputusan dan aturan klasifikasi debitur baik dan debitur buruk dengan menggunakan algortima C5.0 untuk setiap klaster yang dihasilkan oleh analisis klaster dengan metode modified k-prototypes. Dalam pemilihan jumlah cluster yang optimal digunakan silhouette width disetiap akhir proses analisis klaster. Untuk evaluasi dan validasi performa analisis klaster digunakan beberapa metode yaitu silhouette

width, dunn index, dan connectivity. Variabel yang digunakan dalam tugas akhir ini

difokuskan pada data dengan atribut campuran dari numerik dan kategorik.

Tujuan Penelitian

Penyusunan tugas akhir ini dimaksudkan sebagai salah satu syarat untuk mencapai derajat S1 pada program Studi Statistika FMIPA UGM. Berikut adalah tujuan penulisan dari tugas akhir ini:

1. Mengetahui prosedur metode hybrid dengan kombinasi dari modified

k-prototypes dan pohon keputusan dengan algoritma C5.0 dalam

penerapannya pada kasus credit scoring,

2. Mengaplikasikan metode analisis klaster prototypes dan modified

k-prototypes dalam melakukan segmentasi terhadap data kredit nasabah

Bank Perkreditan Rakyat (BPR) Bhumipala Yogyakarta dan menentukan jumlah klaster yang optimal menggunakan silhouette width, 3. Membandingkan performa metode prototypes dan modified

k-pototypes menggunakan metode internal validation,

4. Mengaplikasikan algoritma C5.0 dalam membentuk pohon keputusan dan aturan klasifikasi debitur baik dan debitur buruk dari Bank Perkreditan Rakyat (BPR) Bhumipala Yogyakarta.

Metode Penulisan

Metode penulisan yang dilakukan oleh penulis dalam penyusunan tugas akhir ini berupa studi literatur dengan sumber yang diperoleh dari perpustakaan,

(5)

jurnal-jurnal ilmiah, dan sumber-sumber lain yang diperoleh dari internet. Penulis menyelesaikan studi kasus pada tugas ini dengan menggunakan bantuan software Microsoft Excel 2013 dan RStudio. Data yang diperoleh penulis adalah data sekunder dari Bank Perkreditan Rakyat (BPR) Bhumipala Yogyakarta yang berupa data kredit nasabah.

Tinjauan Pustaka

Analisis klaster telah diselidiki secara luas dalam berbagai literatur. Dardac dan Boitan (2009), melakukan penelitian menggunakan agglomerative hierarchical

clustering untuk profilisasi risiko bank yang dilakukan terhadap 16 institusi

perkreditan di Romania. Hasilnya bahwa analisis klaster sebagai teknik analisis data eksplorasi terbukti berguna tidak hanya untuk menilai kelompok homogen perbankan dalam hal profilisasi risiko dan profitabilitas, tetapi juga dapat mengidentifikasi kelompok perbankan dengan karakteristik serupa dalam aktivitas intermediasi keuangan, kelompok perbankan besar dan kompleks, atau tingkat integrasi keuangan di industri perbankan kawasan Eropa.

Zakrzewska dan Murlewski (2005), melakukan penelitian dengan membandingan performa dari berbagai algoritma analisis klaster untuk segmentasi nasabah bank, hasilnya algoritma k-means adalah metode yang paling efisien dalam melakukan segmentasi untuk data set multidimensi.

Dari kedua kasus tersebut, metode analisis klaster dapat digunakan dalam segmentasi pada dunia perbankan, namun kelemahan kedua penelitian tersebut adalah keduanya melakukan numerisasi terhadap data kategorik untuk melakukan segmentasi dengan metode k-means dan agglomerative hierarchical clustering.

Algoritma analisis klaster k-prototypes (Huang, 1997) merupakan salah satu algoritma analisis klaster untuk data dengan atribut campuran dari numerik dan kategorik dengan berukuran besar yang pertama diperkenalkan. Algoritma ini merupakan perluasan dari algoritma analisis klaster k-means untuk mengelompokkan data campuran. Algoritma analisis klaster k-means sederhana tidak dapat diaplikasikan untuk data campuran dari numerik dan kategorik,

(6)

sehingga Huang menggunakan kombinasi dari ukuran jarak pada means dan

k-modes untuk melakukan analisis klaster pada data dengan atribut campuran.

Berawal dari algoritma k-prototypes, Ahmad dan Dey (2007) mengenalkan fungsi jarak ketidaksamaan untuk data campuran yang merupakan pengembangan dari fungsi jarak yang digunakan pada prototypes. Diketahui bahwa pada

k-prototypes pembobotan pada atribut numerik sama yaitu 1, sedangkan pada atribut

kategorik pembobotan didefinisikan oleh peneliti, sehingga pembobotan yang tidak sesuai akan menghasilkan segmentasi yang tidak akurat. Pada fungsi jarak ketidaksamaan yang dikemukakan oleh Ahmad dan Dey dilakukan pengembangan sehingga pembobotan tersebut berdasarkan distribusi dari data, bukan definisi dari peneliti. Untuk selanjutnya metode analisis klaster yang dikemukakan oleh Ahmad dan Dey disebut dengan modified k-prototypes.

Rousseuw (1986) menemukan metode silhouette width yang digunakan untuk mengevaluasi hubungan antara objek dan klaster. Metode ini menerangkan apakah suatu objek sudah layak dikelompokkan dalam suatu klaster tertentu. Selanjutnya, Kaufman dan Rousseuw (1990) menjelaskan lebih lanjut interpretasi dari skala nilai silhouette width.

Brock (2008) menyatakan ada tiga metode yang digunakan untuk melakukan internal validation dari suatu klaster. Ketiga metode tersebut adalah

silhouette width, dunn index, dan connectivity. Setiap metode tersebut

menginterpretasikan nilai yang berbeda dari model yang terbentuk oleh suatu metode analisis klaster.

Zakarewska (2007) mengintegrasikan metode unsepervised learning dan supervised learning dalam mengevaluasi risiko kredit. K-means diambil sebagai metode unsupervised learning dan C4.5 diambil sebagai metode supervised learning. Hasilnya adalah, integrasi dari kedua metode tersebut menghasilkan pohon keputusan yang lebih sederhana dan akurasi yang lebih tinggi daripada tanpa dilakukan analisis klaster terlebih dahulu.

Pang dan Gong (2009) membandingkan algoritma C4.5 dan C5.0 terhadap data kredit bank Jerman pada UCI Machine Learning Repository. Berdasarkan penelitian tersebut, diketahui bahwa algoritma C5.0 memiliki tingkat akurasi yang

(7)

baik dibandingkan algoritma C4.5. Selain itu, algoritma C5.0 tersebut memiliki nilai risiko yang kecil.

Fadilla (2012) membahas credit scoring menggunakan metode hybrid kombinasi k-means cluster dan algoritma C4.5. Penelitian ini menggunakan data sekunder German Credit Dataset yang diperoleh dari UCI Machine Learning

Repository. Dari hasil analisis yang dilakukan didapatkan bahwa metode hybrid

dapat menyempurnakan metode yang telah digunakan untuk menganalisis credit

scoring. Credit scoring dalam data mining biasanya hanya menggunakan satu jenis

alat, supervised learning atau unsupervised learning. Namun, dengan adanya eksperimen ini telah membuktikan keduanya bisa digabungkan.

Fatikha (2016) melakukan analisis terjadinya data kecelakaan menggunakan

k-modes dan aturan asosiasi. Penelitian ini disusun untuk mencari tahu hubungan

antar variabel pada saat terjadinya kecelakaan. Analisis klaster digunakan untuk mengelompokkan objek kedalam klaster yang lebih homogen, karena keheterogenan dalam data membuat aturan asosiasi tidak bekerja dengan baik.

Anugrah (2015) melakukan perbandingan performansi dari algoritma C5.0 dan CHAID. Kedua algoritma tersebut digunakan untuk mengklasifikasi pendapatan penduduk. Hasilnya, algoritma C5.0 lebih akurat dalam melakukan klasifikasi daripada algoritma CHAID.

Rani dan Xavler (2015) melakukan penelitian dengan mengkombinasikan dua metode supervised learning. Kedua metode tersebut adalah algoritma C5.0 dan

one-class SVM. Hasilnya adalah kombinasi dari kedua metode tersebut

meningkatkan akurasi dan mengurangi gangguan pada klasifikasi data, jika dibandingka kedua metode dilakukan secara terpisah.

Sistematika Penulisan

Sistematika penulisan dalam tugas akhir ini terdiri dari 5 bagian, berikut penjelasan untuk masing-masing bagian:

BAB I PENDAHULUAN

Bab ini berisi latar belakang dan permasalahan, batasan masalah, tujuan penelitian, metode penelitian, tinjauan pustaka, dan

(8)

sistematika penulisan yang memberikan arah terhadap penulisan tugas akhir ini.

BAB II LANDASAN TEORI

Bab ini berisi tentang teori dasar yang menunjang pembahasan mengenai analisis klaster dan pohon keputusan .

BAB III METODE HYBRID KOMBINASI DARI MODIFIED

K-PROTOTYPES DAN C5.0 UNTUK CREDIT SCORING

Bab ini membahas mengenai topik tugas akhir yakni analisis teoritis dari metode clustering k-prototypes, modified k-prototypes, dan pohon keputusan C5.0.

BAB IV STUDI KASUS

Bab ini berisi tentang contoh kasus dari teknik yang digunakan dengan memberikan pembahasan sejauh mana hasil tersebut dapat dijadikan sebagai bahan kesimpulan.

BAB V KESIMPULAN DAN SARAN

Bab ini berisi tentang kesimpulan-kesimpulan yang diperoleh dari pemecahan masalah dan saran sebagai akibat dari kekurangan dan kelebihan dari hasil tugas akhir yang dilakukan.

Referensi

Dokumen terkait

Berdasarkan hasil penelitian dan analisis yang telah diuraikankan pada bagian pembahasan, peneliti merinci kesimpulan dan saran mengenai penelitian tentang fungsi media

Dalam hal terdapat perbedaan data antara DIPA Petikan dengan database RKA-K/L-DIPA Kementerian Keuangan maka yang berlaku adalah data yang terdapat di dalam database

Pada saat Peraturan Daerah ini mulai berlaku, Peraturan Daerah Nomor 15 Tahun 2004 tentang Kedudukan Protokoler Dan Keuangan Pimpinan Dan Anggota Dewan Perwakilan Rakyat

5(3) Akta tersebut, Pengawal sebelum meluluskan pemohonan pemaju tersebut, akan dapat mengetahui mengenai kedudukan pemaju perumahan tersebut sama ada sesuai dan wajar

PEMBANGUNAN DAN PENINGKATAN FASILITAS LLAJ DI JALUR MARGONDA RAYA 137.518.000,00... PEMBUATAN SEPARATOR JALUR

Produktivitas tangkapan adalah volume produksi tangkapan ikan laut segar di bagi dengan jumlah trip di Sulawesi Selatan (gabungan perairan wilayah Kabupaten

Upaya apa sajakah yang dilakukan oleh sekolah, dalam hal ini kepala sekolah untuk mengatasi hambatan-hambatan dalam penerapan nilai toleransi antarumat beragama

Jika semua sample dengan ukuran tertentu diambil dari suatu populasi, maka distribusi sampling dari sample mean akan mendekati distribusi normal. Aproksimasi ini akan menjadi lebih