BAB II LANDASAN TEORI

(1)

7

BAB II

LANDASAN TEORI

2.1. Tinjauan Jurnal

Literatur mengenai penelitian klasifikasi risiko kredit dengan menggunakan German credit datasets sudah pernah dilakukan dengan beberapa metode dan pendekatan algoritma diantaranya:

Baesens, Setiono, Viaene, dan Vanthienen pada tahun 2001 dalam penelitiannya terhadap pemodelan data mining pada german credit datasets mengevaluasi tiga teknik ekstraksi aturan Neural Network, yaitu Neurorule, Trepan, dan Nefclass untuk evaluasi risiko kredit. Kemudian hasilnya dibandingkan dengan algoritma C4.5, baik keringkasan dan kekuatan prediksinya. Hasil dari penelitian menunjukkan bahwa Neurorule mampu mengekstrak pohon keputusan dan aturan yang ringkas dengan akurasi prediksi yang baik dengan nilai 75,15%

dan kompleksitas aturan 7 proportional rule dengan menggunakan 6 fitur (checking account, savings account, other parties, credit history, duration, dan other installment plans). Oleh karena itu, penggunaan ekstraksi aturan Neural Network, dalam kombinasi dengan tabel keputusan, membentuk alternatif untuk membangun sistem pakar evaluasi risiko kredit (Baesens, Setiono, Mues, Viaene, & Vanthienen, 2001). Gonen, Gonen, dan Gurgen pada tahun 2012 dalam penelitiannya memperkenalkan dua varian algoritma klasifikasi biner yang berbeda dengan kemampuan seleksi fitur group-wise.

(2)

Varian ini berasal dari classifier probit menggunakan struktur prior spesifik dan dari beberapa pembelajaran kernel menggunakan strategi perhitungan kernel tertentu yaitu non-sparse dan sparse untuk seleksi fitur. Kedua formulasi memungkinkan untuk dilakukan seleksi group-wise pada kelompok fitur CRA (fitur yang diperoleh dari variabel kategoris menggunakan 1-of-k encoding). Hasil penelitian pada german credit dataset menunjukkan validitas dan efektivitas varian algoritma klasifikasi biner dengan seleksi fitur sparse menghilangkan kernel masukan lebih banyak, yang mengarah ke fitur yang lebih ketat dalam seleksi kelompok fitur dengan hasil evaluasi untuk akurasi 75% dan AUC 0,78 dari 18 fitur seleksi (Gonen, Gonen, & Gurgen, 2012).

Khan dan Peer pada tahun 2013 dalam penelitiannya untuk klasifikasi risiko kredit menunjukkan akurasi dari beberapa metode diantaranya RBT 69%, OneR Classifier 64%, Naive Bayes 75,5%, ANN 68,5%, C4.5 69,5%, dan Random Forest 74,5%. Dilihat dari hasil evaluasi diketahui bahwa Naive Bayes memiliki akurasi paling tinggi untuk klasifikasi German credit dataset. Namun hal ini mungkin tidak sama untuk semua dataset. Umumnya sebuah classifier yang digunakan harus disesuaikan dengan berbagai tipe dataset (Khan & Peer, 2013).

Mirtalaei, Saberi, Hussain, Ashjari, dan Hussain pada tahun 2012 dalam penelitiannya mengusulkan algoritma terpadu yang mampu memprediksi status kredit pelanggan berdasarkan tingkat kepercayaan mereka. Model ini akan sangat berlaku untuk e-bisnis dan lingkungan virtual dimana konsep kepercayaan memainkan peran penting dalam memastikan kelancaran transaksi.

(3)

Pada tahap pertama, dilakukan pengurangan dimensi masalah menggunakan algoritma seleksi fitur yang menghasilkan 8 fitur (duration, employment, credit history, credit amount, checking status, savings status, property, dan installment).

Pemodelan klasifikasi mengunakan ANNs dengan evaluasi menggunakan MAPE.

Hasil dari penelitian ini adalah membagi label berdasarkan nilai kepercayaan menjadi 6 level, diantaranya very weak, weak, medium, medium high, high, dan very high. Dari enam tingkat kategorisasi ini akan membantu pemegang keputusan untuk memilih kebijakan yang tepat untuk berbagai jenis pelanggan sekaligus mempertimbangkan status kepercayaan mereka (Mirtalaei, Saberi, Hussain, Ashjari, & Hussain, 2012).

O'Dea, Griffith, dan O'Riordan pada tahun 2001 dalam penelitiannya menyajikan suatu pendekatan untuk masalah klasifikasi yang menggabungkan seleksi fitur dengan neural networks. Motivasi dari penelitian ini adalah memperoleh pendekatan dengan akurasi yang tinggi, ketahanan terhadap noise dan meningkatkan waktu komputasi dengan pengurangan jumlah atribut. Hasil yang diperoleh menunjukkan akurasi sebesar 74,25% dengan fitur seleksi sebanyak 7 fitur (status, duration, credit history, credit amount, savings, housing, dan foreign worker) (O'Dea, Griffith, & O'Riordan, 2001).

Ratanamahatana dan Gunopulos pada tahun 2002 dalam penelitiannya menggunakan C4.5 untuk fitur seleksi dalam meningkatkan pembelajaran Naive Bayes. Bukti empiris menunjukkan bahwa metode ini sangat cepat dan berhasil, mengingat sifat yang sangat berbeda dari dua metode klasifikasi.

(4)

Penelitian ini menunjukkan bahwa algoritma C4.5 secara sistematis memilih fitur untuk algoritma Naive Bayes. Alasan dari penggabungan algoritma ini adalah bahwa C4.5 tidak menggunakan atribut berlebihan dalam membangun pohon keputusan. Hasil dari penelitian ini menunjukkan bahwa akurasi algoritma Naive Bayes sebesar 75,35% dengan seleksi fitur sebanyak 6 fitur (Ratanamahatana

& Gunopulos, 2002).

Pada penelitian yang akan dilakukan mengadopsi beberapa algoritma dan metode seleksi fitur yang dinyatakan pada penelitian sebelumnya untuk klasifikasi risiko kredit pada German credit dataset. Perbedaan penelitian ini dengan penelitian sebelumnya adalah pada penelitian ini menggunakan metode SVM.

2.2. Konsep Dasar Program

Pemrograman tidak terlepas dari konsep kerja sebuah komputer, terdapat logika dasar input, proses dan output, artinya ada data yang harus diinput, baik itu secara langsung maupun tidak langsung, selanjutnya akan diproses, lalu ditampilkan ke layar. Algoritma merupakan fondasi yang harus dipahami untuk dapat menyelesaikan suatu masalah dengan komputer. Algoritma adalah susunan langkah penyelesaian suatu masalah secara sistematika dan logis. Membangun sebuah program pada dasarnya adalah membuat alat bantu untuk menyelesaikan masalah. (Sitorus, 2015).

Program pada dasarnya berisi rangkaian instruksi yang saling terkait satu dengan lainnya dan tersusun secara terstruktur sedemikian sehingga apabila program tersebut dijalankan akan menghasilkan output yang diharapkan (Sitorus, 2015).

(5)

Sementara menurut (Harumy, Windarto, & Sulistianingsih, 2016), program adalah formulasi sebuah algoritma dalam bentuk bahasa pemrograman, sehingga siap untuk dijalankan pada mesin komputer. Sebelum dapat menghasilkan program yang mampu menyelesaikan masalah, terdapat 3 (tiga) tahapan pokok (Sitorus, 2015), yaitu:

1. Memahami permasalahan dan tujuan sebuah program dibuat. Pada tahap ini kita harus mampu mengidentifikasi jenis, bentuk dan karakteristik input serta output yang diharapkan.

2. Mampu menyusun konsep/rancangan/desain penyelesaian dari masalah yang akan kita selesaikan. Dari hasil pemahaman terhadap permasalahan diatas, selanjutnya harus dapat mampu merancang sebuah alur proses untuk mengolah data

3. Mampu mengimplementasikan hasil rancangan dalam bentuk program yang terstruktur. Program tersebut dapat dibuat dengan menggunakan bahasa pemrograman.

2.3. Kredit

Menurut Kasmir, kredit berasal dari kata Yunani “Credere” yang berarti kepercayaan, atau berasal dari Bahasa Latin “Creditum” yang berarti kepercayaan akan kebenaran (Pratama, 2010). Pengertian tersebut kemudian dibakukan oleh pemerintah dengan dikeluarkannya Undang-Undang Pokok Perbankan No.14 tahun 1967 Bab 1 Pasal 1,2 yang merumuskan pengertian kredit sebagai penyediaan uang atau yang disamakan dengan itu.

(6)

Berdasarkan persetujuan pinjam meminjam antara bank dengan lain pihak peminjam, berkewajiban melunasi hutangnya setelah jangka waktu tertentu dengan jumlah bunga yang telah ditentukan. Selanjutnya pengertian kredit tersebut disempurnakan lagi dalam Undang-Undang No.7 tahun 1992 tentang Perbankan, sebagaimana telah diubah dengan Undang-Undang No.10 tahun 1998, yang mendefinisikan pengertian kredit adalah penyediaan uang atau tagihan yang dapat dipersamakan dengan itu, berdasarkan persetujuan atau kesepakatan pinjam meminjam untuk melunasi hutangnya setelah jangka waktu tertentu dengan jumlah bunga.

Sebelum debitur memperoleh kredit, terlebih dahulu harus melalui tahap- tahap penilaian mulai dari pengajuan proposal kredit dan dokumen-dokumen yang diperlukan, pemeriksaan keaslian dokumen, analisis kredit sampai dengan kredit dikucurkan (Triwahyuniati, 2008). Dalam penilaian layak atau tidak suatu kredit disalurkan, maka perlu dilakukan suatu penilaian kredit. Penilaian kelayakan suatu kredit dapat dilakukan dengan menggunakan analisis 5C’s, namun untuk kredit yang lebih besar jumlahnya perlu dilakukan metode penilaian dengan studi kelayakan. Dalam studi kelayakan ini, setiap aspek dinilai apakah memenuhi syarat atau tidak. Adapun aspek-aspek yang dinilai dalam pemberian suatu fasilitas kredit diantaranya:

1. Dari segi Character (watak), maka penilaiannya meliputi riwayat hidup calon debitur, mencakup reputasi calon debitur di lingkungan bisnis atau usahanya dan riwayat hubungan calon debitur dengan bank.

(7)

2. Dari segi Capacity (kemampuan), penilaiannya meliputi pengalaman dari calon debitur dalam mengelola usahanya, termasuk sumber daya manusia yang dimilikinya.

3. Dari segi Capital (modal), penilaiannya keuangan perusahaan yang dilihat dari laporan keuangan yaitu neraca dan laporan rugi dan laba 3 (tiga) tahun terakhir.

4. Dari segi Collateral (jaminan), penilaiannya meliputi barang jaminan yang diserahkan calon debitur kepada bank sebagai jaminan atas kredit yang diterimanya. Adapun kriteria barang jaminan yang harus diserahkan oleh calon debitur adalah:

a. Memiliki nilai yang lebih besar dari jumlah nilai fasilitas kredit.

b. Mempunyai nilai ekonomis yang lebih panjang jangka waktunya dibanding dengan jangka waktu fasilitas kredit yang diberikan.

c. Secara fisik tidak mudah rusak.

d. Dapat diperjualbelikan secara bebas dan relatif mudah dengan biaya yang relatif kecil.

e. Dapat diasuransikan.

Barang jaminan dari segi hukum atau yuridis adalah sebagai berikut:

a. Benar-benar milik calon debitur atau orang atau pihak ketiga yang bersedia menjaminkan.

b. Tidak dalam kondisi dijaminkan kepada pihak lain, tidak dalam sengketa, atau disita dalam suatu kasus perkara di pengadilan.

c. Memiliki bukti kepemilikan yang sah dan masih berlaku serta telah mempunyai kekuatan hukum.

(8)

d. Dapat dilakukan pengikatan secara nyata dengan menggunakan lembaga jaminan sesuai ketentuan yang berlaku.

e. Tidak terhutang pajak.

5. Condition of Economy (keadaan ekonomi), menilai keadaan usaha dari calon debitur, serta keadaan pasar dan kebijakan pemerintah pada masa kredit berlangsung.

Faktor yang ada dalam analisis 5 C’s merupakan faktor-faktor penting dalam menjamin mutu kredit. Setiap permohonan kredit yang telah melewati tahap penilaian kredit (analisis 5 C’s), maka kredit yang berjalan akan menjadi kredit yang faktor risikonya minim. Hal ini dapat berarti bahwa analisis 5 C’s yang baik membantu dalam menghasilkan kredit dengan mutu yang baik dengan faktor risikonya yang rendah.

Faktor-faktor yang ada dalam analisis 5 C’s pada German credit datasets yang digunakan meliputi atribut-atribut sebagai berikut:

1. Character (watak)

a. Present Employment Since, merupakan atribut penilaian terhadap lama bekerja calon kreditur.

b. Personal Status, merupakan atribut penilaian terhadap gender dan status perkawinan calon kreditur.

c. Present Residence Since, merupakan atribut penilaian terhadap lama tinggal calon kreditur pada tempat tinggal saat ini.

d. Age, merupakan atribut penilaian terhadap usia calon kreditur.

e. Foreign Worker, merupakan atribut penilaian terhadap kewarganegaraan calon kreditur.

(9)

2. Capacity (kemampuan)

a. Credit History, merupakan atribut penilaian terhadap rekam jejak calon kreditur dalam membayar atau melunasi kredit terdahulu.

b. Housing, merupakan atribut penilaian terhadap status kepemilikan tempat tinggal calon kreditur.

c. Job, merupakan atribut penilaian terhadap jenis usaha calon kreditur.

d. Other Installment Plans, merupakan atribut penilaian terhadap rencana pengambilan kredit lainnya di masa yang akan datang.

e. Number of Existing Credits, merupakan atribut penilaian terhadap jumlah kredit yang sedang berjalan.

3. Capital (modal)

a. Status of Exiting Checking Account, merupakan atribut penilaian terhadap aktifitas rekening calon kreditur.

b. Savings Account/Bonds, merupakan atribut penilaian terhadap jumlah simpanan di rekening calon kreditur.

4. Collateral (jaminan)

a. Other Debtors/Guarantors, merupakan atribut penilaian terhadap penjamin kredit calon kreditur.

b. Property, merupakan atribut penilaian terhadap kepemilikan calon kreditur yang dapat dijadikan sebagai jaminan.

c. Number of People Being Liable, merupakan atribut penilaian terhadap jumlah orang terdekat yang dapat dijadikan penjamin kredit calon kreditur.

(10)

d. Telephone, merupakan atribut penilaian terhadap status registrasi nomor telefon tetap calon kreditur, apakah teregister atas nama pribadi atau orang lain.

5. Condition of Economy (keadaan ekonomi)

a. Duration in Month, merupakan atribut penilaian terhadap durasi atau jangka waktu kredit yang diajukan.

b. Purpose, merupakan atribut penilaian terhadap tujuan penggunaan kredit.

c. Credit Amount, merupakan atribut penilaian terhadap jumlah kredit yang diajukan.

d. Installment Rate, merupakan atribut penilaian terhadap suku bunga kredit yang disepakati.

2.4. Metode Algoritma

Data mining didefinisikan sebagai proses menemukan dan menggambarkan pola struktural dalam data sebagai alat untuk membantu menjelaskan data dan membuat prediksi dari data tersebut (Witten & Frank, 2005). Data mining merupakan bagian dari Knowledge Discovery Data (KDD) yang merupakan proses ekstraksi informasi yang berguna, tidak diketahui sebelumnya, dan tersembunyi dari data (Bramer, 2013) dan juga mengembangkan model yang digunakan untuk memahami fenomena dari analisis data dan prediksi (Maimon & Rokach, 2010).

Support vector machine (SVM) adalah sebuah metode seleksi yang membandingkan parameter standar seperangkat nilai diskrit yang disebut kandidat set, dan mengambil salah satu yang memiliki akurasi klasifikasi terbaik (Dong, Tu, Xia, & Xing, 2007).

(11)

SVM merupakan suatu teknik yang relatif baru (1995) untuk melakukan prediksi, baik dalam kasus klasifikasi maupun regresi, yang sangat populer belakangan ini (Santosa, 2008). SVM berada dalam satu kelas dengan ANN dalam hal fungsi dan kondisi permasalahan yang bisa diselesaikan. Keduanya masuk dalam kelas supervised learning. Baik para ilmuwan maupun praktisi telah banyak menerapkan teknik ini dalam menyelesaikan masalah-masalah nyata dalam kehidupan sehari-hari. Baik dalam masalah gene expression analysis, finansial, cuaca hingga di bidang kedokteran.

Konsep klasifikasi dengan Support Vector Machine (SVM) adalah mencari hyperplane terbaik yang berfungsi sebagai pemisah dua kelas data (Cholissodin, 2014). Ide sederhana dari SVM adalah memaksimalkan margin, yang merupakan jarak pemisah antara kelas data. SVM mampu bekerja pada dataset yang berdimensi tinggi dengan menggunakan kernel trik. SVM hanya menggunakan beberapa titik data terpilih yang berkontribusi (Support Vector) untuk membentuk model yang akan digunakan dalam proses klasifikasi.

Menurut Nugorho, konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input space (Han, Kamber, & Pei, 2012). Untuk n-dimensional space, input data xi (i=1. . .k), dimana milik kelas 1 atau kelas 2 dan label yang terkait menjadi -1 untuk kelas 1 dan +1 untuk kelas 2. Gambar 2.1 memperlihatkan beberapa pattern yang merupakan anggota dari dua buah class: positif (dinotasikan dengan +1) dan negatif (dinotasikan dengan –1). Pattern yang tergabung pada class negatif disimbolkan dengan kotak, sedangkan pattern pada class positif, disimbolkan dengan lingkaran.

(12)

Jika data input dapat dipisahkan secara linear, pemisahan hyper plane dapat diberikan. Proses pembelajaran dalam problem klasifikasi diterjemahkan sebagai upaya menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut. Berbagai alternatif garis pemisah (discrimination boundaries) ditunjukkan pada Gambar II.1 (Han, Kamber, & Pei, 2012).

Sumber: Nugroho, 2008

Gambar II.1. SVM Berusaha Menemukan Hyperplane Terbaik Yang Memisahkan Kedua Class Negatif dan Positif (Han, Kamber, & Pei, 2012)

Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin hyperplane tersebut dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut dengan data terdekat dari masing-masing class. Subset data training set yang paling dekat ini disebut sebagai support vector.

Garis solid pada Gambar 2.1 menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class, sedangkan titik kotak dan lingkaran yang berada dalam lingkaran hitam adalah support vector. Upaya mencari lokasi hyperplane optimal ini merupakan inti dari proses pembelajaran pada SVM.

Beberapa macam fungsi kernel Support Vector Machine (SVM), seperti yang dapat dilihat pada Tabel 2.1 berikut (Cholissodin, 2014):

(13)

Tabel II.1. Fungsi Kernel SVM

Sumber: (Cholissodin, 2014)

Gambar II.2. Visualisasi Support Vector Machine (Cholissodin, 2014) Kernel linier digunakan ketika data yang akan diklasifikasi dapat terpisah dengan sebuah garis atau hyperplane. Kernel non-linier digunakan ketika data hanya dapat dipisahkan dengan garis lengkung atau sebuah bidang pada ruang dimensi tinggi. Pada Gambar 2.2 dapat dilihat visualisasi kernel linier dan kernel non-linier pada Support Vector Machine (SVM).

(14)

Pada fungsi SVM terdapat parameter Support Vector Machine yaitu nilai w (weight), nilai b (bias), C (complexity) yang digunakan untuk proses learning, dimana nilai tersebut berpengaruh pada presisi pengklasifikasian (Muflikha, Ridok,

& Hardono, 2013).

Berikut ini adalah langkah untuk training dengan SVM (Cholissodin, 2014):

1. Titik data: xi = {x1,x2,….,xn} ϵ Rn 2. Kelas data : yi ϵ {-1,+1}

3. Pasangan data dan kelas :

( )

 ^x

_i

^, ^y

_i



_i^N₌₁ _(2.1)

4. Maksimalkan fungsi berikut:

(

^,

)

^:⁰ ⁰

1

1 1

1

=



−

=

  

=

= =

=

N

i i i i

N

i N

j

j i j i j i N

i

i yy K x x syarat C dan y

Ld    

(2.2) 5. Hitung nilai w dan b:



=

= ^N

i

i i iyx w

1



^b⁼⁻

(

^w^.^x⁺⁺^w^.^x⁻

)

2 1

(2.3)

6. Fungsi keputusan klasifikasi sign(f(x)) :



=

+

= +

= ^m

i

i i

iyK x x b

x f atau b

x w x f

1

) , ( )

( .

)

( 

(2.4) Dimana:

N (banyaknya data), n (dimensi data atau banyaknya fitur), Ld (Dualitas Lagrange Multipier), αi (nilai bobot setiap titik data), C (nilai konstanta), m (jumlah support vector/titik data yang memiliki αi > 0), K(x,xi) (fungsi kernel).

Karakteristik Support Vector Machine (SVM) (Cholissodin, 2014):

(15)

1. SVM memerlukan proses pelatihan dengan menyimpan hasil support vector yang didapatkan untuk digunakan kembali pada saat proses prediksi atau testing.

2. SVM selalu memberikan model yang sama dan solusi yang sama dengan margin maksimal.

3. SVM dapat memisahkan data yang distribusi kelasnya bersifat linier maupun non linier.

4. SVM tidak dipengaruhi oleh dimensi data yang tinggi, sehingga tidak ada proses reduksi dimensi didalamnya.

5. Memori yang digunakan dalam SVM dipengaruhi oleh banyaknya data, bukan besarnya dimensi data.

2.5. Evaluasi dan Validasi

Menurut Gorunescu, validasi adalah proses mengevaluasi akurasi dari sebuah model, validasi mengacu untuk mendapatkan prediksi dengan menggunakan model yang ada kemudian membandingkan hasil yang diperoleh dengan hasil yang diketahui (Alfisahrin, 2014). Mengevaluasi akurasi dari model klasifikasi sangat penting, akurasi dari sebuah model mengindikasikan kemampuan model tersebut untuk memprediksi class target (Vercellis, Business Intelligent: Data Mining and Optimization for, 2009). Untuk mengevaluasi model digunakan metode confussion matrix, dan kurva ROC (Receiver Operating Characteristic) (Alfisahrin, 2014).

A. Confussion Matrix

Menurut Gorunescu, evaluasi kinerja model klasifikasi didasarkan pada pengujian objek yang diprediksi dengan benar dan salah (Alfisahrin, 2014).

(16)

Confussion Matrix adalah alat yang berguna untuk menganalisis seberapa baik classifier dapat mengenali tupel dari kelas yang berbeda (Han & Kamber, 2006). Confusion matrix memberikan rincian klasifikasi, kelas yang diprediksi akan ditampilkan dibagian atas matrix dan kelas yang diobservasi ditampilkan dibagian kiri. Evaluasi model confussion matrix menggunakan tabel matrix seperti yang terlihat pada Tabel II.2.

Tabel II.2. Matrix Klasifikasi untuk Model 2 Class

Classification

Predicted Class

Class Yes No

Observed Class

Yes

True Positive (TP)

False Negative (FN) No

False Positive (FP)

True Negative (TN) Sumber Gorunescu (2011)

Akurasi dapat dihitung dengan menggunakan persamaan 2.5 berikut:

Accuracy =

FN FP TN TP

TN TP

+ + +

+ (2.5)

TP : Jumlah kasus positif yang diklasifikasi sebagai positif FP : Jumlah kasus negatif yang diklasifikasi sebagai positif TN : Jumlah kasus negatif yang diklasifikasi sebagai negatif FN : Jumlah kasus positif yang diklasifikasi sebagai negatif

False positif dikenal sebagai error tipe 1, terjadi ketika kasus yang seharusnya diklasifikasikan sebagai negatif diklasifikasikan sebagai positif. False negatif dikenal sebagai error tipe 2, terjadi ketika kasus yang seharusnya diklasifikasikan sebagai positif diklasifikasi sebagai negatif (Bramer, 2013).

(17)

Sensitivitas dan spesifitas dapat digunakan sebagai ukuran statistik dari kinerja klasifikasi biner, sensitivitas dan spesifitas digunakan untuk mengukur model yang paling baik dan untuk memilih model yang paling efisien. Sensitivitas mengukur proporsi true positive yang diidentifikasikan dengan benar, spesifitas mengukur proporsi true negative yang diidentifikasikan dengan benar.

B. Kurva ROC

Menurut Gorunescu, kurva ROC banyak digunakan untuk menilai hasil prediksi, kurva ROC adalah teknik untuk memvisualisasikan, mengatur, dan memilih pengklasifikasian berdasarkan kinerja mereka (Alfisahrin, 2014).

Kurva ROC adalah tool dua dimensi yang digunakan untuk menilai kinerja klasifikasi yang menggunakan dua class keputusan, masing-masing objek dipetakan ke salah satu elemen dari himpunan pasangan, positif atau negatif. Pada kurva ROC, TP rate diplot pada sumbu Y dan FP rate diplot pada sumbu X.

Untuk klasifikasi data mining menurut Gorunescu, nilai AUC dapat dibagi menjadi beberapa kelompok (Alfisahrin, 2014):

1. 0,90 – 1.00 = Excellent Classification 2. 0,80 – 0,90 = Good Classification 3. 0,70 – 0,80 = Fair Classification 4. 0,60 – 0,70 = Poor Classification 5. 0,50 – 0,60 = Failure

The Area Under Curve (AUC) dihitung untuk mengukur perbedaan performasi metode yang digunakan. AUC dihitung menggunakan persamaan Liao dan Triantaphyllou (Alfisahrin, 2014) sebagai berikut:

) , 1 ( 1

1 _r _r

r xi xj

i m j

n

mn 

=



=



 (2.6)

(18)

Dimana:

X X X

Y Y Y Y

X



=









=



0 2 1 1 ) ,

( (2.7)

X= Output Positif Y= Output Negatif

2.6. Peralatan Pendukung

Peralatan pendukung membahas tentang alat pendukung yang digunakan dalam penelitian ini seperti, model pengembangan sistem yang digunakan, alat desain arsitektur perangkat lunak dan alat desain basis data.

2.6.1. Model Pengembangan Sistem

System Development Life Cycle (SDLC) atau siklus hidup pengembangan sistem adalah proses pembuatan dan pengubahan sistem serta model dan metodologi yang digunakan untuk mengembangan sistem-sistem tersebut. Konsep ini umumnya merujuk pada sistem komputer atau informasi. Salah satu model pengembangan sistem yaitu, model waterfall.

Model waterfall diperkenalkan pertama kali oleh Royce pada tahun 1970, karena setiap tahapan yang ada dalam model ini merupakan penurunan dari satu fase ke fase lainnya, maka disebut sebagai model air terjun (waterfall). Tahap-tahap utama dari model ini memetakan kegiatan-kegaiatan pengembangan dasar yaitu:

1. Analisis dan definisi persyaratan.

Tahap ini bertujuan untuk mengidentifikasi dan memprioritaskan sistem informasi apa yang akan dikembangkan, sasaran yang ingin dicapai, jangka

(19)

waktu pelaksanaan serta, mempertimbangkan dana yang tersedia dan siapa yang melaksanakan. Pada tahap ini juga dilakukan kegiatan penguraian dari suatu sistem informasi yang utuh ke dalam bagian komponennya dengan maksud untuk mengidentifikasi dan mengevaluasi permasalahan, kesempatan dan hambatan yang terjadi serta kebutuhan yang diharapkan, sehingga dapat diusulkan perbaikannya.

2. Perancangan sistem dan perangkat lunak.

Analisis sistem digunakan untuk menjawab pertanyaan what, desain sistem digunakan untuk menjawab pertanyaan how. Desain berkonsentrasi pada bagaimana sistem dibangun untuk memenuhi kebutuhan pada fase analisis.

Manfaat desain sistem adalah memberikan gambaran rancang bangun yang lengkap, sebagai penuntun bagi programmer dalam membuat aplikasi. Proses perancangan sistem membagi persyaratan dalam sistem perangkat keras atau perangkat lunak.

3. Implementasi dan pengujian unit.

Pada tahapan ini, perancangan perangkat lunak direalisasikan sebagai serangkaian program atau unit program. Pengujian unit melibatkan verifikasi bagi setiap unit telah memenuhi spesifikasinya. Tahap ini dilakukan pembuatan aplikasi berdasarkan rancangan yang telah dibuat, selain aplikasi, dibuat juga buku panduan penggunaan aplikasi agar mudah saat melakukan training pada saat implentasi.

4. Integrasi dan pengujian sistem

Unit program atau program individual diintegrasikan dan diuji sebagai sistem yang lengkap untuk menjamin bahwa persyaratan sistem telah dipenuhi. Setelah

(20)

pengujian sistem, perangkat lunak dikirim kepada pelanggan. Tahapan implementasi meliputi tahapan konversi dari sistem lama ke sistem baru, pelatihan pada operator atau pengguna yang akan menggunakan sistem informasi, serta uji coba penerimaan sistem informasi.

5. Operasi dan pemeliharaan

Tahapan ini merupakan Fase siklus hidup yang paling lama. Sistem dipasang dan dipakai. Pemeliharaan mencakup koreksi dari berbagai kesalahan yang tidak ditemukan pada tahap-tahap terdahulu, perbaikan atas implementasi unit sistem dan pengembangan pelayanan sistem, sementara persyaratan- persyaratan baru ditambahkan. Tahapan pemeliharaan sistem mencakup seluruh proses yang diperlukan untuk menjamin kelangsungan, kelancaran dan penyempurnaan sistem yang telah dioperasikan.

Sumber: (Aminudin, 2015)

Gambar II.3. Model Waterfall

Definisi Persyaratan

Perancangan Sistem

Implementasi dan Pengujian Unit

Integrasi dan Pengujian Sistem

Operasi dan Pemeliharaan

(21)

2.6.2. Unified Modeling Language (UML)

Unified modeling language adalah bahasa pemodelan untuk sistem atau perangkat lunak yang berparadigma berorientasi objek. Pemodelan sesungguhnya digunakan untuk penyederhanaan permasalahan-permasalahan yang kompleks sedemikian rupa sehingga lebih mudah dipelajari dan dipahami. (Sommerville, 2013)

Unified Modelling Language (UML) menurut (Fowler, 2015) adalah keluarga notasi grafis yang didukung oleh meta-model tunggal, yang membantu pendeskripsian dan desain sistem perangkat lunak, khususnya sistem yang dibangun menggunakan pemrograman berorientasi objek (OO). UML merupakan standar yang relatif terbuka yang dikontrol oleh Object Management Company (OMC), sebuah konsorsium terbuka yang terdiri dari banyak perusahaan. Unified Modeling Language (UML) adalah bahasa spesifikasi standar untuk mendokumentasikan, menspesifikasikan, menggambarkan, dan membangun sistem perangkat lunak seperti halnya pada business modelling dan sistem lainnya. UML tidak berdasarkan pada bahasa pemrograman tertentu. Standar spesifikasi UML dijadikan standar defacto oleh OMG (Object Management Group) pada tahun 1995.

Spesifikasi ini menjadi populer dan standar karena sebelum adanya UML, telah ada berbagai macam spesifikasi yang berbeda. Hal ini menyulitkan komunikasi antar pengembang perangkat lunak. Untuk itu beberapa pengembang spesifikasi yang sangat berpengaruh berkumpul untuk membuat standar baru. UML dirintis oleh Grady Booch OOD (Object-Oriented Design), Jim Rumbaugh OMT (Object Modeling Technique) dan Ivar Jacobson OOSE (Object-Oriented Software Engineering).

(22)

A. Use Case Diagram

Use Case menurut (Fowler, 2015) adalah teknik untuk merekam persyaratan fungsional sebuah sistem. Use Case mendeskripsikan interaksi tipikal antara para pengguna sistem dengan sistem itu sendiri, dengan memberi sebuah narasi tentang bagaimana sistem tersebut digunakan. Use Case Diagram menampilkan aktor mana yang menggunakan use case mana, use case mana yang memasukkan use case lain dan hubungan antara aktor dan use case.

Use case diagram menggambarkan interaksi antara sistem dengan sistem eksternal dan pengguna. Dengan kata lain, secara grafis menggambarkan siapa yang menggunakan sistem dan dengan cara apa pengguna mengharapkan untuk berinteraksi dengan sistem.

Pemodelan use case awalnya disusun oleh Dr. Ivar Jacobson pada tahun 1986 dan menjadi populer setelah beliau menerbitkan buku, Object-Oriented Software Engineering, pada tahun 1992. Dr. Jacobson menggunakan pemodelan use case sebagai kerangka kerja untuk metodologi objectory-nya dengan sukses digunakannya untuk mengembangkan sistem informasi berorientasi-objek.

Sumber: (Fowler, 2015)

Gambar II.4. Contoh Use Case Diagram

(23)

B. Activity Diagram

Activity diagram menurut (Fowler, 2015) adalah teknik untuk menggambarkan logika prosedural, proses bisnis, dan jalur kerja. Activity diagram memainkan peran mirip diagram alir, tetapi perbedaan prinsip antara notasi diagram alir adalah activity diagram mendukung behavior paralel. Node pada sebuah activity diagram disebut sebagai action, sehingga diagram tersebut menampilkan sebuah activity yang tersusun dari action.

Activity Diagram digunakan untuk mengilustrasikan gambaran dari suatu sistem. Activity Diagram menekankan pada aliran kontrol diantara objek. Activity Diagram adalah notasi yang digunakan untuk menggambarkan grafis aktivitas yang meliputi simbol-simbol yang unik. Simbol-simbol tersebut dapat digunakan dalam diagram statechart.

Gambar II.5. Contoh Activity Diagram

(24)

C. Component Diagram

Component Diagram menggambarkan struktur dan hubungan antar komponen piranti lunak, termasuk ketergantungan diantaranya. Komponen piranti lunak adalah modul berisi kode, baik source code maupun binary code, baik library ataupun executable, baik yang muncul pada saat compile time, link time atau run time.

Gambar II.6. Contoh Component Diagram

D. Deployment Diagram

Deployment Diagram digunakan untuk menunjukan alokasi artefak pada node dalam desain fisik sebuah sistem. Sebuah Deployment Diagram mewakili sebuah gambaran ke dalam struktur artefak suatu sistem. Deployment Diagram lebih berfokus pada aspek fisik dari object-oriented system. Dengan menggunakan Deployment Diagram, gambaran mengenai distribusi komponen dan relasinya dengan sistem maupun platform tempat sistem berjalan bisa digambarkan dengan lebih jelas.

(25)

Gambar II.7. Contoh Deployment Diagram

2.6.3. Entity Relationship Diagram

Menurut (Connolly & Begg, 2015), basis data adalah suatu kumpulan logikal data yang berhubungan dan dekripsi dari data tersebut yang di rancang untuk kebutuhan informasi suatu organisasi. Menurut (Whitten & Bentley, 2007), basis data adalah kumpulan fileyang saling terkait. Basis data tidak hanya merupakan kumpulan file. Record pada setiap file harus memperbolehkan hubungan-hubungan untuk menyimpan file lain.

Keuntungan basis data (Whitten & Bentley, 2007) yaitu :

1. Kemampuannya untuk menggunakan data yang sama di banyak aplikasi dan sistem.

2. Penyimpanan data dalam format yang fleksibel. Hal inididefinisikan secara terpisah dari sistem informasi dan program-program aplikasi yang akan menggunakan basis data.

(26)

3. Teknologi basis data menyediakan skalabilitas superior, dalam arti basis data dan sistem yang menggunakannya dapat ditingkatkan atau dikembangkan untuk memenuhi kebutuhan-kebutuhan perubahan pada sebuah organisasi.

4. Kemajuan independensi data yang sangat mengurangi redudansi data, telah mengingkatkan fleksibilitas.Berdasarkan pengertian di atas, dapat disimpulkan basis data adalah sekumpulan data yang terintegrasi dan di rancang untuk memelihara informasi dan membuat informasi tersebut tersedia untuk memenuhi suatu kebutuhan organisasi.

Sumber: (Connolly & Begg, 2015)

Gambar II.8. Contoh Entity Relationship Diagram

(27)

2.6.4. Pengujian Aplikasi

Berdasarkan standar IEEE, pengujian perangkat lunak memiliki pengertian aktivitas yang dilakukan untuk mengevaluasi kualitas produk dan untuk mengembangkannya dengan mengidentifikasi kelemahan dan permasalahan yang terjadi. Secara umum, pengujian perangkat lunak terdiri dari verifikasi dinamis perilaku program pada sekumpulan kasus-kasus pengujian yang terbatas, pada umumnya dipilih dengan tepat dari domain eksekusi yang tak terbatas, dan berlawanan dengan perilaku yang diharapkan. (Simarmata, 2014)

Perangkat lunak diuji untuk persyaratan fungsional, pengujian dilakukan dalam bentuk tertulis untuk memeriksa apakah aplikasi berjalan seperti yang diharapkan. (Wicaksono, 2016) Black box testing adalah tipe testing yang memperlakukan perangkat lunak yang tidak diketahui kinerja internalnya. Sehingga para tester memandang perangkat lunak seperti layaknya sebuah “kotak hitam”

yang tidak penting dilihat isinya, tapi cukup dikenali proses testing di bagian luar.

(Simarmata, 2014) Keuntungan yang diperoleh dari black box testing antara lain:

(Simarmata, 2014):

1. Anggota tim tidak harus dari seseorang yang memiliki kemampuan teknis di bidang pemrograman

2. Kesalahan dari perangkat lunak ataupun bug seringkali ditemukan oleh komponen tester yang berasal dari pengguna

Hasil dari black box testing dapat memperjelas kontradiksi ataupun kerancuan yang mungkin timbul dari eksekusi sebuah perangkat lunak Proses testing dapat dilakukan lebih cepat dibandingkan white box.