KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN
ALGORITME K-NEAREST NEIGHBOR UNTUK
KASUS IMBALANCED DATA
FIQROTUL ULYA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR 2013
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme K-Nearest Neighbor untuk Kasus
Imbalanced Data adalah benar karya saya dengan arahan dari komisi pembimbing
dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Agustus 2013
Fiqrotul Ulya
ABSTRAK
FIQROTUL ULYA. Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme
K-Nearest Neighbor untuk Kasus Imbalanced Data. Dibimbing oleh AZIZ
KUSTIYO.
Data dikatakan tidak seimbang apabila terdapat distribusi jumlah data yang tidak merata, dengan suatu kelas memiliki jumlah data yang jauh lebih besar dari kelas lainnya. Dalam kasus ini, kelas minoritas lebih sulit diprediksi daripada kelas mayoritas. Padahal kelas minoritas inilah yang terkadang memiliki informasi penting. Pada penelitian ini dilakukan analisis klasifikasi debitur kartu kredit menggunakan k-nearest neighbor untuk kasus imbalanced data yang mampu mengklasifikasikan calon debitur ke dalam kategori baik atau buruk. Analisis kelayakan calon debitur sangat penting untuk meminimalisir terjadinya risiko kredit. Salah satu pendekatan yang dilakukan untuk menangani permasalahan pada kasus imbalanced data adalah dengan memodifikasi distribusi data menggunakan metode oversampling dan undersampling. Dalam penelitian ini dilakukan perbandingan nilai parameter k, akurasi, precision, recall serta
F-measure dan diketahui bahwa teknik oversampling menunjukkan nilai terbaik
dengan akurasi sebesar 96.24% ketika k = 3, recall 99.23% ketika k = 2, precision 95.21% ketika k = 1, dan F-measure sebesar 96.30% ketika k = 3.
Kata Kunci: imbalanced data, k-nearest neighbor, oversampling, undersampling
ABSTRACT
FIQROTUL ULYA. Credit Card Debtor Classification Based On K-Nearest Neighbor Algorithm for Imbalanced Data. Supervised by AZIZ KUSTIYO.
Data is said to suffer the class imbalanced problem when the class distribution are highly imbalance. In this case, minority class is more difficult to predict then the majority class. Though the minority class sometime has important information. In this paper, classification analysis of credit card debtors is conducted by using k-nearest neighbor that can classify debtors into two categories, good or bad. Analysis of a prospective debtor is essential to minimize credit risk. One approach taken to overcome imbalanced data problems is to modify instance distribution using oversampling and undersampling method. The evaluation is conducted by comparing the value of parameter k, accuracy, precision, recall, and F-measure. The evaluation results show that oversampling technique gives the best result of 96.24% with k = 3, 99.23% recall with k = 2, 95.21% precision with k = 1, and 96.30% F-measure with k = 3.
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada
Departemen Ilmu Komputer
KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN
ALGORITME K-NEAREST NEIGHBOR UNTUK
KASUS IMBALANCED DATA
FIQROTUL ULYA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
BOGOR 2013
Penguji: 1. Toto Haryanto, MKom 2. M Asyhar Aglamaro, MKom
Judul Skripsi : Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme K-Nearest Neighbor untuk Kasus Imbalanced Data
Nama : Fiqrotul Ulya NIM : G64090019
Disetujui oleh
Aziz Kustiyo, SSi MKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
PRAKATA
Puji syukur kehadirat Allah Subhanahu Wa Taala yang telah melimpahkan rahmat dan hidayah-Nya, sehingga penulis dapat menyelesaikan skripsi yang berjudul “Klasifikasi Debitur Kartu Kredit Menggunakan Algoritme K-Nearest
Neighbor untuk Kasus Imbalanced Data”. Skripsi ini merupakan salah satu syarat
untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer, Institut Pertanian Bogor.
Terima kasih penulis ucapkan kepada kepada ayah, ibu, serta seluruh keluarga, atas segala doa dan dukungannya. Ungkapan terima kasih juga disampaikan kepada Bapak Aziz Kustiyo, SSi MKom selaku pembimbing yang telah memberikan arahan, bimbingan, saran dan motivasi dengan sabar dan membantu penulis dalam menyelesaikan skripsi ini. Penulis juga mengucapkan terima kasih kepada dosen penguji, Bapak Toto Haryanto, MKom dan Bapak M Asyhar Aglamaro, MKom atas saran dan bimbinganya, serta teman-teman satu bimbingan, Retno Wijayanti, Dhieta Anggraini serta Ilkomerz 46 atas bantuan, saran, kritik, dan dukungannya kepada penulis.
Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2013
DAFTAR ISI
DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN vi PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2Ruang Lingkup Penelitian 2
TINJAUAN PUSTAKA 2
Risiko Kredit 2
Imbalanced Data 3
Sampling 3
K-Fold Cross Validation 3
K-Nearest Neighbor 3 Normalisasi 4 Confusion Matrix 5 METODE 6 Kerangka Penelitian 6 Pengadaan Data 7 Praproses Data 7
10-Fold Cross Validation 8
Proses Klasifikasi Metode KNN 8
Analisis Hasil Klasifikasi 8
HASIL DAN PEMBAHASAN 8
Praproses Data 8
Hasil Klasifikasi 9
Analisis Hasil Klasifikasi 12
Perbandingan dengan Penelitian Sebelumnya 14
Simpulan 15
Saran 16
DAFTAR PUSTAKA 16
LAMPIRAN 17
DAFTAR TABEL
1 Confusion matrix dua kelas 5
2 Karakteristik atribut 9
3 Hasil akurasi rata-rata 12
4 Hasil precision, recall dan F-measure 12
5 Perbandingan dengan penelitian lain 14
DAFTAR GAMBAR
1 Alur penelitian 6
2 Imbalanced data 7
3 Hasil percobaan data asli 9
4 Hasil percobaan oversampling replikasi 10
5 Hasil percobaan oversampling acak 10
6 Hasil percobaan undersampling acak 11
7 Hasil percobaan undersampling cluster 11
DAFTAR LAMPIRAN
1 Daftar atribut 17
2 Nilai akurasi undersampling acak 18
3 Nilai precision undersampling acak 18
4 Nilai recall undersampling acak 18
5 Nilai F-measure undersampling acak 18
6 Akurasi undersampling cluster 2 sampai cluster 10 19 7 Precision undersampling cluster 2 sampai cluster 10 19 8 Recall undersampling cluster 2 sampai cluster 10 19 9 F-measure undersampling cluster 2 sampai cluster 10 20
1
PENDAHULUAN
Latar Belakang
Data Bank Indonesia (2013) menyebutkan bahwa daftar penerbit kartu kredit meningkat menjadi 20 penerbit. Banyaknya bank yang mengembangkan bisnis kartu kredit menandakan bahwa bisnis ini masih memiliki peluang yang baik bagi bank penerbit sebagai sumber keuntungan. Kartu kredit menawarkan kemudahan bagi nasabahnya untuk melakukan berbagai macam transaksi. Pemegang kartu kredit diwajibkan untuk melakukan pelunasan kewajiban pada waktu yang telah disepakati baik secara sekaligus ataupun angsuran (Sayono et al. 2009). Aturan dan sistem yang diterapkan terhadap analisis kelayakan calon debitur sangat penting untuk meminimalisir terjadinya risiko kredit. Debitur yang lancar dalam memenuhi kewajibannya mampu memberikan keuntungan kepada bank. Sementara itu, permasalahan dapat terjadi apabila debitur tidak mampu memenuhi kewajibannya dalam batas waktu yang telah disepakati sehingga dapat merugikan bank.
Data debitur kartu kredit merupakan salah satu data skala besar dengan distribusi kelas yang tidak merata antara debitur kategori baik dan buruk. Kumpulan data yang memiliki kelas tidak terdistribusi secara merata atau data yang jumlahnya didominasi oleh salah satu kelas disebut imbalanced data. Penggunaan metode sampling dalam imbalanced data dapat memberikan distribusi data yang seimbang untuk setiap kelas (He dan Edwardo 2009).
Salah satu metode yang digunakan untuk membangun model klasifikasi dalam mengidentifikasi debitur ke dalam kategori baik atau buruk adalah k
-nearest neighbor (KNN). KNN merupakan teknik yang lebih fleksibel karena
mampu mengklasifikasikan data uji ke dalam kelas label dengan cara mencari data latih yang relatif sama dengan data uji (Tan et al. 2006).
Penelitian terkait tentang klasifikasi debitur kartu kredit dilakukan oleh Natasia (2013) menggunakan metode voting feature intervals 5 (VFI5) untuk melakukan pemilihan fitur serta mengukur tingkat akurasinya yang menghasilkan model terbaik dengan pengukuran akurasi, recall, precision, dan F-measure sebesar 70.40%, 38.58%, 24.38%, dan 29.88%. Namun, penelitian tersebut tidak melakukan pendekatan dari sisi teknik sampling sebagai solusi mengatasi kasus
imbalanced data yang terjadi pada dua kelas debitur baik dan buruk. Penelitian
terkait lainnya mengenai ekstraksi informasi untuk kasus imbalanced data menyatakan bahwa KNN sensitif terhadap persentase jumlah data minoritas, dan bekerja secara baik pada distribusi data undersampling (Zhang dan Mani 2003).
Tingkat akurasi dari pemodelan tersebut bergantung pada nilai k jumlah ketetanggaan. Pengembangan model KNN pada penelitian ini dapat menjadi pertimbangan bank dalam mengklasifikasikan calon debitur sehingga dapat mengurangi tingkat risiko terjadinya kredit bermasalah. Penelitian ini diharapkan dapat membantu pihak bank sebagai pertimbangan dalam mengidentifikasi debitur yang berpotensi tidak memenuhi kewajibannya tepat waktu sehingga dapat mengurangi tingkat risiko terjadinya kredit bermasalah.
2
Perumusan Masalah Masalah yang dianalisis dalam penelitian ini adalah :
1 Bagaimana metode KNN dapat mengklasifikasikan nasabah kartu kredit ke dalam kategori debitur baik atau debitur buruk?
2 Bagaimana akurasi, precision, recall, dan F-measure metode KNN dalam mengklasifikasikan debitur Bank X pada kasus imbalanced data?
Tujuan Penelitian
Penelitian ini bertujuan untuk menerapkan algoritme KNN untuk mengklasifikasikan debitur kartu kredit ke dalam kategori debitur baik atau debitur buruk pada kasus imbalanced data.
Manfaat Penelitian
Penelitian ini diharapkan dapat membantu pihak penerbit kartu kredit sebagai pertimbangan dalam mengidentifikasi debitur yang berpotensi tidak memenuhi kewajibannya tepat waktu sehingga dapat mengurangi tingkat risiko terjadinya kredit bermasalah.
Ruang Lingkup Penelitian
Data dalam penelitian ini merupakan data penelitian Setiawati (2011), yaitu data debitur Bank X mengenai status kelancaran pembayaran utang kartu kredit antara tahun 2008 dan 2009. Data yang diamati berjumlah 3895 dengan 14 atribut, 3259 termasuk ke dalam kategori debitur baik, yaitu debitur yang tepat membayar hutangnya dalam kurun waktu 90 hari serta 636 debitur buruk yang menunggak utang lebih dari 90 hari. Terdapat ketidakseimbangan data dengan jumlah data debitur yang termasuk ke dalam kategori baik mendominasi keseluruhan data.
TINJAUAN PUSTAKA
Risiko Kredit
Menurut Undang-Undang No. 14 Tahun 1967 tentang Pokok-pokok Perbankan, yang dimaksud dengan kredit adalah penyediaan uang atau tagihan-tagihan berdasarkan persetujuan pinjam-meminjam antara bank dengan pihak lain dalam hal mana pihak peminjam berkewajiban melunasi utangnya setelah jangka waktu tertentu dengan jumlah bunga yang telah ditetapkan. Pada perjalanannya tidak sedikit pihak yang berhutang terlambat dalam memenuhi kewajibannya sehingga bank menderita kerugian. Berdasarkan Peraturan Bank Indonesia No.11/25/BI/2009, risiko kredit adalah risiko akibat kegagalan debitur dalam memenuhi kewajiban kepada bank. Oleh karena itu, manajemen risiko kredit
3
diperlukan dalam melakukan pemantauan terhadap nasabah untuk menekan kerugian.
Imbalanced Data
Imbalanced data merupakan keadaan data dengan salah satu kelas memiliki
porsi yang tidak sebanding dengan kelas yang lainnya. Bentuk ketidakseimbangan tersebut pada beberapa data menunjukkan perbandingan yang sangat signifikan jumlah antar kelasnya, yaitu 100:1, 1000:1, bahkan ada yang mencapai 10 000:1. Hal tersebut berpengaruh pada algoritme klasifikasi yang menghasilkan akurasi prediksi yang baik pada kelas data yang memiliki jumlah instance besar atau kelas mayoritas tetapi menghasilkan akurasi prediksi yang kurang baik terhadap kelas dengan jumlah instance lebih kecil atau kelas minoritas, sehingga dapat pula terjadi penyimpangan prediksi, yaitu kelas minoritas di prediksikan ke dalam kelas mayoritas. Salah satu solusi dari masalah imbalanced data adalah penggunaan metode sampling yang dapat memberikan distribusi data seimbang untuk setiap kelas (He dan Edwardo 2009).
Sampling
Metode sampling untuk menangani masalah pada imbalanced data diantaranya adalah undersampling dan oversampling (He dan Edwardo 2009).
Undersampling adalah proses membuang sebagian data dari kelas minoritas agar
diperoleh data yang seimbang, sedangkan oversampling adalah proses menduplikasi data dari kelas minoritas untuk mendapatkan data dengan kelas yang seimbang. Dalam kasus Undersampling, dapat menyebabkan classifier melewatkan informasi penting karena sebagian data pada kelas mayoritas dihilangkan (He dan Edwardo 2009).
K-Fold Cross Validation
Data dalam metode k-fold cross validation akan dibagi menjadi k subset dengan ukuran yang sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi pertama, subset 1 akan menjadi data uji, sedangkan subset 2, subset 3, ..., subset k akan menjadi data latih. Proses selanjutnya, subset 2 akan menjadi data uji, subset 1, subset 3, ..., subset k menjadi data latih, dan seterusnya sebanyak k iterasi (Han dan Kamber 2006).
Metode evaluasi standar yang banyak digunakan adalah 10-fold cross
validation. Menurut penelitian Kohavi (1995) dari berbagai percobaan
menunjukkan bahwa 10-fold cross validation adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat.
K-Nearest Neighbor
Nilai k atau jumlah tetangga terdekat pada metode ini bergantung pada data yang digunakan. Nilai k yang tinggi akan mengurangi noise pada klasifikasi, namun akan membuat batasan antara setiap klasifikasi menjadi semakin kabur. Fungsi jarak yang umumnya digunakan adalah jarak Euclidean dengan menggunakan rumus sebagai berikut :
4 d(x,y) = (xi-y i) 2 n i=1 keterangan :
x = x1, x2, ..., xm adalah instance data uji y = y1, y2, ..., ym adalah instance data latih xi-yi = kuadrat selisih data uji dan data latih
Penggunaan rumus jarak Euclidean tidak tepat digunakan untuk atribut bertipe nominal. Berbeda dengan atribut pendidikan, yang termasuk atribut ordinal tetap dihitung dengan rumus perhitungan jarak Euclidean karena nilai tingkatan tinggi rendahnya pendidikan masih relevan dengan konsep perhitungan jarak Euclidean. Atribut yang bertipe nominal terlebih dahulu dilambangkan dengan nilai numerik untuk mempermudah perbandingan pengukuran jarak, kemudian digunakan fungsi sebagai berikut :
di= 0 jika xi= yi 1 selainnya
jika data latih sama dengan data uji jaraknya 0, selainnya berjarak 1 (Larose 2005).
Setelah itu dilakukan penggabungan atau agregate ketidaksamaan berat rata-rata dari jarak masing-masing atribut hasil perhitungan jarak Euclidean dan atribut nominal dengan rumus sebagai berikut :
S
ij=
∑
w
ijk×s
ijkn k=1
∑
nk=1w
ijkdengan k merupakan variabel fitur, ij merupakan selisih data latih dan data uji, Sij
merupakan kesamaan dan ketidaksamaan antara objek dengan Wijk bernilai 1
untuk nilai numerik dan 0.5 untuk nilai nominal (Teknomo 2006). Nilai pembobotan tersebut diberikan agar jarak atribut nominal tidak terlalu mendominasi hasil perhitungan.
Normalisasi
Atribut dengan nilai rentang yang cukup panjang dibandingkan dengan nilai atribut lainnya memiliki pengaruh besar terhadap atribut berskala pendek (Nurjayanti 2011). Oleh karena itu, untuk menghindari perbedaan rentang tersebut dilakukan tahap normalisasi data untuk atribut pendapatan, jumlah tanggungan, masa kerja, lama tinggal, dan umur, sehingga didapatkan range antara 0 sampai 1 menggunakan teknik min-max normalization, dengan rumus sebagai berikut (Larose 2005) :
X*= X - min(X) max(X) - min(X)
5
Keterangan :
X* = nilai setelah normalisasi
X = nilai sebelum normalisasi
min(X) = nilai minimum atribut
max(X) = nilai maksimum dari suatu atribut
Confusion Matrix
Evaluasi hasil klasifikasi didapatkan dari confusion matrix pada Tabel 1 (Weng dan Poon 2008).
Kinerja metode klasifikasi yang dijelaskan lebih lanjut berdasarkan nilai akurasi, precision, recall, dan F-measure dengan rumus berikut (Weng dan Poon 2008) : Akurasi (Ac) Ac = TP+TN TP+TN+FP+FN× 100% Precision (P) P = TP TP+FP × 100% Recall (R) R = TP TP+FN × 100% F-Measure (F) F = 2 × Recall × Precision Recall + Precision × 100%
Tabel 1 Confusion matrix dua kelas Kelas hasil prediksi
Kelas aktual Kelas positif Kelas negatif Kelas positif True Positive False Negative
Kelas negatif False Positive True Negative
Keterangan :
- True Positive (TP) adalah jumlah dari kelas positif, yaitu kelas yang
mempunyai jumlah instance lebih sedikit yang benar diklasifikasikan. - False Negative (FN) adalah jumlah kelas positif yang salah
diklasifikasikan dalam kelas negatif.
- False Positive (FP) adalah jumlah kelas negatif yang diklasifikasikan ke dalam kelas positif.
- True Negative (TN) adalah jumlah kelas negatif yang benar diklasifikasikan.
6
METODE
Kerangka Penelitian
Metode pada penelitian ini memiliki beberapa tahapan yang disajikan dalam Gambar 1.
Gambar 1 Alur penelitian Mulai Identifikasi Masalah Pengadaan Data Praproses Data 10-Fold Cross Validation Hasil Prediksi
Data Latih Data Uji
KNN
Selesai Analisis Hasil
7
Pengadaan Data
Penelitian ini menggunakan data sekunder debitur Bank X mengenai status kelancaran pembayaran utang kartu kredit tahun 2008 sampai dengan tahun 2009. Keseluruhan data asli yang belum mengalami praproses data berjumlah 4413 dengan 2 kelas, yaitu, 3574 data kelas debitur baik dan 839 data kelas debitur buruk. Terdapat ketidakseimbangan data dengan jumlah data debitur yang termasuk ke dalam kategori baik mendominasi sebesar 81% dari keseluruhan data, yang disajikan pada Gambar 2.
Gambar 2 Imbalanced data
Praproses Data
Eksplorasi data dilakukan untuk mengetahui karakteristik data serta permasalahan keberadaan missing value. Data awal berjumlah 4413 dengan 14 atribut, 7 atribut diantaranya termasuk ke dalam kategori atribut rasio, yaitu pendapatan, jumlah tanggungan, umur, masa kerja, lama tinggal, banyaknya kartu kredit lain, dan persentase utang kartu kredit lain, serta 6 atribut lainnya termasuk ke dalam kategori atribut bertipe nominal, yaitu jenis kelamin, status pekerjaan, jenis pekerjaan, tipe perusahaan, status rumah, dan status pernikahan, sedangkan pendidikan tergolong ke dalam atribut ordinal. Penghapusan data dilakukan terhadap record yang memiliki missing value dan nilai yang tidak relevan, seperti pada atribut pendapatan yang memiliki nilai minus, sehingga data yang diproses dalam penelitian ini berjumlah 3895 dengan 14 atribut, dengan 3259 termasuk ke dalam kategori debitur baik dan 636 debitur buruk.
Ketidakseimbangan yang terjadi pada masing-masing kelas dengan data pada kelas kategori debitur baik memiliki jumlah yang jauh lebih besar dibandingkan dengan kategori debitur buruk, sehingga harus dilakukan modifikasi distribusi data dengan teknik oversampling dan undersampling (He dan Edwardo 2009). Dalam penelitian ini, teknik oversampling dilakukan dengan 2 cara, yaitu dengan cara membangkitkan data kelas minoritas secara acak sehingga jumlahnya sama dengan kelas mayoritas dan teknik oversampling kedua dengan mereplikasi kelas minoritas sebanyak data pada kelas mayoritas. Modifikasi distribusi data teknik undersampling dilakukan dengan mengurangi jumlah kelas mayoritas sehingga jumlahnya sama dengan kelas minoritas. Dalam penelitian ini, dilakukan 2 cara teknik undersampling. Cara pertama, data mayoritas diambil secara acak sebanyak data minoritas yang dilakukan sebanyak 3 kali percobaan. Cara kedua,
81% 19%
Debitur baik Debitur buruk
8
dilakukan proses clustering untuk data mayoritas sebanyak 9 kali percobaan, mulai dari 2 cluster sampai 10 cluster. Percobaan dilakukan pada setiap cluster dengan mengambil beberapa sampel dari setiap cluster yang banyaknya diperoleh dari rumus berikut :
= jumlah data cluster i
jumlah data kelas mayoritas× jumlah data kelas minoritas
Jumlah total data yang digunakan untuk teknik oversampling adalah 6518, sedangkan untuk teknik undersampling adalah 1272 data.
10-Fold Cross Validation
Data dibagi menjadi data uji dan data latih secara acak dengan pemilihan 10
fold. Metode ini membagi data menjadi 10 bagian. Masing-masing bagian tersebut
secara bergantian digunakan sebagai data latih dan data uji sampai dengan total 10 iterasi. Pemilihan jumlah 10 fold ini atas dasar pertimbangan jumlah data yang digunakan cukup besar, sehingga dibagi menjadi 10 bagian.
Proses Klasifikasi Metode KNN
Tahapan selanjutnya adalah proses klasifikasi menggunakan KNN dengan mencari jarak terdekat antara data uji dengan K tetangga terdekatnya dalam data latih. Langkah-langkah pada metode KNN adalah :
1. Menghitung jarak Euclidean untuk data numerik yang sebelumnya telah dilakukan normalisasi data.
2. Atribut nominal yang sudah dilambangkan dengan nilai numerik, dihitung jaraknya dengan membandingkan data latih dan data uji.
3. Penggabungan jarak dari hasil perhitungan jarak Euclidean dan perhitungan data atribut nominal.
4. Penentuan nilai k sebagai jumlah tetangga terdekat dalam metode KNN. Analisis Hasil Klasifikasi
Kinerja metode klasifikasi dievaluasi dari hasil perhitungan akurasi,
precision, recall, dan F-measure. Dalam penelitian ini, nilai akurasi, precision, recall, dan F-measure dinyatakan dalam persen, semakin tinggi persentase
akurasi, precision, recall, dan F-measure, maka semakin baik kinerja metode klasifikasi.
HASIL DAN PEMBAHASAN
Praproses Data
Berdasarkan eksplorasi data yang dilakukan, diketahui bahwa tidak semua atribut memiliki nilai yang relevan dan lengkap. Oleh karena itu, dilakukan penghapusan data terhadap instance yang memiliki missing value dan nilai yang
9
tidak relevan. Banyaknya instance yang tidak digunakan dalam proses klasifikasi adalah 518, sehingga sehingga data yang diproses dalam penelitian ini berjumlah 3895 dengan 14 atribut, dengan 3259 termasuk ke dalam kategori debitur baik dan 636 debitur buruk. Dari praproses data ini diketahui bahwa jumlah instance debitur baik berkurang dari 3574 menjadi 3259, sedangkan kelas debitur buruk berkurang dari 839 menjadi 636. Pada tahap praproses data diketahui pula karakteristik dari atribut, selengkapnya dapat dilihat pada Tabel 2.
Tabel 2 Karakteristik atribut
Rasio Nominal Ordinal
1. Pendapatan 1. Jenis kelamin 1. Pendidikan 2. Jumlah tanggungan 2. Status pekerjaan
3. Umur 3. Jenis pekerjaan
4. Masa kerja 4. Tipe perusahaan 5. Lama tinggal 5. Status rumah 6. Banyaknya kartu kredit lain 6. Status pernikahan 7. Persentase utang kartu
kredit lain
Hasil Klasifikasi Percobaan Data Asli
Data asli yang dimaksud dalam percobaan ini adalah data yang sudah melalui tahap praproses data dan belum mengalami proses sampling, dengan 636 data minoritas merupakan kategori debitur buruk atau yang digolongkan kedalam kelas minoritas atau kelas positif dan 3259 data mayoritas merupakan debitur baik atau kelas negatif, sehingga total untuk percobaan data asli berjumlah 3895 data. Akurasi, recall, precision dan F-measure terbaik percobaan data asli dapat dilihat pada Gambar 3.
Gambar 3 Hasil percobaan data asli Percobaan Oversampling Replikasi
Pada percobaan ini, distribusi data minoritas akan dibangkitkan dengan cara mereplikasi kelas minoritas sehingga jumlahnya menjadi 2623 data. Data tersebut
80.87% 42.19% 28.86% 29.81% 0% 20% 40% 60% 80% 100%
10
akan digabungkan dengan 636 data asli kelas minoritas dan 3259 data asli pada kelas mayoritas sehingga jumlah total sebanyak 3259 data. Perbedaan dengan teknik oversampling acak adalah susunan data akan sama dengan data kelas minoritas karena hanya melakukan replikasi saja. Akurasi, recall, precision dan
F-measure terbaik percobaan oversampling replikasi dapat dilihat pada Gambar 4.
Gambar 4 Hasil percobaan oversampling replikasi Percobaan Oversampling Acak
Teknik oversampling acak dilakukan dengan cara membangkitkan data kelas minoritas sehingga jumlahnya sama dengan kelas mayoritas. Pada percobaan ini, distribusi data minoritas akan dibangkitkan secara acak sebanyak 2623 data. Data pada atribut rasio dibangkitkan dengan sampel acak, sedangkan data pada atribut nominal dibangkitkan dengan sampel acak diskret yang mempertimbangkan nilai peluang pada setiap kemunculan nilainya, 2623 data tersebut akan digabungkan dengan 636 data asli kelas minoritas dan 3259 data asli pada kelas mayoritas sehingga jumlah kelas minoritas sama dengan kelas mayoritas, yaitu sebanyak 3259 data. Akurasi, recall, precision dan F-measure terbaik percobaan oversampling acak dapat dilihat pada Gambar 5.
Gambar 5 Hasil percobaan oversampling acak Percobaan Undersampling Acak
Proses undersampling acak dilakukan dengan mengurangi jumlah data kelas mayoritas secara acak menjadi 636 data sesuai jumlah pada kelas minoritas.
96.24% 99.23% 95.21% 96.30% 0% 20% 40% 60% 80% 100%
Akurasi Recall Precision F-measure
84.27% 90.40% 86.23% 83.91% 0% 20% 40% 60% 80% 100%
11
Pengurangan data dilakukan sebanyak 2623 data pada kelas mayoritas sehingga jumlahnya menjadi 636 data. Kemudian, 636 data pada kelas mayoritas tersebut digabung dengan 636 data kelas minoritas sehingga total data yang diproses adalah 1272. Akurasi, recall, precision dan F-measure terbaik percobaan
undersampling acak dapat dilihat pada Gambar 6.
Gambar 6 Hasil percobaan undersampling acak Percobaan Undersampling Cluster
Proses clustering pada percobaan ini dilakukan untuk 3259 data kelas mayoritas dengan 9 kali percobaan clustering, yaitu data tersebut dibagi menjadi 2
cluster, 3 cluster, 4 cluster dan seterusnya sampai 10 cluster. Untuk setiap cluster
tersebut akan diambil sejumlah data dari masing-masing cluster sehingga jumlahnya menjadi 636 data yang kemudian akan digabungkan dengan 636 data kelas minoritas sehingga total data adalah 1272. Akurasi, recall, precision dan
F-measure terbaik percobaan undersampling cluster dapat dilihat pada Gambar 7.
Gambar 7 Hasil percobaan undersampling cluster
77.28% 83.60% 82.86% 75.99% 0% 20% 40% 60% 80% 100%
Akurasi Recall Precision F-measure
66.66% 81.45% 67.52% 68.87% 0% 20% 40% 60% 80% 100%
12
Analisis Hasil Klasifikasi
Evaluasi digunakan untuk mengukur kinerja metode klasifikasi, dalam penelitian ini digunakan untuk mengukur keakuratan metode klasifikasi yang diukur dengan akurasi, precision, recall, dan F-measure. Recall didefinisikan sebagai persentase antara data kelas debitur buruk yang dikelaskan dengan benar dan data kelas debitur buruk yang salah diprediksi ke kelas debitur baik. Precision adalah persentase dari kelas debitur buruk yang dikelaskan dengan benar dan kelas yang seharusnya termasuk kelas debitur baik tetapi dikelaskan sebagai kelas debitur buruk, sedangkan untuk F-Measure yang memiliki nilai tinggi menyatakan bahwa nilai recall dan precision juga tinggi.
Berdasarkan hasil klasifikasi, diperoleh nilai akurasi percobaan pada data asli, oversampling replikasi, oversampling acak, undersampling acak dan
undersampling cluster yang diperlihatkan pada Tabel 3, untuk precision, recall,
dan measure diperlihatkan pada Tabel 4. Nilai akurasi, precision, recall, dan
F-measure dinyatakan dalam persen, semakin tinggi persentase nilainya, maka
semakin baik kinerja metode klasifikasi.
Tabel 3 Hasil akurasi rata-rata
Teknik sampling k = 1 k = 2 k = 3 k = 4 k = 5 Data asli 74.89% 67.76% 79.92% 76.46% 80.87% Oversampling replikasi 96.13% 95.73% 96.24% 95.77% 95.93% Oversampling acak 84.12% 81.28% 84.27% 82.13% 82.05% Undersampling acak 74.21% 73.42% 76.02% 74.92% 77.28% Undersampling cluster 65.18% 63.12% 65.62% 64.44% 66.66%
Tabel 4 Hasil precision, recall dan F-measure
Teknik sampling k = 1 k = 2 k = 3 k = 4 k = 5 Precision Data asli 23.64% 23.05% 28.86% 27.03% 27.65% Oversampling replikasi 95.21% 92.78% 94.32% 92.87% 93.80% Oversampling acak 85.07% 76.47% 86.23% 79.56% 83.75% Undersampling acak 74.21% 69.65% 79.73% 73.89% 82.86% Undersampling cluster 65.18% 59.70% 66.09% 61.91% 67.52% Recall Data asli 23.83% 42.19% 15.91% 26.61% 10.64% Oversampling replikasi 97.13% 99.23% 98.36% 99.14% 98.38% Oversampling acak 82.78% 90.40% 81.53% 86.54% 79.58% Undersampling acak 72.23% 83.60% 70.57% 76.88% 68.42% Undersampling cluster 64.88% 81.45% 64.44% 76.37% 65.20% F-Measure Data asli 23.73% 29.81% 20.52% 26.82% 15.36% Oversampling replikasi 96.16% 95.90% 96.30% 95.90% 96.04% Oversampling acak 83.91% 82.85% 83.82% 82.91% 81.61% Undersampling acak 73.65% 75.99% 74.87% 75.36% 74.95% Undersampling cluster 65.12% 68.87% 65.24% 68.32% 66.29%
13
Berdasarkan Tabel 3 dan Tabel 4, dapat diketahui bahwa hasil klasifikasi pada data asli tidak lebih baik dari hasil klasifikasi pada data yang sudah mengalami modifikasi distribusi data. Akurasi pada percobaan data asli diperoleh sebesar 80.87% untuk k = 5. Namun, nilai precision, recall, dan F-measure yang dihasilkan dari percobaan data asli tidak sebaik hasil akurasinya. Precision tertinggi diperoleh ketika nilai k =3 yaitu sebesar 28.86%, sementara itu recall dan
F-measure tertinggi diperoleh ketika nilai k = 2, yaitu sebesar 42.19% dan
29.81%. Hal tersebut terjadi karena distribusi data pada kelas mayoritas yang jumlahnya lima kali lebih besar dibandingkan kelas minoritas terlalu mendominasi keseluruhan data, padahal yang menjadi fokus penelitian ini adalah data minoritas, yaitu data debitur kategori buruk.
Ketika percobaan metode distribusi data undersampling dengan clustering diterapkan pada data kelas debitur baik, jarak antara satu instance dengan instance yang lain diukur kedekatannya pada saat proses clustering sehingga diperoleh akurasi yang cukup stabil untuk percobaan dengan nilai k = 1 sampai dengan k = 5. Hasil undersampling cluster pada Tabel 4 merupakan hasil rata-rata dari percobaan yang dilakukan pada data yang sudah melalui proses clustering 2
cluster sampai dengan 10 cluster. Akurasi tertinggi diperoleh ketika nilai k = 5
yaitu sebesr 66.66%, sedangkan untuk nilai precision tertinggi sebesar 67.52% ketika nilai k = 5, recall tertinggi sebesar 81.45% untuk nilai k = 2 serta
F-measure tertinggi sebesar 68.87% untuk nilai k = 2.
Hasil undersampling acak yang diperoleh dari rata-rata 3 kali percobaan memiliki nilai akurasi, precision, recall, dan F-measure lebih baik jika dibandingkan dengan hasil pada undersampling cluster. Akurasi tertinggi diperoleh ketika nilai k = 5 yaitu sebesar 77.28%, sedangkan untuk nilai precision tertinggi sebesar 82.86% ketika nilai k = 5, recall tertinggi sebesar 83.60% untuk nilai k = 2 serta F-measure tertinggi sebesar 75.99% untuk nilai k = 2.
Berdasarkan Tabel 3 dan Tabel 4, dapat diketahui untuk evaluasi nilai akurasi yang tertinggi diperoleh dari percobaan data oversampling replikasi dengan nilai k =1 yaitu sebesar 96,13%. Begitu juga dengan hasil akurasi
oversampling acak yang masih lebih unggul dibandingkan dengan modifikasi
distribusi data undersampling yaitu sebesar 84.27% untuk nilai k = 3. Namun, akurasi dapat mengalami penurunan seiring bertambahnya nilai k. Keunggulan distribusi data dengan teknik oversampling dibuktikan pula dengan hasil
precision, recall, dan F-measure, yaitu sebesar 95.21% ketika nilai k = 1, 99.23%
ketika nilai k = 2, 96.30% ketika nilai k =3 untuk oversampling replikasi dan 86.23% ketika nilai k = 3, 90.40% ketika nilai k = 2, 83.91% ketika nilai k = 1 untuk oversampling acak.
Dari beberapa teknik distribusi data yang diujikan, diketahui bahwa data yang didistribusikan melalui teknik oversampling memiliki nilai akurasi,
precision, recall, dan F-measure lebih baik. Jika dikaitkan dengan konsep
algoritme KNN yang merepresentasikan data dalam k ruang dimensi serta mengklasifikasikan data berdasarkan ukuran kedekatan jarak, pada percobaan data
oversampling, data minoritas yang jumlahnya jauh lebih sedikit dibangkitkan dan
ketika sebuah data uji dihitung kedekatannya dengan titik lain pada data latih, kemungkinan data tersebut membandingkan jarak dengan dirinya sendiri, sehingga berdampak juga pada hasil confusion matrix.
14
Perbandingan dengan Penelitian Sebelumnya
Jika dibandingkan dengan penelitian sebelumnya yang dilakukan oleh Natasia (2013), terjadi perbedaan yang cukup tinggi untuk tingkat akurasi,
precision, recall, dan F-measure yang perlihatkan dalam Tabel 5. Penelitian
tersebut dilakukan pada data dan jumlah atribut yang sama, namun dengan pendekatan berbeda, yaitu dari sisi algoritme VFI5 tanpa melakukan modifikasi distribusi data kelas minoritas maupun kelas mayoritas dalam mengatasi kasus
imbalanced data.
Tabel 5 Perbandingan dengan penelitian lain
Pendekatan Akurasi Recall Precision F-Measure
Algoritme Model 1 65.30% 40.63% 21.14% 27.81% Model 2 67.74% 46.88% 24.69% 32.81% Model 3 70.40% 38.58% 24.38% 29.88% Sampling Data asli 80.87% 42.19% 28.86% 29.81% Oversampling replikasi 96.24% 99.23% 95.21% 96.30% Oversampling acak 84.27% 90.40% 86.23% 83.91% Undersampling acak 77.28% 83.60% 82.86% 75.99% Undersampling cluster 66.66% 81.45% 67.52% 68.87% Keterangan :
Model 1 : model VFI5 menggunakan semua fitur
Model 2 : model VFI5 menggunakan semua fitur berakurasi > 50% (best subset regression)
Model 3 : model VFI5 hasil pemilihan fitur bertahap (forward selection) Sampling : metode KNN
Dalam penelitian tersebut, dibuat 3 model VFI5, yaitu model 1 menggunakan semua fitur meghasilkan nilai akurasi, precision, recall, dan
F-measure sebesar 65.30% , 40.63%, 21.14%, dan 27.81%. Sementara itu, untuk
model 2 menggunakan fitur dengan akurasi kurang dari 50% menggunakan metode best subset regression, menghasilkan nilai masing-masing sebesar 67.74%, 46.88%, 24.69%, dan 32.35%, sedangkan model 3 merupakan hasil pemilihan fitur bertahap dengan hasil akurasi 70.40%, precision 38.58%, recall 24.38%, dan F-measure 29.88%. Hasil akurasi, precision, recall, dan F-measure dari ketiga model tersebut tidak jauh berbeda dengan percobaan data asli pada pendekatan sampling untuk klasifikasi dengan metode KNN. Pada percobaan menggunakan data asli akurasi tertinggi didapat ketika nilai k = 5 yaitu sebesar 80.87%, untuk recall tertinggi yaitu sebesar 42.19% saat k = 2, precision tertinggi sebesar 28.86% ketika k = 3 dan nilai F-measure tertinggi didapat ketika nilai k =
15
2 yaitu sebesar 29.81%. Dari hasil tersebut dapat diketahui bahwa percobaan pada data asli menggunakan metode KNN memiliki nilai akurasi, precision, recall, dan
F-measure yang lebih baik dari ketiga model menggunakan metode VFI5.
Jika hasil percobaan dengan metode VFI5 tersebut dibandingkan dengan hasil percobaan pada data yang sudah mengalami modifikasi dengan teknik
oversampling dan undersampling, hasil evaluasi memiliki perbedaan yang cukup
besar. Perbedaan yang sangat sigifikan terlihat pada hasil percobaan oversampling replikasi dengan nilai akurasi 96.24% ketika k = 3, nilai recall 99.23% ketika k = 2, nilai precision 95.21% ketika k = 1, dan nilai F-measure sebesar 96.30% ketika
k = 3. Teknik modifikasi distribusi data oversampling dan undersampling
menghasilkan nilai akurasi, precision, recall, dan F-measure yang lebih baik, tetapi jika dilihat dari sisi algoritme, VFI5 memiliki keunggulan untuk waktu pelatihan dan klasifikasi yang lebih singkat jika dibandingkan dengan metode KNN.
SIMPULAN DAN SARAN
Simpulan
Berdasarkan penelitian yang telah dilakukan dengan metode KNN dapat diperoleh kesimpulan sebagai berikut :
1. Percobaan menggunakan data asli menghasilkan akurasi tertinggi ketika k = 5 yaitu sebesar 80.87% serta recall tertinggi sebesar 42.19% ketika k = 2,
precision tertinggi sebesar 28.86% ketika k = 3 dan F-measure tertinggi
sebesar 29.81% ketika k = 2.
2. Percobaan menggunakan data oversampling replikasi menghasilkan nilai akurasi yang baik, yaitu sebesar 96.24% ketika k =3. Hasil yang baik ditunjukan pula pada recall, precision, dan F-measure dengan nilai masing-masing sebesar 99.23% ketika k = 2, 95.21% ketika k = 1, dan 96.30% ketika k = 3.
3. Percobaan menggunakan data oversampling acak menghasilkan akurasi tertinggi ketika k = 3, yaitu sebesar 84.27%, untuk nilai recall, precision, dan
F-measure data minoritas diperoleh hasil sebesar 90.40% ketika k = 2, 86.23%
ketika k = 3, dan 83.91% ketika k = 1.
4. Percobaan menggunakan data undersampling acak menghasilkan akurasi tertinggi sebesar 77.28% ketika k = 5, untuk recall, precision, dan F-measure dengan nilai masing masing sebesar 83.60% ketika k = 2, 82.86% ketika k = 5, dan 75.99% ketika k = 1.
5. Percobaan menggunakan data undersampling cluster menghasilkan akurasi tertinggi sebesar 66.66% ketika k = 5, untuk recall, precision, dan F-measure dengan nilai masing-masing sebesar 81.45% ketika k = 2, 68.87% ketika k = 5, dan 68.87% ketika k = 2.
Berdasarkan percobaan klasifikasi dengan KNN diketahui bahwa sampel yang sudah mengalami modifikasi distribusi data melalui teknik oversampling dan
undersampling memiliki nilai akurasi, precision, recall, dan F-measure lebih baik
dibandingkan dengan data asli yang belum mengalami modifikasi. Hasil percobaan terbaik diperoleh dari percobaan teknik oversampling replikasi,
16
sehingga dapat disimpulkan bahwa modifikasi distribusi data pada kasus
imbalance data dapat meningkatkan kinerja klasifikasi dengan metode KNN.
Saran
Pada penelitian selanjutnya diharapkan dapat dilakukan percobaan dengan teknik sampling lain seperti SMOTE (synthetic minority oversampling technique) dalam mengatasi imbalanced data, serta algoritme modifikasi KNN, seperti
weighted KNN.
DAFTAR PUSTAKA
Bank Indonesia. 2013. Daftar penerbit kartu kredit. [diunduh 2013 Maret 18]. Tersedia pada: http://bi.go.id/Statistik/Statistik+Sistem+Pembayaran/APMK/ Han J, Kamber M. 2006. Data Mining Concept and Tehniques. San Fransisco
(US): Morgan Kauffman.
He H, Edwardo AG. 2009. Learning from imbalanced data. IEEE Transactions on
Knowledge and Data Engineering. 21(9):1263-1284.
Kohavi R. 1995. A study of cross validation and bootstrap for accuracy estimation and model selection. Di dalam: Proceedings of the International Joint
Conference on Articial Intelligence (IJCAI). 2:1137-1143.
Larose DT. 2005. Discovering Knowledge in Data : An Introduction to Data
Mining. Canada (US) : John Wiley & Sons, Inc.
Natasia SR. 2013. Klasifikasi debitur kartu kredit dengan pemilihan fitur menggunakan Voting Feature Intervals 5 [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Nurjayanti B. 2011. Identifikasi shorea menggunakan K-Nearest Neighbour berdasarkan karakteristik morfologi daun [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Sayono JA, Sumarwan U, Achsani NA, Hartoyo. 2009. Analisis faktor-faktor yang mempengaruhi kepemilikan, penggunaan, pembayaran, dan peluang terjadinya gagal bayar dalam bisnis kartu kredit. Jurnal Ekonomi dan Bisnis. 3 (1):61-80.
Setiawati PA. 2011. Penelusuran banyaknya unit dan lapisan tersembunyi jaringan saraf tiruan pada data tidak seimbang [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Tan PN, Steinbach M, Kumar V. 2006. Introduction to Data Mining. Boston (US): Pearson Education.
Teknomo K. 2006. Similarity measurement. [diunduh 2012 Des 9]. Tersedia pada : http://people.revoledu.com/kardi/tutorial/Similarity/
Weng CG, Poon J. 2008. A new evaluation measure for imbalanced datasets. Di dalam: Proceedings of the 7th Australasian Data Mining Conference. 87:27-32.
Zhang J, Mani I. 2003. kNN Approach do Unbalanced Data distributif : A Case Study involving Information Extraction*. Workshop on Learning krom Imbalanced datasets II ICML. Washington DC (US).
17
Lampiran 1 Daftar atribut
Jenis Atribut Nama Atribut Keterangan
Rasio
Pendapatan Dalam rupiah per tahun
Masa Kerja Dalam bulan
Lama Tinggal Dalam bulan
Jumlah Tanggungan Jumlah orang
Umur Dalam tahun
Banyaknya Kartu Kredit Lain Persentase Utang Kartu
Kredit Lain Dalam persen
Nominal
Jenis Kelamin 1 = Pria
2 = Wanita Status Pekerjaan 1 = Permanen
2 = Kontrak
Jenis Pekerjaan
1 = Conversion
2 = Pegawai Negeri Sipil 3 = Profesional 4 = Wiraswasta 5 = Perusahaan swasta Tipe Perusahaan 1 = Kontraktor 2 = Conversion 3 = Industri Berat 4 = Pertambangan 5 = Jasa 6 = Transportasi
Status Rumah 0 = Bukan rumah sendiri 1 = Milik sendiri Status Pernikahan 1 = Lajang 2 = Menikah 3 = Bercerai Ordinal Pendidikan 1 = SMP/SMA 2 = Akademi 3 = S1/S2
Status 1 = Debitur Buruk
18
Lampiran 2 Nilai akurasi undersampling acak
k = 1 k = 2 k = 3 k = 4 k = 5
Undersampling acak 1 74.21 73.42 76.02 74.92 77.28
Undersampling acak 2 73.99 70.84 75.55 73.04 73.12
Undersampling acak 3 69.89 67.53 72.01 71.31 70.20
Lampiran 3 Nilai precision undersampling acak
k = 1 k = 2 k = 3 k = 4 k = 5
Undersampling acak 1 69.65 69.65 79.73 73.89 82.86
Undersampling acak 2 66.93 66.93 77.27 70.74 75.68
Undersampling acak 3 63.45 63.45 73.78 68.37 72.75
Lampiran 4 Nilai recall undersampling acak
k = 1 k = 2 k = 3 k = 4 k = 5
Undersampling acak 1 72.23 83.60 70.57 74.92 77.28
Undersampling acak 2 73.14 83.13 72.49 73.04 73.12
Undersampling acak 3 67.96 82.31 68.53 71.31 70.20
Lampiran 5 Nilai F-measure undersampling acak
k = 1 k = 2 k = 3 k = 4 k = 5
Undersampling acak 1 73.65 75.99 74.87 75.36 74.95
Undersampling acak 2 73.81 74.15 74.80 74.46 71.40
19
Lampiran 6 Akurasi undersampling cluster 2 sampai cluster 10
k = 1 k = 2 k = 3 k = 4 k = 5 Undersampling cluster 2 75.55 70.64 76.10 74.52 76.92 Undersampling cluster 3 63.33 61.00 65.01 64.59 66.28 Undersampling cluster 4 68.71 65.73 64.54 64.11 67.65 Undersampling cluster 5 63.45 62.10 64.16 62.82 63.60 Undersampling cluster 6 61.20 61.25 62.38 61.91 63.60 Undersampling cluster 7 60.89 60.06 62.58 62.58 63.52 Undersampling cluster 8 62.03 61.99 63.29 60.77 63.32 Undersampling cluster 9 61.99 59.99 61.83 60.77 62.93 Undersampling cluster 10 69.50 65.33 70.68 67.92 72.13 Rata-rata 65.18 63.12 65.62 64.44 66.66
Lampiran 7 Precision undersampling cluster 2 sampai cluster 10
k = 1 k = 2 k = 3 k = 4 k = 5 Undersampling cluster 2 75.64 66.63 78.11 72.73 80.13 Undersampling cluster 3 63.52 57.86 65.77 61.63 67.05 Undersampling cluster 4 68.77 61.47 65.08 61.32 68.37 Undersampling cluster 5 64.19 58.78 64.41 60.08 64.33 Undersampling cluster 6 61.03 58.07 62.06 59.18 63.26 Undersampling cluster 7 60.79 57.19 62.46 59.79 63.40 Undersampling cluster 8 61.96 58.55 63.20 58.47 62.96 Undersampling cluster 9 62.20 56.99 61.94 58.33 63.24 Undersampling cluster 10 70.23 61.73 71.80 65.72 74.92 Rata-rata 65.37 59.70 66.09 61.91 67.52
Lampiran 8 Recall undersampling cluster 2 sampai cluster 10
k = 1 k = 2 k = 3 k = 4 k = 5 Undersampling cluster 2 75.29 83.13 72.24 78.80 71.84 Undersampling cluster 3 63.28 81.03 63.27 77.48 64.77 Undersampling cluster 4 63.28 81.03 63.27 77.48 64.77 Undersampling cluster 5 61.16 80.08 63.36 75.67 61.45 Undersampling cluster 6 62.60 82.59 63.19 75.92 65.06 Undersampling cluster 7 61.35 79.22 62.39 77.10 64.47 Undersampling cluster 8 62.63 81.39 63.64 74.95 64.83 Undersampling cluster 9 60.91 80.53 61.40 75.71 61.67 Undersampling cluster 10 68.14 81.15 67.72 74.55 66.86 Rata-rata 64.29 81.13 64.50 76.41 65.08
20
Lampiran 9 F-measure undersampling cluster 2 sampai cluster 10
k = 1 k = 2 k = 3 k = 4 k = 5 Undersampling cluster 2 75.46 73.97 75.06 75.64 75.76 Undersampling cluster 3 63.40 67.51 64.49 68.64 65.89 Undersampling cluster 4 68.68 70.96 63.89 68.34 67.07 Undersampling cluster 5 62.64 67.80 63.88 66.98 62.85 Undersampling cluster 6 61.81 68.19 62.62 66.51 64.15 Undersampling cluster 7 61.07 66.43 62.42 67.35 63.93 Undersampling cluster 8 62.30 68.11 63.42 65.69 63.87 Undersampling cluster 9 61.55 66.75 61.67 65.89 62.44 Undersampling cluster 10 69.17 70.12 69.70 69.85 70.66 Rata-rata 65.12 68.87 65.24 68.32 66.29
Keterangan : nilai akurasi, recall, precision dan F-measure dinyatakan dalam persen.
21
RIWAYAT HIDUP
Penulis dilahir di Indramayu pada tanggal 27 Juli 1991 sebagai anak kedua dari pasangan Bapak Moh. Hariri dan Ibu Suparti.
Pada tahun 2009 penulis lulus dari SMA Negeri 1 Sindang Indramayu kemudian melanjutkan pendidikan jenjang S1 sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor pada tahun yang sama melalui jalur USMI.
Selama menjalani perkuliahan, penulis aktif dalam berbagai kepanitiaan, diantaranya kegiatan masa perkenalan mahasiswa baru angkatan 47 untuk divisi sponsorship, serta kepanitiaan IT TODAY divisi dekorasi dan dokumentasi yang diselenggarakan oleh Himalkom pada tahun 2011 dan 2012. Selain itu, penulis menjalani praktek kerja lapangan di Divisi Teknologi Perangkat Lunak PT Dirgantara Indonesia, Bandung pada bulan Juni sampai Agustus 2012. Dalam kompetisi Pekan Kreativitas Mahasiswa bidang Karsa Cipta, penulis bersama tim
I-Blood Bank berhasil terpilih sebagai salah satu tim yang didanai DIKTI untuk