Seleksi Data - HASIL DAN PEMBAHASAN - Deteksi outlier pada data campuran numerik dan kategorika

BAB IV HASIL DAN PEMBAHASAN

1. Seleksi Data

Proses pemilihan atribut-atribut yang relevan untuk dilakukan penambangan data. Atribut yang tidak relevan akan dihilangkan karena akan membiaskan hasil penambangan data.

2. Pembersihan Data (Data Cleaning)

Proses pembersihan pada data yang menjadi fokus KDD. Bentuk pembersihan data mencakup antara lain mengisi missing value, menghaluskan data yang noisy, mengidentifikasi dan menghilangkan outlier, dan menangani data yang tidak

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

konsisten. Dalam penelitian ini dilakukan pengisian missing value.

3. Transformasi Data (Data Transformation)

Proses transformasi pada data yang sudah diseleksi ke dalam bentuk yang sesuai untuk ditambang.

4. Penambangan Data (Data Mining)

Proses mengaplikasikan metode untuk mendapatkan pola pada suatu kumpulan data. Dalam penelitian ini, metode yang digunakan adalah metode analisis outlier dengan menggunakan algoritma ECODB.

5. Evaluasi Pola ( Pattern Evaluation )

Proses penerjemahan pola-pola yang dihasilkan dari penambangan data. Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

G. Sistematika Penulisan

Secara umum dalam menyelesaikan penelitian ini, disusun suatu sistematika sebagai berikut :

BAB I : PENDAHULUAN

Berisi latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian dan sistematika penulisan.

BAB II : LANDASAN TEORI

Berisi teori - teori yang mendukung penelitian, antara lain mengenai penambangan data, outlier dan algoritma Enhanced Class Outlier Distance Based (ECODB).

BAB III : METODE PENELITIAN

Berisi penjelasan mengenai langkah atau metode yang dilakukan untuk menyelesaikan masalah dalam penelitian ini.

BAB IV : HASIL DAN PEMBAHASAN

Berisi penjelasan tentang hasil analisa yang diperoleh dari penelitian. Pada bab ini, akan dijabarkan secara lengkap proses perhitungan menggunakan Microsoft Excel, hasil deteksi outlier yang didapat, hasil analisa algoritma ECODB yang diterapkan ke dalam data debitur dan hasil pengujian review dan validitas outlier oleh petugas bank BPR XYZ.

BAB VII : PENUTUP

Berisi kesimpulan dan saran yang bermanfaat bagi pengembangan penelitian ini lebih lanjut.

BAB II

LANDASAN TEORI

A. Penambangan Data

1. Pengertian dan Fungsi Penambangan Data

Menurut Santosa (2007) “penambangan data adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari penambangan data bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan”. Tool penambangan data mampu memprediksi tren dan perilaku sehingga mampu membuat perusahaan semakin proaktif dan memperkaya pengetahuan atau informasi dalam membuat keputusan (Lee S dan Santana, 2010).

Menurut Lee S dan Santana (2010), fungsi penambangan data yang digunakan untuk keperluan implementatif mencakup :

a. Mendeteksi pola kecurangan bertransaksi, klaim kartu kredit, dll.

b. Memodelkan pola dan perilaku pembeli/konsumen. c. Mengoptimasi performansi produk barang atau jasa.

d. Mendeteksi kejadian pada perilaku, seperti menelusuri riwayat aktivitas yang unik atau tidak wajar.

e. Memperlengkapi perusahaan dalam menemukan pola dan korelasi data yang menuntun pada pengetahuan dan temuan bernilai lainnya.

2. Pemrosesan Awal Data

Data yang belum diproses disebut data mentah. Data mentah perlu disiapkan terlebih dahulu agar bisa dipakai dalam proses penambangan data. Pada data mentah sering ditemukan noisy, missing value (nilai yang hilang), dan data yang tidak konsisten. Data dengan kualitas rendah akan menghasilkan kualitas penambangan yang buruk (Han dan Kamber, 2006). Maka perlu ditingkatkan kualitasnya dengan melakukan pemrosesan awal data.

Sumber : Han dan Kamber, 2006

Gambar 2.1 Metode pemrosesan awal data Ada beberapa metode pemrosesan awal data, yaitu :

a. Pembersihan data (data cleaning)

Data yang akan ditambang mungkin saja mengalami missing value, noisy, atau tidak konsisten. Pembersihan data diperlukan untuk mengisi missing value, menghaluskan data yang noisy, mengidentifikasi dan menghilangkan outlier, dan menangani data yang tidak konsisten (Han dan Kamber, 2006).

Ada beberapa langkah pembersihan data untuk menangani data yang missing value atau noisy.

1. Missing value

a. Membiarkan nilai yang hilang.

b. Mengisi nilai yang hilang secara manual.

c. Menggunakan konstanta \Unknown atau ∞ untuk mengisi nilai yang hilang.

d. Mengisi nilai yang hilang dengan nilai rata – rata atribut.

e. Mengisi nilai yang hilang dengan nilai rata – rata sampel dari kelas yang sama.

f. Mengisi dengan nilai yang paling besar kemungkinan/kesesuaiannya dengan nilai yang hilang (Han dan Kamber, 2006).

2. Noisy

a. Metode binning.

Ada 3 macam metode binning, yaitu :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1. Smoothing dengan rata – rata (means) dari bin.

Tiap nilai dari bin diganti dengan nilai rata – rata bin.

2. Smoothing dengan nilai tengah (median) dari bin.

Tiap nilai dari bin diganti dengan nilai nilai tengah bin.

3. Smoothing dengan batas bin.

Nilai terendah dan tertinggi diidentifikasi sebagai batas bin. Setiap nilai bin diubah sesuai nilai batas bin yang paling mendekati (Han dan Kamber, 2006).

b. Regresi. c. Clustering.

b. Integrasi data (data integration)

Integrasi data adalah suatu teknik mengkombinasikan data dari beberapa sumber dalam satu tempat penyimpanan, misalnya gudang data (data warehouse). Sumber tersebut bisa berupa multiple database, data cube atau flat file (Han dan Kamber, 2006).

c. Transformasi data (data transformation)

Data mentah perlu dilakukan proses transformasi untuk meningkatkan performanya. Dalam tranformasi data, data diubah menjadi bentuk yang bisa ditambang (Han dan Kamber, 2006).

Ada beberapa metode transformasi data, yaitu : 1. Smoothing.

2. Agregasi. 3. Generalisasi. 4. Normalisasi.

5. Konstruksi atribut. (Han dan Kamber, 2006) d. Reduksi data (data reduction)

Data yang kompleks akan membutuhkan waktu yang lama untuk menambang. Teknik reduksi data sangat membantu mereduksi data yang kompleks tanpa mengurangi integritas dari data yang asli dan tidak mengurangi kualitas informasi yang dihasilkan (Han dan Kamber, 2006).

Ada beberapa metode yang digunakan untuk mereduksi data, yaitu :

1. Agregasi data cube. 2. Mereduksi dimensi. 3. Mengkompresi data.

4. Mereduksi semua data (mengganti data yang asli dengan model data).

5. Pendiskretan dan konsep hirarki (Han dan Kamber, 2006).

B. Outlier

Menurut Han dan Kamber (2006), data outlier adalah kumpulan obyek - obyek yang dipandang sangat berbeda dibandingkan keseluruhan data. Jadi dapat dikatakan, outlier adalah data yang berbeda/tidak sama atau tidak konsisten dengan keseluruhan set data.

Sumber : Han dan Kamber, 2006

Gambar 2.2 Set data dengan outlier

Ada beberapa hal yang menyebabkan munculnya outlier, yaitu : 1. Kesalahan pengukuran data.

Sebagai contoh, munculnya data umur seseorang yaitu 999 tahun karena kesalahan pengaturan default program.

2. Data pengukuran berasal dari populasi lain.

Contohnya yaitu gaji seorang pimpinan perusahaan dapat dianggap sebagai outlier di antara gaji para karyawan di perusahaan tersebut karena adanya perbedaan yang sangat

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

mencolok antara gaji seorang pimpinan dan gaji karyawan di sebuah perusahaan (Han dan Kamber, 2006).

3. Data pengukuran yang benar tetapi mewakili peristiwa atau keadaan unik yang jarang terjadi.

Misalnya, terdapat ada mahasiswa dengan IPK di atas 3,9 sementara sebagian besar mahasiswa mempunyai IPK di bawah 3,3, maka mahasiswa itu akan dianggap sebagai outlier.

Kebanyakan algoritma penambangan data mencoba untuk mengurangi atau bahkan menghilangkan pengaruh outlier. Padahal outlier sendiri kemungkinan memiliki informasi penting yang tersembunyi (Han dan Kamber, 2006). Deteksi outlier dapat menghasilkan informasi penting yang terdapat pada outlier. Dalam penambangan data, deteksi outlier adalah satu satu bidang penelitian yang terus berkembang (Maryono, 2010). Deteksi data outlier sangat bermanfaat untuk mendeteksi adanya perilaku atau kejadian yang tidak normal seperti deteksi penipuan penggunaan kartu kredit, deteksi intrusi jaringan, penggelapan asuransi, diagnosa medis, segmentasi pelanggan, dan sebagainya (Breunig, et. Al., 2000).

Menurut Han dan Kamber (2006) , pendeteksian outlier dikategorikan menjadi 4 metode yaitu :

a. Statistical Distribution Based Outlier Detection

Dalam metode ini data diasumsikan sebagai sebuah hipotesis kerja. Setiap data obyek di dalam dataset dibandingkan terhadap hipotesis kerja. Data yang dapat diterima maka akan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

masuk dalam hipotesis kerja, sedangkan data yang ditolak atau tidak sesuai dengan hipotesis kerja maka ditetapkan menjadi hipotesis alternatif (outlier).

b. Distance Based Outlier Detection

Metode ini adalah sebuah metode deteksi outlier dengan menghitung jarak pada obyek tetangga terdekat (nearest neighbor). Di dalam pendekatan ini sebuah obyek dibandingkan dengan obyek – obyek terdekatnya yang didefinisikan sebagai k nearest neighbor. Jika jarak sebuah obyek relatif dekat maka obyek tersebut dikatakan normal, namun jika jarak antar obyek relatif jauh maka obyek tersebut dikatakan tidak normal (outlier).

c. Density Based Local Outlier Detection

Metode density based tidak secara eksplisit mengklasifikasikan sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada obyek sebagai derajat kekuatan obyek tersebut dapat dikategorikan sebagai outlier. Ukuran derajat kekuatan ini adalah local outlier factor (LOF). Pendekatan untuk pencarian outlier ini hanya membutuhkan sebuah parameter yaitu MinPts. MinPts adalah jumlah tetangga terdekat yang digunakan untuk mendefinisikan kumpulan lokal suatu obyek. d. Deviation Based Outlier Detection

Metode deviation based tidak menggunakan pengujian statistik ataupun perbandingan jarak untuk mengidentifikasi sebuah outlier.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Metode ini mengidentifikasi sebuah outlier dengan memeriksa karakteristik utama dari obyek dalam sebuah kumpulan data. Obyek yang memiliki karakteristik di luar karakteristik utama akan dianggap sebagai outlier (Han dan Kamber, 2006).

C. Algoritma EnhancedClass Outlier Distance Based (ECODB)

Algoritma Enhanced Class Outlier Distance Based (ECODB) adalah algoritma deteksi outlier yang dikembangkan oleh Hewahi dan M. K. Saad (2009). Algoritma ini merupakan penyempurnaan dari algoritma CODB (Class Outlier Distance Based). Pada algoritma ini parameter α dan β dihilangkan sehingga pada penghitungan Deviation(T) dan KDist(T) dilakukan proses normalisasi (Hewahi dan M. K. Saad, 2009). Kedua parameter tersebut dihilangkan untuk menghindari proses trial and error. Langkah – langkah algoritma ECODB adalah sebagai berikut :

1. Untuk dataset yang diberikan, hitung nilai PCL(T,K) untuk semua instance.

PCL(Probability of Class Label) adalah nilai probabilitas/banyaknya kemunculan class label yang sama dengan instance T dibandingkan K tetangga terdekatnya. Misalkan ada 7 tetangga terdekat dari instance T (termasuk dirinya) dari sebuah dataset dengan class label x dan y, dimana 5 dari tetangga terdekat mempunyai class label x dan sisanya mempunyai class label y. Instance T dengan class label y mempunyai nilai PCL 2/7.

2. Meranking list top N outlier dari instance dengan nilai PCL(T,K) terkecil. Top N adalah jumlah instances yang dideteksi sebagai outlier yang diurutkan dari kecil ke besar berdasarkan nilai COF.

3. Untuk setiap instance yang berada di list top N, menghitung nilai Deviation(T) dan KDist(T) dan update nilai MaxDev, MinDev, MaxKDist, dan MinKDist.

Misalkan ada subset DCL = {t1, t2, t3, ..., th} dari dataset D= {t1, t2, t3, ..., tn}, dimana h adalah jumlah instance dari DCL dan n adalah jumlah instance di D. Misalkan ada instance T, DCL mengandung seluruh instance yang mempunyai label kelas (class label) yang sama dengan instance T.

Deviation dari T adalah seberapa besar nilai instance T yang menyimpang dari subset DCL. Deviation dihitung dengan menjumlahkan jarak antara instance T dengan setiap instance DCL. Deviation dihitung dengan rumus sebagai berikut :

(2.1) KDist adalah jarak antara instance T pada dataset D dengan K tetangga terdekat, seberapa dekat nilai K instance tetangga terdekat dengan instance T. KDist dihitung dengan rumus sebagai berikut :

(2.2)

Kemudian nilai Deviation dan KDist dinormalisasikan dalam range 0 – 1 menggunakan rumus sebagai berikut :

(2.3) Dimana,

Norm(Deviation(T)) : nilai deviation yang sudah ternormalisasi dari instance T

Norm(KDist(T)) : nilai KDist yang sudah ternormalisasi dari instance T

MaxDev : nilai deviation tertinggi dari top N class outlier MinDev : nilai deviation terendah dari top N class outlier MaxKDist : nilai KDist tertinggi dari top N class outlier

MinKDist : KDist terendah dari top N class outlier

4. Menghitung nilai COF (Class Outlier Factor) dari setiap instance yang berada di list top N. COF adalah derajat dari suatu instance T untuk dikategorikan sebagai outlier.

(2.4) Dimana,

COF(T) : nilai Class Outlier Faktor dari instance T K : jumlah tetangga instance T

PCL(T,K) : nilai probabilitas class label dari instance T dengan class label dari K Nearest Neighbors

norm(Devation(T)) : nilai deviation yang sudah ternormalisasi dari instance T

norm(KDist(T)) : nilai KDist yang sudah ternormalisasi dari dari instance T

Class outlier adalah instance – instance yang memenuhi pernyataan berikut :

a. KDist dari K tetangga terdekatnya terkecil. b. Nilai Deviation-nya terbesar.

c. Mempunyai class label yang berbeda dengan K tetangga terdekatnya.

5. Mengurutkan list top N dari kecil ke besar sesuai nilai COF.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB III

METODE PENELITIAN

A. Metodologi Penelitian

Penelitian ini dilakukan untuk menemukan outlier pada data debitur dengan data campuran numerik dan kategorikal menggunakan algoritma ECODB. Penelitian ini menggunakan data debitur dari BPR XYZ sebagai bahan studi kasus. Dengan melakukan pendeteksian outlier pada data tersebut, dapat diketahui outlier pada suatu kumpulan data yang mempunyai classs label.

Penelitian dilakukan dengan cara menghitung data debitur BPR XYZ bulan Agustus 2013 berdasarkan teori algoritma ECODB dengan menggunakan Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N yang berbeda. Kemudian hasil perhitungan tersebut akan dibandingkan untuk mendapatkan kesimpulan dan dilakukan review hasil deteksi outlier oleh petugas bank.

Hasil penelitian ini diharapkan dapat memberi gambaran apakah algoritma ECODB dapat digunakan untuk mendeteksi outlier pada data debitur dengan atribut campuran numerik dan kategorikal dengan kasus data debitur BPR XYZ dan bagaimana pengaruh nilai k dan top N dalam proses deteksi outlier menggunakan algoritma ECODB. Setelah outlier dideteksi, pihak bank dapat menganalisa data dan outlier untuk menemukan faktor tertentu yang berpengaruh pada keunikan data debitur tersebut.

B. Instrumen Penelitian

Instrumen yang digunakan untuk melakukan penelitian ini adalah sebagai berikut :

1. Microsoft Excel

Microsoft Excel digunakan untuk menghitung dan menganalisa hasil penambangan data menggunakan algoritma ECODB. Data akan mengalami pemrosesan awal dahulu kemudian akan dihitung menggunakan algoritma ECODB. Rumus – rumus perhitungan pada algoritma ECODB akan diterapkan dalam bentuk formula di Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N yang berbeda.

2. Grafik

Grafik digunakan untuk melihat persebaran dari hasil perhitungan dengan masukan k dan top N yang berbeda. Dengan memperhatikan grafik, maka dapat diambil kesimpulan tentang pengaruh nilai nilai k dan top N dalam mendeteksi outlier mengunakan algoritma ECODB.

C. Teknik Pengumpulan Data

Data yang digunakan dalam penelitian ini adalah data debitur yang mengangsur kredit di BPR XYZ bulan Agustus 2013 sebanyak 97 data record. Data tersebut dalam format Microsoft Excel (.xls). Data ini diperoleh setelah mendapat ijin pengambilan dan penggunaan data untuk penelitian dari Kepala

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Humas BPR XYZ. Data tersebut terdiri dari 33 atribut seperti dalam tabel berikut :

Tabel 3.1 Atribut – atribut pada dataset debitur

Atribut Keterangan NOREK NOPK NAMA KODE_PEKER J_USAHA NAMAIBU ALAMAT1 T_LAHIR TGL_LAHIR UMUR IDENTITAS NAMA_KTR KODE_POS JW NOM_PINJ SB

No rekening debitur di bank No peminjaman debitur di bank. Nama lengkap dari debitur.

Kode pekerjaan atau jenis usaha yang dilakukan debitur

Jenis usaha atau pekerjaan yang dilakukan debitur. Nama gadis ibu kandung debitur.

Alamat lengkap yang ditinggali debitur. Tempat lahir debitur.

Tanggal lahir debitur.

Umur debitur ketika melakukan

peminjaman/kredit. Nomor KTP debitur.

Nama kantor/tempat debitur bekerja. Kode pos tempat tinggal debitur.

Jangka waktu peminjaman kredit yang dipilih debitur.

Nominal/jumlah kredit yang diajukan debitur. Jumlah suku bunga yang diterima debitur.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

22 JAMINAN NJOP_NT PINJ_KE TUNG_POK TUNG_BNG TUNG_POKOK TUNG_BUNGA POKOK_BLN BUNGA_BLN GAJI/PENDAPATAN JML_TANGGUNGAN UANG _DIBAWA STATUS_PINJAMAN JML_SETORAN/BULAN

Jaminan yang digunakan debitur untuk mengajukan kredit.

Nilai barang yang dijadikan jaminan oleh debitur. Jumlah berapa kali debitur melakukan peminjaman di BPR XYZ.

Jumlah berapa kali debitur menunggak mengangsur kredit.

Jumlah berapa kali debitur menunggak mengangsur bunga.

Jumlah total kredit yang ditunggak oleh debitur. Jumlah total bunga yang ditunggak oleh debitur. Jumlah kredit yang harus diangsur debitur tiap bulan.

Jumlah bunga yang harus diangsur debitur tiap bulan.

Gaji atau pendapatan debitur tiap bulan.

Jumlah anggota keluarga yang ditanggung debitur. Jumlah uang yang dibawa pulang debitur.

Keterangan apakah debitur saat mengajukan kredit telah melakukan peminjaman kredit di bank lain atau tidak.

Jumlah setoran yang harus diangsur debitur di bank lain tiap bulan.

KOLBI1 Status peminjaman debitur baik atau bermasalah.

D. Teknik Pengolahan Data

Sampel data debitur akan diproses terlebih dahulu dengan teknik transformasi data (data transformation), pembersihan data (data cleaning), dan reduksi data (data reduction) untuk mengatasi missing value, noisy, data yang tidak konsisten, dan pemilihan atribut yang digunakan. Selanjutnya data akan dihitung berdasarkan teori algoritma ECODB dengan menerapkan rumus perhitungan pada formula Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N yang berbeda.

Kemudian hasil perhitungan tersebut akan dibandingkan dan dilakukan review hasil deteksi outlier oleh petugas bank untuk mengetahui kebenaran data yang dianggap mempunyai derajat tinggi sebagai outlier. Untuk membandingkan hasil deteksi outlier menggunakan algoritma ECODB, data hasil perhitungan akan ditampilkan dalam bentuk grafik. Grafik digunakan untuk melihat persebaran dari hasil perhitungan masukan k dan top N yang berbeda. Dengan memperhatikan grafik, maka dapat diambil kesimpulan tentang pengaruh nilai nilai k dan top N dalam mendeteksi outlier mengunakan algoritma ECODB.

E. Tahap – Tahap Penelitian

Langkah – langkah yang akan dilakukan untuk melakukan penelitian adalah sebagai berikut :

1. Studi kepustakaan

Studi kepustakaan melalui berbagai sumber yang mampu dipertanggungjawabkan seperti buku, jurnal, makalah dan paper seminar untuk mendapatkan teori mengenai penambangan data, outlier, dan algoritma ECODB (Enhanced Class Outlier Distance Based).

2. Pengumpulan Data

Pengumpulan data sekunder berupa data debitur BPR XYZ bulan Agustus 2013 sebanyak 97 record.

3. Penerapan algoritma ECODB

Mendeteksi outlier pada data debitur BPR XYZ bulan Agustus 2013 berdasarkan teori algoritma ECODB menggunakan Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N yang berbeda.

5. Analisa hasil perhitungan

Membandingkan hasil perhitungan dengan masukan k dan top N yang berbeda – beda untuk mendapatkan kesimpulan dan melakukan review hasil deteksi outlier oleh petugas bank. Review hasil deteksi outlier perlu dilakukan untuk mengetahui kebenaran data yang dianggap mempunyai derajat tinggi sebagai outlier. 6. Pengambilan kesimpulan

Pengambilan kesimpulan berdasarkan hasil yang diperoleh dari langkah – langkah sebelumnya.

F. Contoh Perhitungan Algoritma ECODB

Berikut contoh perhitungan berdasarkan algoritma ECODB secara manual. Misalkan ada dataset debitur berjumlah 13 record dengan atribut KODE_PEKER, UMUR, NOM_PINJ, SB, JW, JAMINAN, NJOP_NT, PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK, TUNG_BUNGA,

POKOK_BLN, BUNGA_BLN, GAJI/PENDAPATAN,

JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN,

JML_SETORAN/BULAN, dan STATUS sebagai berikut :

Gambar 3.1 Contoh dataset debitur

Pertama, tiap atribut bertipe numerik dinormalisasikan dengan range 0 - 1. Hasil normalisasi dapat dilihat pada gambar 3.2. Atribut bertipe kategorikal adalah KODE_PEKER, JAMINAN, dan STATUS_ PINJAMAN.

Gambar 3.2 Data debitur yang telah dinormalisasi

Kemudian dicari jarak dari setiap instance dengan menggunakan fungsi jarak Mixed Euclidian Distance. Pada fungsi ini setiap instance bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan dihitung menggunakan rumus :

(3.5)

Gambar 3.3 Perhitungan jarak setiap instance dari data debitur

Setelah menghitung jarak dari setiap instance, tahap selanjutnya adalah mencari k tetangga terdekat, dengan asumsi k = 7. K melambangkan jangkauan suatu instance terhadap tetangganya. Maka, dicari 7 tetangga terdekat dari setiap instance.

Gambar 3.4 Tujuh tetangga terdekat dari tiap instance

Selanjutnya mencari nilai PCL dari tiap instance. PCL adalah nilai probabilitas class label dari instance T dengan class label dari k tetangga terdekat. PCL dihitung dengan cara membagi jumlah tetangga terdekat instance T yang mempunyai class label yang sama (termasuk instance T sendiri) dengan nilai k. Misalkan ada 7 tetangga terdekat dari instance T (termasuk dirinya) dari sebuah dataset dengan class label x dan y, dimana 5 dari tetangga terdekat mempunyai class label x dan sisanya mempunyai class label y. Instance T dengan class label y mempunyai nilai PCL 2/7. Class label yang digunakan adalah nilai/isi dari atribut STATUS.

Tabel 3.2 Hasil perhitungan PCL tiap instance PCL PCL/7 Dev v'Dev Kdist v'Kdist COF

1 7 1.00

28 2 7 1.00 3 7 1.00 4 7 1.00 5 7 1.00 6 2 0.29 7 2 0.29 8 3 0.43 9 3 0.43 10 3 0.43 11 5 0.71 12 7 1.00 13 5 0.71

Kemudian meranking list top N dari instance dengan nilai PCL terkecil. Misalkan top N = 5, maka dicari 5 instance dengan nilai PCL terkecil. Ranking top N dapat dilihat pada tabel 3.3. Instance yang di-bold adalah instance dengan nilai PCL terkecil. Selanjutnya mencari nilai Deviation(T) dan KDist(T) dari instance pada top N berdasarkan rumus (2.4) dan (3.5).

Tabel 3.3 Hasil perhitungan Deviation dan KDistdari tiap instance PCL PCL/7 Dev v'Dev Kdist v'Kdist COF

1 7 1.00 13.55 0.90 11.31 0.77 2 7 1.00 13.32 0.89 11.17 0.73 3 7 1.00 12.90 0.86 10.38 0.47 4 7 1.00 14.19 0.95 11.60 0.87 5 7 1.00 13.66 0.91 10.97 0.66 6 2 0.29 0.50 0.00 10.53 0.52 7 2 0.29 0.50 0.00 9.81 0.28 8 3 0.43 0.77 0.02 8.96 0.01 9 3 0.43 0.76 0.02 8.93 0.00 10 3 0.43 1.48 0.07 8.95 0.01 11 5 0.71 14.70 0.98 11.35 0.78 12 7 1.00 14.32 0.95 11.74 0.91 13 5 0.71 14.98 1.00 12.01 1.00

Setelah menghitung nilai Deviation dan KDist dari tiap instance pada top N, tahap selanjutnya adalah menghitung COF (Class Outlier Factor) dari

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

instance pada top N berdasarkan rumus (2.4). Kemudian meranking tiap instance pada list top N berdasarkan nilai COF terkecil.

Tabel 3.4 Hasil perhitungan COF dari tiap instance

PCL PCL/7 Dev v'Dev Kdist v'Kdist COF

Dalam dokumen Deteksi outlier pada data campuran numerik dan kategorikal menggunakan algoritma Enhanced Class Outlier Distance Based (ECODB) : studi kasus data kredit BPR XYZ. (Halaman 25-57)