PENUTUP - IMPLEMENTASI ALGORITME MODIFIED K-NEAREST NEIGHBOR UNTUK KLASIFIKASI USAHA MIKRO KECI

Pada bab ini berisi kesimpulan dari saran yang berguna untuk mengembangkan sistem di masa yang akan datang.

BAB II

LANDASAN TEORI

2.1 Usaha Mikro Kecil dan Menengah

Definisi Usaha Mikro Kecil dan Menengah (UMKM) di Indonesia diatur dalam Undang-Undang Republik Indonesia Nomor 20 Tahun 2008 tentang UMKM. Pasal 1 dari UU terebut, dinyatakan bahwa Usaha mikro adalah usaha produktif milik orang perorangan atau badan usaha perorangan yang memiliki kriteria usaha mikro sebagaimana diatur dalam UU tersebut. Usaha kecil adalah usaha ekonomi produktif yang berdiri sendiri, yang dilakukan oleh orang perorangan atau badan usaha yang buka merupakan anak perusahaan atau bukan anak cabang yang dimiliki, dikuasai atau menjadi bagian, baik langsung maupun tidak langsung, dari usaha menengah atau usaha besar yang memenuhi kriteria usaha kecil sebagaimana dimaksud dalam UU tersebut.

Sedangkan usaha menengah adalah usaha ekonomi produktif yang berdiri sendiri yang dilakukan oleh perorangan atau badan usaha yang bukan merupakan anak perusahaan atau bukan cabang perusahaan yang dimiliki, dikuasai, atau menjadi bagian baik langsung maupun tidak langsung, dari usaha mikro, usah kecil atau usaha besar yang memenuhi kriteria usaha mikro sebagaimana dimaksud dalam UU tersebut.

Sebagaimana diatur dalam Undang-Undang tersebut, kriteria yang digunakan untuk mendefinisikan UMKM seperti yang tercantum dalam Pasal 6 adalah nilai aset (nilai kekayaan bersih) tidak termasuk tanah dan bangunan dan omset (hasil penjualan rata-rata per tahun) dengan kriteria sebagai berikut.

a. Usaha mikro adalah unit usaha yang memiliki aset paling banyak Rp.

50.000.000,00 tidak termasuk tanah dan bangunan tempat usaha dengan hasil penjualan tahunan paling besar Rp. 300.000.000,00.

b. Usaha kecil dengan nilai aset lebih dari Rp. 50.000.000,00 sampai dengan paling banyak Rp. 500.000.000,00 tidak termasuk tanah dan bangunan

tempat usaha memiliki hasil penjualan tahunan lebih dari Rp.

300.000.000,00 hingga maksimum Rp. 2.500.000.000,00.

c. Usaha menengah adalah perusahaan dengan nilai kekayaan bersih lebih dari Rp. 500.000.000,00 hingga paling banyak Rp. 10.000.000.000,00 hasil penjualan tahunan di atas Rp. 2.500.000.000,00 sampai paling tinggi Rp. 50.000.000.000,00.

(http://pasarjaya.co.id/_assets/files/about/Undang_Undang_Nomor_20_T ahun_2008_TENTANG_USAHA_MIKRO_KECIL_DAN_MENENGA H.pdf)

2.2 Penambangan Data

2.2.1 Pengertian Penambangan Data

Penambangan data dilatar belakangi oleh pertumbuhan pesat dari volume data yang tersedia dan berasal dari berbagai bidang.

Pertumbuhan yang sangat pesat membuat ledakan informasi sehingga informasi berharga dari data tersebut sulit ditemukan. Berdasarkan hal tersebut maka dibutuhkan sebuah alat yang secara otomatis mendapatkan informasi berharga dari data yang besar dan mengubah data tersebut menjadi pengetahuan yang terorganisir. Secara fungsional, penambangan data adalah proses menemukan pola menarik dan pengetahuan dari sejumlah besar data yang bersumber dari database, gudang data, web, atau tempat penyimpanan informasi lainnya (Han & Kamber, 2012).

2.2.2 Fungsi Penambangan Data

Data mining memiliki fungsi yang penting untuk mendapatkan dan menemukan informasi yang berguna serta meningkatkan pengetahuan bagi user. Menurut (Han & Kamber, 2012), secara umum, fungsi data mining hanya dikategorikan menjadi dua kategori utama yaitu deskriptif dan prediktif. Deskriptif bertujuan untuk menggambarkan sifat data dari data sasaran, dan menurunkan pola-pola yang meringkas hubungan pokok dalam data, sedangkan, jika prediktif bertujuan untuk membuat

prediksi dari data yang digunakan. Lalu, data mining juga memiliki beberapa fungsionalitas (Han & Kamber, 2012) yaitu :

a. Kelas / Konsep Deskripsi

Deskripsi kelas atau konsep dapat berasal dari menggunakan karakterisasi data atau diskriminasi data. Karakterisasi data merupakan merangkum data dari kelas yang diteliti atau sering disebut kelas target, sedangkan diskriminasi data merupakan membandingkan kelas target dan kelas komparatif.

b. Penambangan pola yang sering muncul (Mining Frequent Patterns), Asosiasi (Associations Analysis), dan Korelasi(Correlations)

Frequent Patterns atau pola yang sering muncul, merupakan pola yang sering terjadi di dalam data seperti namanya. Ada banyak jenis pola yang sering muncul dalam data yaitu itemset yang sering muncul, subsequence atau pola berurutan yang sering muncul dan substructure yang sering muncul ketika melakukan transaksi bersamaan seperti membeli roti dan susu secara bersamaan di toko – toko oleh banyak pelanggan. Sebuah sub struktur dapat merujuk ke berbagai bentuk struktur yang dapat dikombinasikan dengan itemsets atau sequences. Jika substruktur sering muncul maka disebut sebagai pola terstruktur.

c. Analisis Prediktif Klasifikasi dan Regresi

Klasifikasi merupakan proses untuk menemukan model (atau fungsi) yang menggambarkan dan membedakan kelas atau konsep data. Model yang diturunkan biasanya didasarkan pada analisis dari training data. Training data yaitu objek data yang memiliki label kelas yang telah diketahui. Klasifikasi biasanya digunakan untuk memprediksi kategori label kelas, lalu jika regresi biasanya digunakan untuk memprediksi data nilai numerik yang tidak tersedia

dari label kelas. Analisis regresi merupakan metode statistik yang paling sering digunakan untuk memprediksi numerik, meskipun terdapat model metode yang lain. Klasifikasi dan regresi perlu didahului dengan analisis relevansi guna untuk mengidentifikasi atribut yang relevan dari klasifikasi dan proses regresi, kemudian atribut tersebut dipilih untuk proses klasifikasi dan regresi, sedangkan atribut yang tidak relevan akan dikeluarkan dan tidak digunakan.

d. Analisis Pengelompokan (Cluster Analysis)

Berbeda dengan klasifikasi dan regresi yang menganalisa kumpulan data berlabel kelas, clustering menganalisa objek data tanpa label kelas. Clustering dapat digunakan untuk menghasilkan label kelas untuk sekelompok data. Sebuah objek yang berkelompok berdasarkan pada prinsip memaksimalkan kesamaan inter kelas dan meminimalkan kesamaan antarkelas, sehingga objek dalam sebuah kelompok dapat memiliki kesamaan yang tinggi dibandingkan satu sama lain tapi berbeda dengan objek kelompok lainnya. Clustering juga memfasilitasi pembentukan taksonomi (taxonomy formation) yaitu sebuah perkumpulan pengamatan yang menjadi hierarki kelas yang mengelompokkan sebuah perihal yang serupa bersama.

e. Analisis Outlier (Outlier Analysis)

Outlier merupakan satu set data yang mungkin berisi objek yang tidak sesuai dengan perilaku umum yang biasanya terjadi.

Untuk membuang outlier sendiri terdapat banyak metode dalam penambangan data, karena outlier sering dianggap sebagai noise atau sebuah kebisingan. Outlier dapat dideteksi menggunakan uji statistik yang mengasumsikan distribusi atau probabilitas model untuk data, atau menggunakan jarak antar objek dimana objek yang jauh dari setiap kelompok lainnya adalah outlier.

2.2.3 Knowledge Discovery in Databases

Knowledge Discovery in Database (KDD) merupakan sebuah kegiatan yang meliputi pengumpulan data, pemakaian data historis untuk menemukan keteraturan, pola atau sebuah hubungan dalam sebuah set data yang berukuran besar. Knowledge Discovery in Database memiliki beberapa tahapan yang dapat dibagi menjadi beberapa proses yaitu sebagai berikut :

a. Data cleaning yaitu menghilangkan noise dan data yang tidak konsisten.

b. Data integration yaitu dimana beberapa sumber data dapat digabungkan.

c. Data selection yaitu dimana data yang relevan dengan tugas analisis yang diambil dari database.

d. Data transformation yaitu dimana data diubah dan dikonsolidasikan ke dalam bentuk sesuai untuk penambangan dengan melakukan operasi ringkasan atau agregasi.

e. Data mining yaitu proses penting dimana metode cerdas diterapkan untuk mengekstrak pola data.

f. Pattern evaluation yaitu untuk mengidentifikasi pola yang benar – benar menarik yaitu mewakili pengetahuan berdasarkan langkah – langkah menarik.

g. Knowledge presentation yaitu dimana teknik visualisasi dan representasi pengetahuan yang digunakan untuk menyajikan pengetahuan yang ditambang kepada user.

Gambar 2.1 Diagram Knowledge Discovery In Database (KDD) (Sumber : Han & Kamber (2012))

2.3 Klasifikasi Pada Data Mining

Klasifikasi adalah proses penemuan model yang menggambarkan dan membedakan kelas data atau konsep yang bertujuan agar bisa digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui. Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning (fase training), di mana algoritme klasifikasi dibuat untuk menganalisis data latih lalu direpresentasikan dalam bentuk aturan klasifikasi. Proses kedua adalah klasifikasi, di mana data uji digunakan untuk memperkirakan akurasi dari aturan klasifikasi (Han & Kamber, 2012).

Proses klasifikasi didasarkan pada empat komponen (Gorunescu, 2011) : a. Kelas.

Variabel dependen yang berupa kategorikal yang merepresentasikan

“label‟ yang terdapat pada objek. Contohnya: risiko penyakit jantung, risiko kredit, kesetiaan pelanggan, jenis gempa.

b. Predictor.

Variabel independen yang direpresentasikan oleh karakteristik (atribut) data. Contohnya: merokok, minum alkohol, tekanan darah, tabungan, aset, gaji.

c. Training dataset.

Satu set data yang berisi nilai dari kedua komponen di atas yang digunakan untuk menentukan kelas yang cocok berdasarkan predictor.

d. Testing dataset.

Berisi data baru yang akan diklasifikasikan oleh model yang telah dibuat dan akurasi klasifikasi dievaluasi.

Berikut ini adalah algoritme klasifikasi data mining yang paling popular yaitu adalah (Gorunescu, 2011) :

a. Decision/Classification Trees.

b. Bayesian Classifiers/Naive Bayes Classifiers.

c. Neural Networks.

d. Statistical Analysis.

e. Rough Sets.

f. K-nearest-neighbor Classifier.

g. Rule - Based Methods.

h. Memory Based Reasoning.

i. Support Vector Machines.

2.4 Imbalance Data

Sebuah data dapat dikatakan menjadi tidak seimbang (imbalanced) jika terdapat satu kelas yang direpresentasikan dalam jumlah sampel yang kecil bila dibandingkan dengan jumlah sampel kelas yang lainnya. Kondisi tersebut dapat menimbulkan masalah pada klasifikasi data yang kasusnya jarang terjadi akan tetapi sangat penting, contohnya pada pengklasifikasian data kecurangan transaksi telepon, pengenalan citra satelit untuk pendeteksian tumpahan minyak, deteksi kegagalan mesin suatu pabrik, deteksi penyakit yang langka tetapi berbahaya (Barandela et al, 2003).

Kondisi imbalanced data dapat terlihat secara nyata pada himpunan data yang memiliki dua kelas. Kelas yang jumlah sampel terkecil (minority class) disebut kelas positif dan kelas yang jumlah sampel terbesar (majority class) disebut kelas negatif. Rasio jumlah sampel antara kedua kelas yaitu 1:100, 1:1000 dan 1:10000 atau lebih.

Ada dua pendekatan yang dapat dilakukan untuk mengatasi kondisi imbalanced data. Pendekatan pertama yaitu pada level data, menggunakan teknik pengambilan contoh (sampling technique) dan pendekatan kedua yaitu pada level algoritme. Pendekatan sampling technique terdiri dari dua cara yaitu Oversampling kelas terkecil dan Undersampling kelas terbesar.

a. Oversampling

Teknik pengambilan contoh meningkatkan jumlah kelas terkecil dengan cara memperbanyak data secara acak sehingga jumlahnya sama dengan kelas terbesar.

b. Undersampling

Teknik pengambilan contoh mengurangi jumlah data kelas terbesar secara acak sehingga jumlahnya sama dengan kelas terkecil.

2.5 Boxplot

Boxplot (box-and-whisker) merupakan suatu box (kotak berbentuk bujur sangkar). Boxplot adalah salah satu cara dalam statistik deskriptif untuk menggambarkan secara grafik dari data numeris melalui lima ukuran (minimum, kuartil pertama, median, kuartil ketiga, dan maksimum). Dalam boxplot juga ditunjukkan, jika ada, nilai outlier dari observasi. Boxplot dapat digunakan untuk menunjukkan perbedaan antara populasi tanpa menggunakan asumsi distribusi statistik yang mendasarinya (Junaidi, 2015).

Gambar 2.2 Boxplot

Boxplot dapat digambarkan secara vertikal maupun horizontal. Pada boxplot yang digambarkan secara vertikal, garis di tengah kotak menunjukkan median, ujung kotak atas menunjukkan nilai kuartil atas atau kuartil ketiga (Q3), ujung kotak bawah menunjukkan nilai kuartil bawah atau kuartil pertama (Q1), sedangkan garis di kedua ujung kotak menunjukkan nilai minimum dan nilai maksimum. Garis di kedua ujung kotak dinamakan garis whisker. Panjang whisker bagian atas adalah kurang dari atau sama dengan Q3 + (1.5 x IQR).

Panjang whisker bagian bawah adalah lebih besar atau sama dengan Q1 – (1.5 x IQR). Nilai yang berada di atas atau dibawah whisker dinamakan nilai outlier atau ekstrim. Suatu nilai dikatakan outlier jika :

Q3 + (1.5 x IQR) < outlier ≤ Q3 + (3 x IQR) , atau Q1 – (1.5 x IQR) > outlier ≥ Q1 – (3 x IQR)

Selain digunakan untuk melihat derajat penyebaran data, boxplot juga dapat digunakan untuk menilai kesimetrisan data. Jika data simetris, garis median akan berada di tengah kotak dan whisker pada bagian atas dan bagian bawah akan memiliki panjang yang sama. Jika data tidak simetris, median tidak akan berada di tengah kotak dan salah satu dari garis whisker lebih panjang dari yang lainnya (Junaidi, 2015).

2.6 Missing Data

Missing data merupakan hilangnya informasi atau data dalam suatu subjek. Terdapat banyak hal yang menyebabkan terjadinya missing data, yaitu dapat disebabkan oleh salah memasukkan data, terkait tanggapan dari responden ataupun terdapat kendala pada alat pengumpulan data. Adapun tipe dari missing data sebagai berikut (Donders et al, 2006).

a. Missing Completely at Random (MCAR), yang berarti bahwa missing data terjadi secara acak dari sampel lengkap.

b. Missing not at Random (MNAR), yang berarti bahwa probabilitas dari sebuah observasi yang hilang tidak berkaitan dengan hasil observasi lain.

Sehingga nilainya tersebut berkaitan dengan dirinya sendiri.

c. Missing at Random (MAR), yang berarti bahwa probabilitas sebuah observasi dari missing data biasanya berkaitan dengan informasi yang diberikan responden dengan suatu alasan untuk tidak memberikan data.

Mengatasi missing data dapat menggunakan tiga cara yaitu listwise deletion, pairwise deletion dan imputasi. Listwise deletion mengatasi missing data dengan menghapus observasi yang terdapat missing data. Pairwise deletion mengatasi missing data dengan menghapus nilai yang mengandung missing data, sehingga hanya melakukan analisis pada data yang tersedia. Imputasi yaitu mengisi nilai yang hilang dengan nilai yang mungkin berdasarkan informasi yang didapat dari nilai-nilai yang diketahui (Davey & Savla, 2010).

Beberapa cara dalam melakukan imputasi missing data sebagai berikut (Sudirman, 2012) :

a. Global Most Common

Missing data pada data numerik akan diisi dengan nilai rata-rata dari atribut tersebut sedangkan untuk data kategorikal diisi dengan nilai paling sering muncul pada atribut tersebut tanpa mempertimbangkan kelas.

b. Concept Most Common

Teknik ini mempertimbangkan kelas dari data. Setiap atribut dikelompokkan berdasarkan kelasnya kemudian missing data diisi dengan nilai atribut yang sering muncul pada kelas tersebut. Beberapa algoritme

yang menggunakan concept most common yaitu, K-Nearest Neighbor (KNN), K-Means dan Support Vector Machine (SVM).

2.7 K-Nearest Neighbor

K-Nearest Neighbor (KNN) adalah metode yang digunakan untuk melakukan klasifikasi terhadap obyek berdasarkan beberapa data yang jaraknya paling dekat dengan obyek tersebut. Pada klasifikasi, KNN bekerja dengan menghitung jarak antara data baru (data uji) dengan data yang sudah diketahui kelasnya (data latih) menggunakan jarak euclidian.

Penanganan missing data dengan KNN diawali dengan menentukan sejumlah tetangga terdekat atau observasi terdekat yang disimbolkan dengan K, kemudian menghitung jarak terkecil dari setiap observasi yang tidak mengandung missing data. Langkah-langkah imputasi missing data dengan metode KNN adalah sebagai berikut :

1. Tentukan parameter K, K adalah jumlah observasi terdekat atau tetangga terdekat yang akan digunakan.

2. Menghitung jarak antara observasi yang mengandung missing data dengan observasi lengkap pada variabel ke-j yang tidak mengandung missing data dengan variabel j lainnya yang bersesuaian dengan rumus jarak euclidian (Larose, 2005) :

𝑥_𝑎𝑗 = nilai dari variabel ke-j pada setiap observasi missing data 𝑥_𝑏𝑗 = nilai dari variabel lainnya pada setiap observasi

3. Urutkan jarak berdasarkan observasi yang memiliki nilai jarak terbesar sampai observasi yang memiliki nilai jarak terkecil.

4. Menentukan K observasi terdekat berdasarkan nilai jarak terkecil.

5. Melakukan imputasi missing data dengan menghitung nilai weight mean estimation pada K observasi terdekat yang tidak mengandung nilai missing data dengan rumus (Larose, 2005) :

𝑋

_𝑗

=

^∑ ^𝑊^𝑘^𝑉^𝑘

𝐾𝑘=1

∑^𝐾_𝑘=1𝑊_𝑘 ... (2.2) Keterangan :

𝑋_𝑗 = estimasi rata-rata berbobot

𝑉_𝑘 = nilai pada data lengkap pada variabel missing data K = observasi terdekat yang digunakan

𝑊_𝑘 = bobot observasi tetangga terdekat ke K dengan rumus 𝑊_𝑘 =

𝑑(𝑋_𝑎𝑘,𝑋_𝑏𝑘)², di mana d adalah jarak observasi K.

2.8 Modified K-Nearest Neighbor

Algoritme Modified K-Nearest Neighbor (MKNN) merupakan pengembangan dari metode KNN dengan penambahan 2 buah proses, yaitu perhitungan nilai validitas dan perhitungan bobot. Algoritme KNN dilakukan dengan mencari kelompok k objek dalam data latih yang paling dekat (mirip) dengan objek pada data baru atau data uji (X Wu et al, 2008). Berikut ini langkah-langkah proses klasifikasi algoritme Modified K-Nearest Neighbor.

1. Perhitungan Jarak Euclidean

Untuk menghitung jarak antar data dapat menggunakan beberapa cara, salah satunya menggunakan Euclidean Distance. Metode pengukuran jarak ini cocok diimplementasikan terhadap data yang memiliki nilai atribut bersifat numerikal, khususnya dengan atribut kontinu (Gorenescu, 2011).

Euclidean Distance dihitung dengan rumus :

𝑑(𝑥, 𝑦) = √∑^𝑛_𝑖=1(𝑥ᵢ − 𝑦ᵢ)² ... (2.3) Keterangan :

d(x,y) = jarak

n = dimensi data i = variabel data 𝑥_𝑖 = data uji 𝑦_𝑖 = sampel data

2. Perhitungan Nilai Validitas

Dalam algoritme MKNN, setiap data pada data latih harus divalidasi pada langkah pertama. Validitas setiap data bergantung pada setiap tetangganya. Proses validasi dilakukan untuk semua data latih. Setelah dihitung validitas tiap data maka nilai validitas tersebut digunakan sebagai informasi lebih mengenai data tersebut (Parvin, 2008).

Tetangga terdekatnya perlu dipertimbangkan dalam menghitung validitas data latih. Di antara tetangga terdekat dengan data, validitas digunakan untuk menghitung jumlah titik dengan label yang sama dengan data tersebut. Untuk menghitung validitas dari setiap titik pada data latih menggunakan persamaan (Parvin, 2008) :

𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑦(𝑥) = ¹

𝐻∑^𝐻_𝑖=1𝑆(𝑙𝑏𝑙(𝑥), 𝑙𝑏𝑙(𝑁𝑖(𝑥)))... (2.4) Keterangan :

H = jumlah titik terdekat lbl(x) = kelas x

lbl(Ni(x)) = label kelas titik terdekat x

Fungsi S digunakan untuk menghitung kemiripan antara titik x dan data ke-i darke-i tetangga terdekat. Yang dke-itulke-iskan dengan persamaan (Parvke-in, 2008) :

𝑆(𝑎, 𝑏) = {1 𝑎 = 𝑏

0 𝑎 ≠ 𝑏... (2.5) Keterangan :

a = kelas a pada data latih

b = kelas selain kelas a pada data latih

3. Perhitungan Weight Voting

Dalam metode MKNN, pertama-tama weight masing-masing tetangga dihitung menggunakan 1 / (de + 0.5). Kemudian, validitas dari tiap data pada data latih dikalikan dengan weighted berdasarkan pada jarak Euclidean.

Dalam metode MKNN, weight voting masing-masing tetangga dihitung menggunakan persamaan (Parvin, 2008) :

𝑊(𝑖) = 𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑦(𝑖) 𝑥 ¹

𝑑𝑒(𝑖) + 0,5... (2.6) Keterangan :

W(i) = Perhitungan Weight Voting Validity(i) = Nilai Validitas

de(i) = Jarak Euclidean

Teknik weight voting ini mempunyai pengaruh yang lebih penting terhadap data yang mempunyai nilai validitas lebih tinggi dan paling dekat dengan data uji. Selain itu, perkalian validitas dengan jarak dapat mengatasi kelemahan dari setiap data yang mempunyai jarak dengan weight yang memiliki banyak masalah dalam outlier. Jadi, algoritme MKNN yang diusulkan secara signifikan lebih kuat daripada metode KNN tradisional yang didasarkan hanya pada jarak (Parvin, 2008).

2.9 Normalisasi Z-Score

Z-Score adalah normalisasi yang berdasarkan pada nilai rata-rata dan standar deviasi dari suatu data. Z-Score diperoleh menggunakan rumus persamaan berikut (Larose, 2005).

𝑋′ = (

^{𝑋−𝑚𝑒𝑎𝑛(𝑋)}

𝑆𝐷(𝑋)

)

... (2.7) Keterangan :

X’ = nilai z-score X = nilai observasi data mean(X) = rata-rata data

SD(X) = standar deviasi data

2.10 Cross Validation

Cross Validation dataset diambil secara acak ke dalam subset atau biasa disebut dengan fold D₁, D₂, … , Dₖ, dengan ukuran yang sama. Dataset dibagi menjadi data latih dan data uji. Data latih dan data uji dilakukan sebanyak k kali.

Pada iterasi ke-i partisi Dᵢ digunakan sebagai data uji dan partisi lainnya digunakan sebagai data latih. Pada iterasi kedua data latih D₁, D₃, … , Dₖ, akan diuji pada D₂ dan selanjutnya hingga Dₖ (Han & Kamber, 2012). Penggunaan k-fold cross validation dengan k sebesar 3 dapat dilihat pada gambar berikut.

Gambar 2.3. K-Fold Cross Validation dengan k sebesar 3

2.11 Evaluasi

Evaluasi sangat penting untuk mengukur tingkat keberhasilan. Langkah akhir dari penelitian ini adalah menguji seberapa baik metode yang digunakan pada penelitian sehingga proses perhitungan akurasi dapat menggunakan Confusion Matrix. Confusion Matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, tabel ini diperlukan untuk menentukan kinerja suatu model klasifikasi.

Gambar 2.4 Confusion Matrix

Perhitungan akurasi dengan menggunakan tabel Confusion Matrix adalah sebagai berikut.

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = ^{𝑇𝑃+𝑇𝑁}

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑥 100% ... (2.8) Keterangan :

a. TP (True Positive) merupakan banyaknya data yang kelas aktualnya adalah kelas positif dengan kelas prediksinya merupakan kelas positif.

b. FN (False Negative) merupakan banyaknya data yang kelas aktualnya adalah kelas positif dengan kelas prediksinya merupakan kelas negatif.

c. FP (False Positive) merupakan banyaknya data yang kelas aktualnya adalah kelas negatif dengan kelas prediksinya merupakan kelas positif.

d. TN (True Negative) merupakan banyaknya data yang kelas aktualnya adalah kelas negatif dengan kelas prediksinya merupakan kelas negatif.

BAB III

METODOLOGI PENELITIAN

3.1 Gambaran Umum

Gambar 3.1 Gambaran Umum

Gambaran umum merupakan tahapan-tahapan dari sistem untuk membuat rancangan penelitian dari awal sampai akhir. Sistem pada tahap pertama akan membaca data, kemudian data akan masuk ke dalam tahap preprocessing. Tahap seleksi data dilakukan untuk mencari atribut yang digunakan. Tahap pembersihan data dilakukan untuk membersihkan noise, data tidak konsisten dan missing value.

Tahap penanganan outlier dilakukan untuk menghilangkan data outlier.

Selanjutnya akan melalui tahap penyeimbangan data untuk mempertimbangkan keseimbangan kelas pada masing-masing model. Selanjutnya akan melalui tahap transformasi data untuk mengubah nilai data pada tiap atribut dengan melakukan normalisasi. Tahap klasifikasi MKNN, data dikelompokkan menjadi data latih dan data uji menggunakan 3-fold cross validation dan 5-fold cross validation. Label latih dan label uji digunakan sebagai target luaran data klasifikasi. Data latih digunakan sebagai model dan akan dibandingkan dengan data uji untuk menghasilkan akurasi.

3.2 Sumber Data

Data yang akan digunakan dalam penelitian ini adalah data kriteria UMKM Kota Bandung tahun 2018. Seluruh data berjumlah 5219 record dengan 12 atribut dan 1 label, atribut tersebut antara lain adalah No, Kecamatan, Kelurahan, Nama Perusahaan, Nama Pemilik, Alamat, Telepon/HP, Jenis Usaha, Jumlah Karyawan, Aset, Omset, Tahun Berdiri dan Kriteria sebagai label. Label dari UMKM ada tiga yakni mikro yang menandakan usaha mikro, kecil yang menandakan usaha kecil, dan menengah yang menandakan usaha menengah.

Jumlah label mikro sebanyak 4219, label kecil sebanyak 470, label menengah sebanyak 166 dan label yang tidak diketahui sebanyak 364. Penjelasan mengenai masing-masing atribut dapat dilihat pada tabel di bawah ini.

Tabel 3.1 Penjelasan Atribut UMKM

No. Atribut Keterangan

1 No. Nomor urut data UMKM

2 Kecamatan Nama kecamatan di mana UMKM berlokasi 3 Kelurahan Nama kelurahan di mana UMKM berlokasi 4 Nama Perusahaan Nama instansi dari UMKM

5 Nama Pemilik Nama pemilik dari UMKM

6 Alamat Alamat di mana UMKM berdomisili

7 Telepon/HP Nomor telepon pemilik UMKM

8 Jenis Usaha Fokus bidang UMKM

Dalam dokumen IMPLEMENTASI ALGORITME MODIFIED K-NEAREST NEIGHBOR UNTUK KLASIFIKASI USAHA MIKRO KECIL MENENGAH (Halaman 24-129)