IMPLEMENTASI ALGORITME MODIFIED K-NEAREST NEIGHBOR UNTUK KLASIFIKASI USAHA MIKRO KECIL MENENGAH

(1)

IMPLEMENTASI ALGORITME MODIFIED K-NEAREST

NEIGHBOR UNTUK KLASIFIKASI USAHA MIKRO KECIL MENENGAH

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Informatika

Oleh :

Antonius Yogi Prihantoro 165314006

PROGRAM STUDI INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA YOGYAKARTA

2021

(2)

ii

IMPLEMENTATION OF MODIFIED K-NEAREST NEIGHBOR ALGORITHM FOR CLASSIFICATION OF

MICRO SMALL MEDIUM ENTERPRISES

THESIS

Present as Partial Fulfillment of the Requirement

To Obtain Sarjana Komputer Degree In Informatics Study Program

By :

Antonius Yogi Prihantoro 165314006

INFORMATICS STUDY PROGRAM FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY YOGYAKARTA

2021

(3)

iii

(4)

iv

(5)

v

(6)

vi

HALAMAN PERSEMBAHAN

“Even the smallest effort that you put, as long as you do it with love, it will always worth something”

Skripsi ini saya persembahkan kepada : Tuhan Yesus Kristus

Keluarga Teman-teman

Kolega

Almamater Universitas Sanata Dharma

(7)

vii

(8)

viii

ABSTRAK

Usaha Mikro Kecil Menengah (UMKM) merupakan pelaku bisnis yang bergerak pada berbagai bidang usaha. Perkembangan UMKM di Indonesia terus mengalami peningkatan setiap tahunnya. Untuk mengetahui perkembangan dari UMKM diperlukan pembaharuan data. Permasalahannya adalah kriteria UMKM ditentukan oleh beberapa komponen dan harus mengevaluasi beberapa komponen tersebut secara manual. Hal tersebut membutuhkan waktu cukup lama bagi pihak kementerian koperasi untuk menentukan kriteria UMKM. Oleh sebab itu, untuk mengatasi permasalahan tersebut dapat dibuat sistem yang dapat membantu pihak kementerian koperasi untuk mengklasifikasi kriteria UMKM. Penelitian ini menggunakan teknik penambangan data dengan menerapkan algoritme Modified K-Nearest Neighbor. Data yang digunakan dalam penelitian ini adalah data UMKM Kota Bandung pada tahun 2018. Uji akurasi penelitian ini menggunakan cross validation dan confusion matrix. Pada penelitian ini, dilakukan percobaan pada data dengan membagi menjadi beberapa kelompok dengan 3-fold cross validation dan 5-fold cross validation. Jumlah k terdekat yang digunakan adalah 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20. Dari hasil percobaan didapatkan akurasi tertinggi pada data yang melalui proses cleaning yang telah seimbang dengan menghilangkan outlier sebanyak 4372 record, ketika jumlah k sebesar 1 menggunakan 5-fold cross validation yaitu sebesar 99.2224%. Dengan demikian dapat disimpulkan bahwa algoritme Modified K-Nearest Neighbor dapat diterapkan untuk mengklasifikasi kriteria UMKM.

Kata kunci: Klasifikasi, UMKM, Modified K-Nearest Neighbor, cross validation

(9)

ix

ABSTRACT

Micro, Small and Medium Enterprises (MSMEs) are business actors engaged in various business fields. The development of MSMEs in Indonesia continues to increase every year. To know the development of MSMEs, it is necessary to update the data. The problem is that MSME criteria are determined by several components and must evaluate some of these components manually. It takes a long time for the ministry of cooperatives to determine the criteria for MSMEs. Therefore, to overcome these problems, a system can be created that can help the cooperative ministry to classify the criteria for MSMEs. This study uses data mining techniques by applying the Modified K-Nearest Neighbor algorithm. The data used in this study is data from SMEs in the City of Bandung in 2018. The accuracy test of this study uses cross validation and confusion matrix. In this study, an experiment was conducted on the data by dividing it into several groups with 3-fold cross validation and 5-fold cross validation. The nearest k numbers used are 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20. From the experimental results, the highest accuracy is obtained in the data that has gone through the cleaning process which has been balanced by eliminating outliers of 4372 records, when the number of k is 1 using 5-fold cross validation, which is 99.2224%. Thus, it can be concluded that the Modified K-Nearest Neighbor algorithm can be applied to classify MSME criteria.

Keywords: Classification, MSMEs, Modified K-Nearest Neighbor, cross validation

(10)

x

KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus karena berkat, rahmat dan karunianya, penulis dapat menyelesaikan tugas akhir yang berjudul

“Implementasi Algoritme Modified K-Nearest Neighbor Untuk Klasifikasi Usaha Mikro Kecil Menengah” dengan baik dan lancar.

Penulis menyadari begitu banyak pihak yang memberikan dukungan, motivasi dan doa dalam penyelesaian penulisan tugas akhir ini. Pada kesempatan ini, dengan segenap kerendahan hati penulis mengucapkan terimakasih sebesar- besarnya kepada :

1. Tuhan Yesus Kristus dan Bunda Maria atas berkat dan kasih-Nya yang sangat besar kepada penulis.

2. Kedua orang tua penulis, Bonifasius Wilarto dan Bernadeta Budi Astuti yang senantiasa memberikan kasih sayang dan dukungan penuh kepada penulis.

3. Bapak Sudi Mungkasi, S.Si., M.Math.Sc,. Ph.D selaku Dekan Fakutas Sains dan Teknologi Universitas Sanata Dharma.

4. Bapak Robertus Adi Nugroho, M.Eng selaku Ketua Program Studi Informatika Universitas Sanata Dharma.

5. Bapak Eko Hari Parmadi, S.Si., M.Kom selaku dosen pembimbing tugas akhir yang telah memberikan bimbingan, pengajaran, dan ilmu pengetahuan yang penulis dapatkan selama penyusunan skripsi ini.

6. Ibu Vittalis Ayu selaku dosen pembimbing akademik yang selalu memberikan bimbingan dan nasehat selama masa perkuliahan.

7. Kakak penulis, Robertus Dedy, Ricardus Irawan, dan Christina Mega yang selalu memberikan semangat dan dukungan penuh kepada penulis.

8. Seluruh teman-teman Informatika 16, Pulu-Pulu, Mantap-Mantap, Phobia, KKN, Sekolah Rakyat yang memberikan dukungan, semangat serta kenangan selama berada di Yogyakarta.

9. Arvan, Tatag, Yoga, Faikar, Andre, Evan, Dhimas, Widi, Adit yang telah menjadi sahabat penulis, memberikan dukungan dan hiburan kepada penulis.

(11)

xi

10. Seluruh Dosen Fakultas Sains dan Teknologi khususnya Program Studi Informatika Universitas Sanata Dharma yang telah mendidik dan memberikan ilmu pengetahuan selama masa perkuliahan.

Penulis menyadari bahwa tugas akhir ini masih belum sempurna, maka penulis mengharapkan kritik dan saran yang bersifat membangun dan bermanfaat.

Semoga penulisan tugas akhir ini dapat bermanfaat dan berguna bagi semua pihak yang membacanya khususnya mahasiswa Informatika.

Yogyakarta,

Penulis

Antonius Yogi Prihantoro

(12)

xii

DAFTAR ISI

HALAMANJUDUL ... I HALAMANJUDULDALAMBAHASAINGGRIS ... II HALAMANPERSETUJUANPEMBIMBING ... III HALAMANPENGESAHAN ... IV PERNYATAANKEASLIANKARYA ... V HALAMANPERSEMBAHAN ... VI LEMBARPERNYATAANPERSETUJUANPUBLIKASI ... VII ABSTRAK ... VIII ABSTRACT ... IX KATAPENGANTAR ... X DAFTARISI ... XII DAFTARTABEL ... XV DAFTARGAMBAR ... XVII

BABIPENDAHULUAN ... 1

1.1. Latar Belakang ... 1

1.2. Rumusan Masalah ... 3

1.3. Tujuan ... 3

1.4. Manfaat Penelitian ... 4

1.5. Batasan Masalah ... 4

1.6. Sistematika Penulisan ... 4

BABIILANDASANTEORI ... 6

2.1. Usaha Mikro Kecil dan Menengah ... 6

2.2. Penambangan Data ... 7

2.2.1 Pengertian Penambangan Data ... 7

2.2.2 Fungsi Penambangan Data ... 7

2.2.3 Knowledge Discovery in Database ... 10

2.3. Klasifikasi Pada Data Mining ... 11

2.4. Imbalance Data ... 12

(13)

xiii

2.5. Boxplot ... 13

2.6. Missing Data ... 15

2.7. K-Nearest Neighbor ... 16

2.8. Modified K-Nearest Neighbor ... 17

2.9. Normalisasi Z-Score ... 19

2.10. Cross Validation ... 20

2.11. Evaluasi ... 20

BABIIIMETODOLOGIPENELITIAN ... 22

3.1. Gambaran Umum ... 22

3.2. Sumber Data ... 23

3.3. Preprocessing ... 24

3.3.1 Seleksi Data ... 24

3.3.2 Pembersihan Data... 25

3.3.3 Penanganan Outlier ... 30

3.3.4 Penyeimbangan Data ... 38

3.3.5 Transformasi Data ... 41

3.4. Komposisi Data Latih dan Data Uji ... 44

3.5. Modified K-Nearest Neighbor ... 44

3.6. Evaluasi ... 51

3.7. Kebutuhan Sistem ... 51

3.8. Perancangan Antarmuka ... 52

BABIVIMPLEMENTASIDANANALISISHASIL ... 54

4.1. Implementasi ... 54

4.1.2 Akurasi ... 54

4.1.3 Cross Validation ... 55

4.1.4 Perhitungan Jarak ... 56

4.1.5 Perhitungan Fungsi S ... 56

4.1.6 Perhitungan Validitas ... 56

4.1.7 Perhitungan Weight Voting ... 56

4.1.8 Prediksi ... 57

(14)

xiv

4.1.9 Label Prediksi ... 58

4.1.10 Uji Data Tunggal ... 59

4.2. Preeprocessing ... 60

4.2.1 Seleksi Data ... 60

4.2.2 Pembersihan Data... 62

4.3. Hasil Penelitian dan Analisis ... 66

4.3.1 Percobaan Tanpa Menghilangkan Outlier ... 66

4.3.2 Percobaan Setelah Menghilangkan Outlier ... 84

4.3.3 Perbandingan Akurasi Tanpa Menghilangkan Outlier dan Setelah Menghilangkan Outlier ... 102

4.4. Uji Data Tunggal ... 103

4.5. Analisis Hasil Percobaan Terhadap Hasil Penelitian Sebelumnya ... 107

BABVPENUTUP ... 108

5.1. Kesimpulan ... 108

5.2. Saran ... 108

DAFTARPUSTAKA ... 109

(15)

xv

DAFTAR TABEL

Tabel 3.1. Penjelasan Atribut UMKM ... 23

Tabel 3.2. Hasil Seleksi Atribut ... 25

Tabel 3.3. Contoh Data Missing Value ... 25

Tabel 3.4. Contoh Data Sebelum Imputasi KNN ... 26

Tabel 3.5. Perhitungan Euclidean Missing Data 1 ... 27

Tabel 3.6. Perhitungan Weight Mean Estimation Missing Data 1 ... 28

Tabel 3.7. Contoh Hasil Imputasi Missing Data 1 ... 29

Tabel 3.8. Contoh Hasil Setelah Data Cleaning ... 29

Tabel 3.9. Boxplot Data Imputasi ... 30

Tabel 3.10. Boxplot Data Cleaning... 34

Tabel 3.11. Jumlah Data Setelah Penanganan Outlier ... 37

Tabel 3.12. Transformasi Atribut Aset ... 41

Tabel 3.13. Transformasi Atribut Omset ... 41

Tabel 3.14. Atribut Tahun Berdiri... 42

Tabel 3.15. Atribut Lama Berdiri ... 42

Tabel 3.16. Contoh Hasil Normalisasi Z-Score Lama Berdiri ... 42

Tabel 3.17. Contoh Hasil Normalisasi Z-Score Jumlah Karyawan ... 43

Tabel 3.18. Data Uji ... 46

Tabel 3.19. Data Latih ... 46

Tabel 3.20. Hasil Perhitungan Jarak Euclidean Data Latih 1 ... 47

Tabel 3.21. Hasil Perhitungan Fungsi S ... 48

Tabel 3.22. Hasil Perhitungan Nilai Validitas ... 48

Tabel 3.23. Hasil Perhitungan Jarak Euclidean ... 49

Tabel 3.24. Hasil Perhitungan Weight Voting ... 50

Tabel 3.25. Hasil Klasifikasi Modified K-Nearest Neighbor ... 50

Tabel 3.26. Contoh Confusion Matrix... 51

Tabel 4.1. Percobaan Seleksi Atribut ... 60

Tabel 4.2. Hasil Seleksi Atribut ... 62

(16)

xvi

Tabel 4.3. Contoh HasilImputasi Jumlah Karyawan ... 63

Tabel 4.4. Contoh HasilImputasi Aset ... 63

Tabel 4.5. Contoh HasilImputasi Omset ... 64

Tabel 4.6. Contoh HasilImputasi Tahun Berdiri ... 64

Tabel 4.7. HasilAkurasi Data Imputasi Tidak Seimbang Tanpa Menghilangkan Outlier ... 66

Tabel 4.8. HasilAkurasi Data Imputasi Seimbang Tanpa Menghilangkan Outlier ... 72

Tabel 4.9. HasilAkurasi Data Cleaning Tidak Seimbang Tanpa Menghilangkan Outlier ... 76

Tabel 4.10. HasilAkurasi Data Cleaning Seimbang Tanpa Menghilangkan Outlier ... 81

Tabel 4.11. HasilAkurasi Data Imputasi Tidak Seimbang Setelah Menghilangkan Outlier ... 85

Tabel 4.12. HasilAkurasi Data Imputasi Seimbang Setelah Menghilangkan Outlier ... 90

Tabel 4.13. HasilAkurasi Data Cleaning Tidak Seimbang Setelah Menghilangkan Outlier ... 94

Tabel 4.14. HasilAkurasi Data Cleaning Seimbang Setelah Menghilangkan Outlier ... 99

(17)

xvii

DAFTAR GAMBAR

Gambar 2.1. Diagram Knowledge Discovery In Database (KDD) ... 11

Gambar 2.2. Boxplot ... 14

Gambar 2.3. K-Fold Cross Validation dengan k sebesar 3 ... 20

Gambar 2.4. Confusion Matrix... 21

Gambar 3.1. Gambaran Umum ... 22

Gambar 3.2. Hasil Peringkat Atribut... 24

Gambar 3.3. Fungsi Jarak pdist2 ... 27

Gambar 3.4. Boxplot Data Imputasi Atribut Jumlah Karyawan ... 31

Gambar 3.5. Boxplot Data Imputasi Atribut Aset ... 32

Gambar 3.6. Boxplot Data Imputasi Atribut Omset ... 32

Gambar 3.7. Boxplot Data Imputasi Atribut Tahun Berdiri ... 33

Gambar 3.8. Boxplot Data Cleaning Atribut Jumlah Karyawan ... 35

Gambar 3.9. Boxplot Data Cleaning Atribut Aset ... 35

Gambar 3.10. Boxplot Data Cleaning Atribut Omset ... 36

Gambar 3.11. Boxplot Data Cleaning Atribut Tahun Berdiri ... 36

Gambar 3.12. Fungsi randperm ... 38

Gambar 3.13. Grafik Data Imputasi Sebelum Seimbang ... 39

Gambar 3.14. Grafik Data Imputasi Setelah Seimbang ... 39

Gambar 3.15. Grafik Data Cleaning Sebelum Seimbang ... 40

Gambar 3.16. Grafik Data Cleaning Setelah Seimbang ... 40

Gambar 3.17. Pembagian Komposisi Data 3-Fold Cross Validation ... 44

Gambar 3.18. Pembagian Komposisi Data 5-Fold Cross Validation ... 44

Gambar 3.19. Flowchart Modified K-Nearest Neighbor. ... 45

Gambar 3.20. Antarmuka Sistem ... 52

Gambar 4.1. Data Sebelum Transformasi ... 65

Gambar 4.2. Data Setelah Transformasi ... 65

Gambar 4.3. Grafik Akurasi Data Imputasi Tidak Seimbang Tanpa Menghilangkan Outlier ... 68

(18)

xviii

Gambar 4.4. Grafik Data Imputasi Seimbang Tanpa Menghilangkan Outlier ... 69 Gambar 4.5. Grafik Data Imputasi Seimbang Tanpa Menghilangkan Outlier Model 1 ... 70 Gambar 4.6. Grafik Data Imputasi Seimbang Tanpa Menghilangkan Outlier Model 2 ... 70 Gambar 4.7. Grafik Data Imputasi Seimbang Tanpa Menghilangkan Outlier Model 3 ... 71 Gambar 4.8. Grafik Akurasi Data Imputasi Seimbang Tanpa

Menghilangkan Outlier ... 74 Gambar 4.9. Perbandingan Akurasi Data Imputasi Tidak Seimbang dan

Data Imputasi Seimbang ... 75 Gambar 4.10. Grafik Akurasi Data Cleaning Tidak Seimbang Tanpa

Menghilangkan Outlier ... 78 Gambar 4.11. Grafik Data Cleaning Seimbang Tanpa Menghilangkan

Outlier ... 79 Gambar 4.12. Grafik Data Cleaning Seimbang Tanpa Menghilangkan

Outlier Model 1 ... 79 Gambar 4.13. Grafik Data Cleaning Seimbang Tanpa Menghilangkan

Outlier Model 2 ... 80 Gambar 4.14. Grafik Data Cleaning Seimbang Tanpa Menghilangkan

Outlier Model 3 ... 80 Gambar 4.15. Grafik Akurasi Data Cleaning Seimbang Tanpa

Menghilangkan Outlier ... 83 Gambar 4.16. Perbandingan Akurasi Data Cleaning Tidak Seimbang

dan Data Cleaning Seimbang ... 84 Gambar 4.17. Grafik Akurasi Data Imputasi Tidak Seimbang Setelah

Menghilangkan Outlier ... 87 Gambar 4.18. Grafik Data Imputasi Seimbang Setelah Menghilangkan

Outlier ... 88 Gambar 4.19. Grafik Data Imputasi Seimbang Setelah Menghilangkan

Outlier Model 1 ... 88

(19)

xix

Gambar 4.20. Grafik Data Imputasi Seimbang Setelah Menghilangkan

Outlier Model 2 ... 89

Gambar 4.21. Grafik Data Imputasi Seimbang Setelah Menghilangkan Outlier Model 3 ... 89

Gambar 4.22. Grafik Akurasi Data Imputasi Seimbang Setelah Menghilangkan Outlier ... 92

Gambar 4.23. Perbandingan Akurasi Data Imputasi Tidak Seimbang dan Data Imputasi Seimbang ... 93

Gambar 4.24. Grafik Akurasi Data Cleaning Tidak Seimbang Setelah Menghilangkan Outlier ... 96

Gambar 4.25. Grafik Data Cleaning Seimbang Setelah Menghilangkan Outlier ... 97

Gambar 4.26. Grafik Data Cleaning Seimbang Setelah Menghilangkan Outlier Model 1 ... 97

Gambar 4.29. Grafik Akurasi Data Cleaning Seimbang Setelah Menghilangkan Outlier ... 101

Gambar 4.30. Perbandingan Akurasi Data Cleaning Tidak Seimbang dan Data Cleaning Seimbang ... 102

Gambar 4.31. Perbandingan Akurasi Tanpa Menghilangkan Outlier dan Setelah Menghilangkan Outlier ... 103

Gambar 4.32. Uji Data Tunggal Kelas Mikro ... 104

Gambar 4.33. Uji Data Tunggal Kelas Kecil ... 104

Gambar 4.34. Uji Data Tunggal Kelas Menengah ... 105

Gambar 4.35. Uji Data Kelompok ... 105

Gambar 4.36. Uji Data Kelompok Data Outlier ... 106

(20)

1

BAB I

PENDAHULUAN 1.1 Latar Belakang

Pemerintah menetapkan Peraturan Presiden Republik Indonesia Nomor 62 Tahun 2015 tentang Kementerian Koperasi dan Usaha Kecil dan Menengah, Kementerian Koperasi dan Usaha Kecil dan Menengah berada di bawah dan bertanggung jawab kepada Presiden. Kementerian Koperasi dan Usaha Kecil dan Menengah bertugas menyelenggarakan urusan pemerintah di bidang koperasi dan usaha kecil dan menengah untuk membantu Presiden dalam menyelenggarakan pemerintahan negara.

Kementerian Koperasi dan Usaha Kecil dan Menengah bertugas menyelenggarakan fungsi pelaksanaan pemberdayaan Koperasi Usaha Mikro Kecil dan Menengah. Pemberdayaan UMKM sangat penting dan strategis dalam mengantisipasi perekonomian ke depan terutama dalam memperkuat struktur perekonomian nasional. Pelaksanaan pemberdayaan dapat dilakukan dengan melakukan penilaian terhadap UMKM yang diwujudkan dengan pengadaan penilaian kriteria UMKM. Menurut data Kementerian Koperasi dan Usaha Kecil dan Menengah selama tahun 2017 sampai 2018 jumlah UMKM di Indonesia mengalami peningkatan. Pada tahun 2017 perkembangan UMKM di Indonesia sebanyak 62.922.617, kemudian mengalami peningkatan pada tahun 2018 sebanyak 64.194.057 (2.02%). Untuk mengetahui perkembangan dari UMKM setiap tahunnya maka perlu dilakukan pembaharuan data.

Menurut Undang-Undang Nomor 20 Tahun 2008 tentang usaha mikro kecil dan menengah, terdapat tiga kriteria UMKM yaitu mikro, kecil dan menengah. Berdasarkan UU tersebut, kriteria yang digunakan untuk mendefinisikan UMKM tercantum dalam Pasal 6 adalah nilai aset dan nilai omset. Namun kriteria UMKM berdasarkan dua komponen tersebut berbeda menurut beberapa lembaga internasional. Menurut World Bank dan lembaga internasional lainnya terdapat faktor lain yang mendefinisikan UMKM yaitu berdasarkan jumlah karyawan. Permasalahannya adalah kriteria UMKM

(21)

ditentukan oleh beberapa komponen dan harus mengevaluasi beberapa komponen tersebut secara manual. Hal tersebut membutuhkan waktu cukup lama bagi pihak kementerian koperasi untuk menentukan kriteria UMKM. Di sisi lain, terdapat data UMKM Kota Bandung pada tahun 2018 yang bisa digunakan untuk melakukan klasifikasi sehingga dapat ditentukan kriteria usaha lebih cepat. Oleh sebab itu, untuk mengatasi permasalahan tersebut dapat dibuat sistem yang dapat membantu pihak kementerian koperasi untuk mengklasifikasi kriteria UMKM.

Penelitian dengan menggunakan data UMKM Kota Bandung pada tahun 2018, sebelumnya sudah pernah digunakan dengan menggunakan metode Jaringan Syaraf Tiruan Backpropagation. Penelitian tersebut dilakukan oleh Tatag (2020) pada tugas akhirnya menggunakan data sebanyak 5219 record dengan 12 atribut di seleksi menjadi 4 atribut dan 1 label. Adapun atribut yang digunakan dalam penelitian tersebut adalah jumlah karyawan, aset, omset dan tahun berdiri. Hasil penelitian tersebut menghasilkan akurasi terbaik sebesar 98.42% dengan arsitektur jaringan paling optimum menggunakan dua lapisan tersembunyi, jumlah 30 neuron pada lapisan tersembunyi pertama dan kedua, fungsi aktivasi logsig pada lapisan tersembunyi pertama dan kedua, fungsi training trainlm.

Salah satu metode klasifikasi yang cukup di kenal saat ini adalah Modified K-Nearest Neighbor (MKNN). Algoritme MKNN merupakan pengembangan dari K-Nearest Neighbor (KNN) dengan menambahkan dua proses baru yaitu perhitungan nilai validitas antar data latih dan perhitungan weight voting.

Algoritme MKNN sebelumnya sudah pernah digunakan untuk klasifikasi penyakit kanker payudara. Penelitian tersebut dilakukan oleh Ikhsan (2019) menggunakan data sebanyak 568 record dengan 31 atribut dan 1 label. Hasil dari penelitian tersebut menghasilkan akurasi terbaik sebesar 97.61% dengan nilai k sebesar 1.

Penelitian dengan menggunakan metode MKNN juga dilakukan oleh Sukwana (2018). Penelitian tersebut menggunakan metode MKNN untuk klasifikasi phising websites, menggunakan data sebanyak 1353 record dengan 9

(22)

atribut dan 1 label. Hasil dari penelitian tersebut menghasilkan akurasi terbaik sebesar 90.21% dengan nilai k sebesar 3.

Berdasarkan latar belakang tersebut, maka penulis tertarik untuk membuat sistem dengan mengimplementasikan algoritme Modified K-Nearest Neighbor untuk mengklasifikasi kriteria UMKM. Hasil penelitian ini diharapkan dapat membantu pihak kementerian koperasi dalam mengklasifikasi kriteria UMKM.

1.2 Rumusan Masalah

Berdasarkan latar belakang di atas, maka dirumuskan masalah sebagai berikut : 1. Bagaimana menentukan kriteria untuk klasifikasi usaha mikro kecil

menengah?

2. Bagaimana menentukan klasifikasi usaha mikro kecil menengah dengan menggunakan algoritme Modified K-Nearest Neighbor?

3. Berapakah akurasi yang dihasilkan algoritme Modified K-Nearest Neighbor dalam klasifikasi usaha mikro kecil menengah?

4. Berapakah nilai k yang menghasilkan akurasi tertinggi dalam klasifikasi usaha mikro kecil menengah?

1.3 Tujuan

Beberapa tujuan dari penelitian ini adalah sebagai berikut :

1. Menentukan kriteria untuk klasifikasi usaha mikro kecil menengah.

2. Menentukan klasifikasi usaha mikro kecil menengah dengan menggunakan algoritme Modified K-Nearest Neighbor.

3. Mengetahui akurasi dari hasil implementasi algoritme Modified K-Nearest Neighbor dalam klasifikasi usaha mikro kecil menengah.

4. Mengetahui nilai k yang menghasilkan akurasi tertinggi dalam klasifikasi usaha mikro kecil menengah.

(23)

1.4 Manfaat Penelitian

Penelitian ini diharapkan mampu membantu pihak kementerian koperasi dalam proses klasifikasi kriteria usaha mikro kecil dan menengah. Selain itu, penelitian ini diharapkan dapat memberikan gambaran bagi pembaca mengenai implementasi algoritme Modified K-Nearest Neighbor dalam klasifikasi usaha mikro kecil menengah.

1.5 Batasan Masalah

Adapun batasan masalah penelitian ini adalah sebagai berikut :

1. Data yang digunakan adalah data usaha mikro kecil menengah Kota Bandung tahun 2018 sumber : http://data.bandung.go.id/dataset, jumlah data sebanyak 5219 record.

2. Atribut data penelitian ini meliputi No, Kecamatan, Kelurahan, Nama Perusahaan, Nama Pemilik, Alamat, Telepon/HP, Jenis Usaha, Jumlah Karyawan, Aset, Omset dan Tahun Berdiri.

3. Label kriteria adalah Mikro, Kecil dan Menengah.

4. Algoritme yang digunakan adalah algoritme Modified K-Nearest Neighbor.

5. Implementasi program menggunakan bahasa pemrograman MATLAB.

6. Beberapa fungsi yang digunakan adalah pdist2, randperm, zscore dan confusionmat.

1.6 Sistematika Penulisan 1. Bab I Pendahuluan

Pada bab ini memuat latar belakang, rumusan masalah, tujuan penelitian, manfaat penelitian, batasan masalah dan sistematika penulisan.

2. Bab II Landasan Teori

Pada bab ini memuat tentang teori-teori yang berkaitan dengan penelitian dan metode yang digunakan.

3. Bab III Metodologi Penelitian

Pada bab ini memuat tentang metodologi penelitian yang digunakan pada penelitian ini yang terdiri dari gambaran umum, tahap-tahap penelitian,

(24)

perhitungan Modified K-Nearest Neighbor, peralatan penelitian, dan perancangan antarmuka sistem.

4. Bab IV Implementasi dan Analisis Hasil

Pada bab ini membahas tentang implementasi program pada sistem serta analisa tentang hasil yang didapat pada penelitian yang dilakukan.

5. Bab V Penutup

Pada bab ini berisi kesimpulan dari saran yang berguna untuk mengembangkan sistem di masa yang akan datang.

(25)

6

BAB II

LANDASAN TEORI

2.1 Usaha Mikro Kecil dan Menengah

Definisi Usaha Mikro Kecil dan Menengah (UMKM) di Indonesia diatur dalam Undang-Undang Republik Indonesia Nomor 20 Tahun 2008 tentang UMKM. Pasal 1 dari UU terebut, dinyatakan bahwa Usaha mikro adalah usaha produktif milik orang perorangan atau badan usaha perorangan yang memiliki kriteria usaha mikro sebagaimana diatur dalam UU tersebut. Usaha kecil adalah usaha ekonomi produktif yang berdiri sendiri, yang dilakukan oleh orang perorangan atau badan usaha yang buka merupakan anak perusahaan atau bukan anak cabang yang dimiliki, dikuasai atau menjadi bagian, baik langsung maupun tidak langsung, dari usaha menengah atau usaha besar yang memenuhi kriteria usaha kecil sebagaimana dimaksud dalam UU tersebut.

Sedangkan usaha menengah adalah usaha ekonomi produktif yang berdiri sendiri yang dilakukan oleh perorangan atau badan usaha yang bukan merupakan anak perusahaan atau bukan cabang perusahaan yang dimiliki, dikuasai, atau menjadi bagian baik langsung maupun tidak langsung, dari usaha mikro, usah kecil atau usaha besar yang memenuhi kriteria usaha mikro sebagaimana dimaksud dalam UU tersebut.

Sebagaimana diatur dalam Undang-Undang tersebut, kriteria yang digunakan untuk mendefinisikan UMKM seperti yang tercantum dalam Pasal 6 adalah nilai aset (nilai kekayaan bersih) tidak termasuk tanah dan bangunan dan omset (hasil penjualan rata-rata per tahun) dengan kriteria sebagai berikut.

a. Usaha mikro adalah unit usaha yang memiliki aset paling banyak Rp.

50.000.000,00 tidak termasuk tanah dan bangunan tempat usaha dengan hasil penjualan tahunan paling besar Rp. 300.000.000,00.

b. Usaha kecil dengan nilai aset lebih dari Rp. 50.000.000,00 sampai dengan paling banyak Rp. 500.000.000,00 tidak termasuk tanah dan bangunan

(26)

tempat usaha memiliki hasil penjualan tahunan lebih dari Rp.

300.000.000,00 hingga maksimum Rp. 2.500.000.000,00.

c. Usaha menengah adalah perusahaan dengan nilai kekayaan bersih lebih dari Rp. 500.000.000,00 hingga paling banyak Rp. 10.000.000.000,00 hasil penjualan tahunan di atas Rp. 2.500.000.000,00 sampai paling tinggi Rp. 50.000.000.000,00.

(http://pasarjaya.co.id/_assets/files/about/Undang_Undang_Nomor_20_T ahun_2008_TENTANG_USAHA_MIKRO_KECIL_DAN_MENENGA H.pdf)

2.2 Penambangan Data

2.2.1 Pengertian Penambangan Data

Penambangan data dilatar belakangi oleh pertumbuhan pesat dari volume data yang tersedia dan berasal dari berbagai bidang.

Pertumbuhan yang sangat pesat membuat ledakan informasi sehingga informasi berharga dari data tersebut sulit ditemukan. Berdasarkan hal tersebut maka dibutuhkan sebuah alat yang secara otomatis mendapatkan informasi berharga dari data yang besar dan mengubah data tersebut menjadi pengetahuan yang terorganisir. Secara fungsional, penambangan data adalah proses menemukan pola menarik dan pengetahuan dari sejumlah besar data yang bersumber dari database, gudang data, web, atau tempat penyimpanan informasi lainnya (Han & Kamber, 2012).

2.2.2 Fungsi Penambangan Data

Data mining memiliki fungsi yang penting untuk mendapatkan dan menemukan informasi yang berguna serta meningkatkan pengetahuan bagi user. Menurut (Han & Kamber, 2012), secara umum, fungsi data mining hanya dikategorikan menjadi dua kategori utama yaitu deskriptif dan prediktif. Deskriptif bertujuan untuk menggambarkan sifat data dari data sasaran, dan menurunkan pola-pola yang meringkas hubungan pokok dalam data, sedangkan, jika prediktif bertujuan untuk membuat

(27)

prediksi dari data yang digunakan. Lalu, data mining juga memiliki beberapa fungsionalitas (Han & Kamber, 2012) yaitu :

a. Kelas / Konsep Deskripsi

Deskripsi kelas atau konsep dapat berasal dari menggunakan karakterisasi data atau diskriminasi data. Karakterisasi data merupakan merangkum data dari kelas yang diteliti atau sering disebut kelas target, sedangkan diskriminasi data merupakan membandingkan kelas target dan kelas komparatif.

b. Penambangan pola yang sering muncul (Mining Frequent Patterns), Asosiasi (Associations Analysis), dan Korelasi(Correlations)

Frequent Patterns atau pola yang sering muncul, merupakan pola yang sering terjadi di dalam data seperti namanya. Ada banyak jenis pola yang sering muncul dalam data yaitu itemset yang sering muncul, subsequence atau pola berurutan yang sering muncul dan substructure yang sering muncul ketika melakukan transaksi bersamaan seperti membeli roti dan susu secara bersamaan di toko – toko oleh banyak pelanggan. Sebuah sub struktur dapat merujuk ke berbagai bentuk struktur yang dapat dikombinasikan dengan itemsets atau sequences. Jika substruktur sering muncul maka disebut sebagai pola terstruktur.

c. Analisis Prediktif Klasifikasi dan Regresi

Klasifikasi merupakan proses untuk menemukan model (atau fungsi) yang menggambarkan dan membedakan kelas atau konsep data. Model yang diturunkan biasanya didasarkan pada analisis dari training data. Training data yaitu objek data yang memiliki label kelas yang telah diketahui. Klasifikasi biasanya digunakan untuk memprediksi kategori label kelas, lalu jika regresi biasanya digunakan untuk memprediksi data nilai numerik yang tidak tersedia

(28)

dari label kelas. Analisis regresi merupakan metode statistik yang paling sering digunakan untuk memprediksi numerik, meskipun terdapat model metode yang lain. Klasifikasi dan regresi perlu didahului dengan analisis relevansi guna untuk mengidentifikasi atribut yang relevan dari klasifikasi dan proses regresi, kemudian atribut tersebut dipilih untuk proses klasifikasi dan regresi, sedangkan atribut yang tidak relevan akan dikeluarkan dan tidak digunakan.

d. Analisis Pengelompokan (Cluster Analysis)

Berbeda dengan klasifikasi dan regresi yang menganalisa kumpulan data berlabel kelas, clustering menganalisa objek data tanpa label kelas. Clustering dapat digunakan untuk menghasilkan label kelas untuk sekelompok data. Sebuah objek yang berkelompok berdasarkan pada prinsip memaksimalkan kesamaan inter kelas dan meminimalkan kesamaan antarkelas, sehingga objek dalam sebuah kelompok dapat memiliki kesamaan yang tinggi dibandingkan satu sama lain tapi berbeda dengan objek kelompok lainnya. Clustering juga memfasilitasi pembentukan taksonomi (taxonomy formation) yaitu sebuah perkumpulan pengamatan yang menjadi hierarki kelas yang mengelompokkan sebuah perihal yang serupa bersama.

e. Analisis Outlier (Outlier Analysis)

Outlier merupakan satu set data yang mungkin berisi objek yang tidak sesuai dengan perilaku umum yang biasanya terjadi.

Untuk membuang outlier sendiri terdapat banyak metode dalam penambangan data, karena outlier sering dianggap sebagai noise atau sebuah kebisingan. Outlier dapat dideteksi menggunakan uji statistik yang mengasumsikan distribusi atau probabilitas model untuk data, atau menggunakan jarak antar objek dimana objek yang jauh dari setiap kelompok lainnya adalah outlier.

(29)

2.2.3 Knowledge Discovery in Databases

Knowledge Discovery in Database (KDD) merupakan sebuah kegiatan yang meliputi pengumpulan data, pemakaian data historis untuk menemukan keteraturan, pola atau sebuah hubungan dalam sebuah set data yang berukuran besar. Knowledge Discovery in Database memiliki beberapa tahapan yang dapat dibagi menjadi beberapa proses yaitu sebagai berikut :

a. Data cleaning yaitu menghilangkan noise dan data yang tidak konsisten.

b. Data integration yaitu dimana beberapa sumber data dapat digabungkan.

c. Data selection yaitu dimana data yang relevan dengan tugas analisis yang diambil dari database.

d. Data transformation yaitu dimana data diubah dan dikonsolidasikan ke dalam bentuk sesuai untuk penambangan dengan melakukan operasi ringkasan atau agregasi.

e. Data mining yaitu proses penting dimana metode cerdas diterapkan untuk mengekstrak pola data.

f. Pattern evaluation yaitu untuk mengidentifikasi pola yang benar – benar menarik yaitu mewakili pengetahuan berdasarkan langkah – langkah menarik.

g. Knowledge presentation yaitu dimana teknik visualisasi dan representasi pengetahuan yang digunakan untuk menyajikan pengetahuan yang ditambang kepada user.

(30)

Gambar 2.1 Diagram Knowledge Discovery In Database (KDD) (Sumber : Han & Kamber (2012))

2.3 Klasifikasi Pada Data Mining

Klasifikasi adalah proses penemuan model yang menggambarkan dan membedakan kelas data atau konsep yang bertujuan agar bisa digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui. Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning (fase training), di mana algoritme klasifikasi dibuat untuk menganalisis data latih lalu direpresentasikan dalam bentuk aturan klasifikasi. Proses kedua adalah klasifikasi, di mana data uji digunakan untuk memperkirakan akurasi dari aturan klasifikasi (Han & Kamber, 2012).

Proses klasifikasi didasarkan pada empat komponen (Gorunescu, 2011) : a. Kelas.

Variabel dependen yang berupa kategorikal yang merepresentasikan

“label‟ yang terdapat pada objek. Contohnya: risiko penyakit jantung, risiko kredit, kesetiaan pelanggan, jenis gempa.

b. Predictor.

(31)

Variabel independen yang direpresentasikan oleh karakteristik (atribut) data. Contohnya: merokok, minum alkohol, tekanan darah, tabungan, aset, gaji.

c. Training dataset.

Satu set data yang berisi nilai dari kedua komponen di atas yang digunakan untuk menentukan kelas yang cocok berdasarkan predictor.

d. Testing dataset.

Berisi data baru yang akan diklasifikasikan oleh model yang telah dibuat dan akurasi klasifikasi dievaluasi.

Berikut ini adalah algoritme klasifikasi data mining yang paling popular yaitu adalah (Gorunescu, 2011) :

a. Decision/Classification Trees.

b. Bayesian Classifiers/Naive Bayes Classifiers.

c. Neural Networks.

d. Statistical Analysis.

e. Rough Sets.

f. K-nearest-neighbor Classifier.

g. Rule - Based Methods.

h. Memory Based Reasoning.

i. Support Vector Machines.

2.4 Imbalance Data

Sebuah data dapat dikatakan menjadi tidak seimbang (imbalanced) jika terdapat satu kelas yang direpresentasikan dalam jumlah sampel yang kecil bila dibandingkan dengan jumlah sampel kelas yang lainnya. Kondisi tersebut dapat menimbulkan masalah pada klasifikasi data yang kasusnya jarang terjadi akan tetapi sangat penting, contohnya pada pengklasifikasian data kecurangan transaksi telepon, pengenalan citra satelit untuk pendeteksian tumpahan minyak, deteksi kegagalan mesin suatu pabrik, deteksi penyakit yang langka tetapi berbahaya (Barandela et al, 2003).

(32)

Kondisi imbalanced data dapat terlihat secara nyata pada himpunan data yang memiliki dua kelas. Kelas yang jumlah sampel terkecil (minority class) disebut kelas positif dan kelas yang jumlah sampel terbesar (majority class) disebut kelas negatif. Rasio jumlah sampel antara kedua kelas yaitu 1:100, 1:1000 dan 1:10000 atau lebih.

Ada dua pendekatan yang dapat dilakukan untuk mengatasi kondisi imbalanced data. Pendekatan pertama yaitu pada level data, menggunakan teknik pengambilan contoh (sampling technique) dan pendekatan kedua yaitu pada level algoritme. Pendekatan sampling technique terdiri dari dua cara yaitu Oversampling kelas terkecil dan Undersampling kelas terbesar.

a. Oversampling

Teknik pengambilan contoh meningkatkan jumlah kelas terkecil dengan cara memperbanyak data secara acak sehingga jumlahnya sama dengan kelas terbesar.

b. Undersampling

Teknik pengambilan contoh mengurangi jumlah data kelas terbesar secara acak sehingga jumlahnya sama dengan kelas terkecil.

2.5 Boxplot

Boxplot (box-and-whisker) merupakan suatu box (kotak berbentuk bujur sangkar). Boxplot adalah salah satu cara dalam statistik deskriptif untuk menggambarkan secara grafik dari data numeris melalui lima ukuran (minimum, kuartil pertama, median, kuartil ketiga, dan maksimum). Dalam boxplot juga ditunjukkan, jika ada, nilai outlier dari observasi. Boxplot dapat digunakan untuk menunjukkan perbedaan antara populasi tanpa menggunakan asumsi distribusi statistik yang mendasarinya (Junaidi, 2015).

(33)

Gambar 2.2 Boxplot

Boxplot dapat digambarkan secara vertikal maupun horizontal. Pada boxplot yang digambarkan secara vertikal, garis di tengah kotak menunjukkan median, ujung kotak atas menunjukkan nilai kuartil atas atau kuartil ketiga (Q3), ujung kotak bawah menunjukkan nilai kuartil bawah atau kuartil pertama (Q1), sedangkan garis di kedua ujung kotak menunjukkan nilai minimum dan nilai maksimum. Garis di kedua ujung kotak dinamakan garis whisker. Panjang whisker bagian atas adalah kurang dari atau sama dengan Q3 + (1.5 x IQR).

Panjang whisker bagian bawah adalah lebih besar atau sama dengan Q1 – (1.5 x IQR). Nilai yang berada di atas atau dibawah whisker dinamakan nilai outlier atau ekstrim. Suatu nilai dikatakan outlier jika :

Q3 + (1.5 x IQR) < outlier ≤ Q3 + (3 x IQR) , atau Q1 – (1.5 x IQR) > outlier ≥ Q1 – (3 x IQR)

Selain digunakan untuk melihat derajat penyebaran data, boxplot juga dapat digunakan untuk menilai kesimetrisan data. Jika data simetris, garis median akan berada di tengah kotak dan whisker pada bagian atas dan bagian bawah akan memiliki panjang yang sama. Jika data tidak simetris, median tidak akan berada di tengah kotak dan salah satu dari garis whisker lebih panjang dari yang lainnya (Junaidi, 2015).

(34)

2.6 Missing Data

Missing data merupakan hilangnya informasi atau data dalam suatu subjek. Terdapat banyak hal yang menyebabkan terjadinya missing data, yaitu dapat disebabkan oleh salah memasukkan data, terkait tanggapan dari responden ataupun terdapat kendala pada alat pengumpulan data. Adapun tipe dari missing data sebagai berikut (Donders et al, 2006).

a. Missing Completely at Random (MCAR), yang berarti bahwa missing data terjadi secara acak dari sampel lengkap.

b. Missing not at Random (MNAR), yang berarti bahwa probabilitas dari sebuah observasi yang hilang tidak berkaitan dengan hasil observasi lain.

Sehingga nilainya tersebut berkaitan dengan dirinya sendiri.

c. Missing at Random (MAR), yang berarti bahwa probabilitas sebuah observasi dari missing data biasanya berkaitan dengan informasi yang diberikan responden dengan suatu alasan untuk tidak memberikan data.

Mengatasi missing data dapat menggunakan tiga cara yaitu listwise deletion, pairwise deletion dan imputasi. Listwise deletion mengatasi missing data dengan menghapus observasi yang terdapat missing data. Pairwise deletion mengatasi missing data dengan menghapus nilai yang mengandung missing data, sehingga hanya melakukan analisis pada data yang tersedia. Imputasi yaitu mengisi nilai yang hilang dengan nilai yang mungkin berdasarkan informasi yang didapat dari nilai-nilai yang diketahui (Davey & Savla, 2010).

Beberapa cara dalam melakukan imputasi missing data sebagai berikut (Sudirman, 2012) :

a. Global Most Common

Missing data pada data numerik akan diisi dengan nilai rata-rata dari atribut tersebut sedangkan untuk data kategorikal diisi dengan nilai paling sering muncul pada atribut tersebut tanpa mempertimbangkan kelas.

b. Concept Most Common

Teknik ini mempertimbangkan kelas dari data. Setiap atribut dikelompokkan berdasarkan kelasnya kemudian missing data diisi dengan nilai atribut yang sering muncul pada kelas tersebut. Beberapa algoritme

(35)

yang menggunakan concept most common yaitu, K-Nearest Neighbor (KNN), K-Means dan Support Vector Machine (SVM).

2.7 K-Nearest Neighbor

K-Nearest Neighbor (KNN) adalah metode yang digunakan untuk melakukan klasifikasi terhadap obyek berdasarkan beberapa data yang jaraknya paling dekat dengan obyek tersebut. Pada klasifikasi, KNN bekerja dengan menghitung jarak antara data baru (data uji) dengan data yang sudah diketahui kelasnya (data latih) menggunakan jarak euclidian.

Penanganan missing data dengan KNN diawali dengan menentukan sejumlah tetangga terdekat atau observasi terdekat yang disimbolkan dengan K, kemudian menghitung jarak terkecil dari setiap observasi yang tidak mengandung missing data. Langkah-langkah imputasi missing data dengan metode KNN adalah sebagai berikut :

1. Tentukan parameter K, K adalah jumlah observasi terdekat atau tetangga terdekat yang akan digunakan.

2. Menghitung jarak antara observasi yang mengandung missing data dengan observasi lengkap pada variabel ke-j yang tidak mengandung missing data dengan variabel j lainnya yang bersesuaian dengan rumus jarak euclidian (Larose, 2005) :

𝑑(𝑥_𝑎, 𝑥_𝑏) = √∑^𝑚_𝑗=1(𝑥_𝑎𝑗− 𝑥_𝑏𝑗)² ... (2.1)

Keterangan :

𝑑(𝑥_𝑎, 𝑥_𝑏) = jarak observasi m = dimensi data j = variabel data

𝑥_𝑎𝑗 = nilai dari variabel ke-j pada setiap observasi missing data 𝑥_𝑏𝑗 = nilai dari variabel lainnya pada setiap observasi

3. Urutkan jarak berdasarkan observasi yang memiliki nilai jarak terbesar sampai observasi yang memiliki nilai jarak terkecil.

(36)

4. Menentukan K observasi terdekat berdasarkan nilai jarak terkecil.

5. Melakukan imputasi missing data dengan menghitung nilai weight mean estimation pada K observasi terdekat yang tidak mengandung nilai missing data dengan rumus (Larose, 2005) :

𝑋

_𝑗

=

^∑ ^𝑊^𝑘^𝑉^𝑘

𝐾𝑘=1

∑^𝐾_𝑘=1𝑊_𝑘 ... (2.2) Keterangan :

𝑋_𝑗 = estimasi rata-rata berbobot

𝑉_𝑘 = nilai pada data lengkap pada variabel missing data K = observasi terdekat yang digunakan

𝑊_𝑘 = bobot observasi tetangga terdekat ke K dengan rumus 𝑊_𝑘 =

1

𝑑(𝑋_𝑎𝑘,𝑋_𝑏𝑘)², di mana d adalah jarak observasi K.

2.8 Modified K-Nearest Neighbor

Algoritme Modified K-Nearest Neighbor (MKNN) merupakan pengembangan dari metode KNN dengan penambahan 2 buah proses, yaitu perhitungan nilai validitas dan perhitungan bobot. Algoritme KNN dilakukan dengan mencari kelompok k objek dalam data latih yang paling dekat (mirip) dengan objek pada data baru atau data uji (X Wu et al, 2008). Berikut ini langkah-langkah proses klasifikasi algoritme Modified K-Nearest Neighbor.

1. Perhitungan Jarak Euclidean

Untuk menghitung jarak antar data dapat menggunakan beberapa cara, salah satunya menggunakan Euclidean Distance. Metode pengukuran jarak ini cocok diimplementasikan terhadap data yang memiliki nilai atribut bersifat numerikal, khususnya dengan atribut kontinu (Gorenescu, 2011).

Euclidean Distance dihitung dengan rumus :

𝑑(𝑥, 𝑦) = √∑^𝑛_𝑖=1(𝑥ᵢ − 𝑦ᵢ)² ... (2.3) Keterangan :

d(x,y) = jarak

(37)

n = dimensi data i = variabel data 𝑥_𝑖 = data uji 𝑦_𝑖 = sampel data

2. Perhitungan Nilai Validitas

Dalam algoritme MKNN, setiap data pada data latih harus divalidasi pada langkah pertama. Validitas setiap data bergantung pada setiap tetangganya. Proses validasi dilakukan untuk semua data latih. Setelah dihitung validitas tiap data maka nilai validitas tersebut digunakan sebagai informasi lebih mengenai data tersebut (Parvin, 2008).

Tetangga terdekatnya perlu dipertimbangkan dalam menghitung validitas data latih. Di antara tetangga terdekat dengan data, validitas digunakan untuk menghitung jumlah titik dengan label yang sama dengan data tersebut. Untuk menghitung validitas dari setiap titik pada data latih menggunakan persamaan (Parvin, 2008) :

𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑦(𝑥) = ¹

𝐻∑^𝐻_𝑖=1𝑆(𝑙𝑏𝑙(𝑥), 𝑙𝑏𝑙(𝑁𝑖(𝑥)))... (2.4) Keterangan :

H = jumlah titik terdekat lbl(x) = kelas x

lbl(Ni(x)) = label kelas titik terdekat x

Fungsi S digunakan untuk menghitung kemiripan antara titik x dan data ke- i dari tetangga terdekat. Yang dituliskan dengan persamaan (Parvin, 2008) :

𝑆(𝑎, 𝑏) = {1 𝑎 = 𝑏

0 𝑎 ≠ 𝑏... (2.5) Keterangan :

a = kelas a pada data latih

b = kelas selain kelas a pada data latih

(38)

3. Perhitungan Weight Voting

Dalam metode MKNN, pertama-tama weight masing-masing tetangga dihitung menggunakan 1 / (de + 0.5). Kemudian, validitas dari tiap data pada data latih dikalikan dengan weighted berdasarkan pada jarak Euclidean.

Dalam metode MKNN, weight voting masing-masing tetangga dihitung menggunakan persamaan (Parvin, 2008) :

𝑊(𝑖) = 𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑦(𝑖) 𝑥 ¹

𝑑𝑒(𝑖) + 0,5... (2.6) Keterangan :

W(i) = Perhitungan Weight Voting Validity(i) = Nilai Validitas

de(i) = Jarak Euclidean

Teknik weight voting ini mempunyai pengaruh yang lebih penting terhadap data yang mempunyai nilai validitas lebih tinggi dan paling dekat dengan data uji. Selain itu, perkalian validitas dengan jarak dapat mengatasi kelemahan dari setiap data yang mempunyai jarak dengan weight yang memiliki banyak masalah dalam outlier. Jadi, algoritme MKNN yang diusulkan secara signifikan lebih kuat daripada metode KNN tradisional yang didasarkan hanya pada jarak (Parvin, 2008).

2.9 Normalisasi Z-Score

Z-Score adalah normalisasi yang berdasarkan pada nilai rata-rata dan standar deviasi dari suatu data. Z-Score diperoleh menggunakan rumus persamaan berikut (Larose, 2005).

𝑋′ = (

^{𝑋−𝑚𝑒𝑎𝑛(𝑋)}

𝑆𝐷(𝑋)

)

... (2.7) Keterangan :

X’ = nilai z-score X = nilai observasi data mean(X) = rata-rata data

(39)

SD(X) = standar deviasi data

2.10 Cross Validation

Cross Validation dataset diambil secara acak ke dalam subset atau biasa disebut dengan fold D₁, D₂, … , Dₖ, dengan ukuran yang sama. Dataset dibagi menjadi data latih dan data uji. Data latih dan data uji dilakukan sebanyak k kali.

Pada iterasi ke-i partisi Dᵢ digunakan sebagai data uji dan partisi lainnya digunakan sebagai data latih. Pada iterasi kedua data latih D₁, D₃, … , Dₖ, akan diuji pada D₂ dan selanjutnya hingga Dₖ (Han & Kamber, 2012). Penggunaan k- fold cross validation dengan k sebesar 3 dapat dilihat pada gambar berikut.

Gambar 2.3. K-Fold Cross Validation dengan k sebesar 3

2.11 Evaluasi

Evaluasi sangat penting untuk mengukur tingkat keberhasilan. Langkah akhir dari penelitian ini adalah menguji seberapa baik metode yang digunakan pada penelitian sehingga proses perhitungan akurasi dapat menggunakan Confusion Matrix. Confusion Matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, tabel ini diperlukan untuk menentukan kinerja suatu model klasifikasi.

(40)

Gambar 2.4 Confusion Matrix

Perhitungan akurasi dengan menggunakan tabel Confusion Matrix adalah sebagai berikut.

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = ^{𝑇𝑃+𝑇𝑁}

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑥 100% ... (2.8) Keterangan :

a. TP (True Positive) merupakan banyaknya data yang kelas aktualnya adalah kelas positif dengan kelas prediksinya merupakan kelas positif.

b. FN (False Negative) merupakan banyaknya data yang kelas aktualnya adalah kelas positif dengan kelas prediksinya merupakan kelas negatif.

c. FP (False Positive) merupakan banyaknya data yang kelas aktualnya adalah kelas negatif dengan kelas prediksinya merupakan kelas positif.

d. TN (True Negative) merupakan banyaknya data yang kelas aktualnya adalah kelas negatif dengan kelas prediksinya merupakan kelas negatif.

(41)

22

BAB III

METODOLOGI PENELITIAN

3.1 Gambaran Umum

Gambar 3.1 Gambaran Umum

Gambaran umum merupakan tahapan-tahapan dari sistem untuk membuat rancangan penelitian dari awal sampai akhir. Sistem pada tahap pertama akan membaca data, kemudian data akan masuk ke dalam tahap preprocessing. Tahap seleksi data dilakukan untuk mencari atribut yang digunakan. Tahap pembersihan data dilakukan untuk membersihkan noise, data tidak konsisten dan missing value.

Tahap penanganan outlier dilakukan untuk menghilangkan data outlier.

Selanjutnya akan melalui tahap penyeimbangan data untuk mempertimbangkan keseimbangan kelas pada masing-masing model. Selanjutnya akan melalui tahap transformasi data untuk mengubah nilai data pada tiap atribut dengan melakukan normalisasi. Tahap klasifikasi MKNN, data dikelompokkan menjadi data latih dan data uji menggunakan 3-fold cross validation dan 5-fold cross validation. Label latih dan label uji digunakan sebagai target luaran data klasifikasi. Data latih digunakan sebagai model dan akan dibandingkan dengan data uji untuk menghasilkan akurasi.

(42)

3.2 Sumber Data

Data yang akan digunakan dalam penelitian ini adalah data kriteria UMKM Kota Bandung tahun 2018. Seluruh data berjumlah 5219 record dengan 12 atribut dan 1 label, atribut tersebut antara lain adalah No, Kecamatan, Kelurahan, Nama Perusahaan, Nama Pemilik, Alamat, Telepon/HP, Jenis Usaha, Jumlah Karyawan, Aset, Omset, Tahun Berdiri dan Kriteria sebagai label. Label dari UMKM ada tiga yakni mikro yang menandakan usaha mikro, kecil yang menandakan usaha kecil, dan menengah yang menandakan usaha menengah.

Jumlah label mikro sebanyak 4219, label kecil sebanyak 470, label menengah sebanyak 166 dan label yang tidak diketahui sebanyak 364. Penjelasan mengenai masing-masing atribut dapat dilihat pada tabel di bawah ini.

Tabel 3.1 Penjelasan Atribut UMKM

No. Atribut Keterangan

1 No. Nomor urut data UMKM

2 Kecamatan Nama kecamatan di mana UMKM berlokasi 3 Kelurahan Nama kelurahan di mana UMKM berlokasi 4 Nama Perusahaan Nama instansi dari UMKM

5 Nama Pemilik Nama pemilik dari UMKM

6 Alamat Alamat di mana UMKM berdomisili

7 Telepon/HP Nomor telepon pemilik UMKM

8 Jenis Usaha Fokus bidang UMKM

9 Jumlah Karyawan Total tenaga kerja UMKM (3/5/15/dll)

10 Aset Total kekayaan bersih perusahaan

(300000000/dll)

11 Omset Total penjualan tahunan perusahaan (300000000/dll)

12 Tahun Berdiri Tahun awal UMKM berdiri (2003/2009/dll) 13 Kriteria Kategori UMKM (Mikro/Kecil/Menengah)

(43)

3.3 Preprocessing

Pembuatan sistem dalam penelitian ini menggunakan konsep KDD (Knowledge Discovery in Database) dan disusun berdasarkan tahapan-tahapan dalam penelitian. Tahapan preprocessing yang dilakukan dalam penelitian ini adalah sebagai berikut.

3.3.1 Seleksi Data

Proses seleksi data merupakan proses memilih atribut yang relevan dengan penelitian. Pada tahap ini, akan dilakukan analisis korelasi untuk analisis atribut. Atribut data akan dicek apakah relevan dilakukan penambangan data, atribut yang tidak relevan tidak akan digunakan. Pada proses seleksi dilakukan menggunakan aplikasi Weka. Hasil peringkat atribut menggunakan aplikasi Weka dapat dilihat pada gambar di bawah ini.

Gambar 3.2 Hasil Peringkat Atribut

(44)

Pada tahap ini seleksi data dilakukan terhadap data penelitian dari 12 atribut menjadi 4 atribut. Hasil seleksi data yang menghasilkan 4 atribut dapat dilihat pada tabel berikut.

Tabel 3.2 Hasil Seleksi Atribut

Rank Nomor Kolom Atribut

0.4234 11 Omset

0.2839 10 Aset

0.2704 9 Jumlah Karyawan

0.2220 12 Tahun Berdiri

3.3.2 Pembersihan Data

Proses pembersihan data bertujuan untuk menghilangkan noise, data yang tidak konsisten dan missing value. Untuk mengatasi missing value, penulis melakukan 2 variasi pembersihan data yaitu dengan melakukan imputasi K-Nearest Neighbor (KNN) dan data cleaning.

Penggunaan 2 variasi pembersihan data dalam penelitian ini bertujuan untuk membandingkan akurasi yang dihasilkan pada masing-masing variasi data. Contoh data dengan missing value dapat dilihat pada tabel berikut.

Tabel 3.3 Contoh Data Missing Value Jumlah

Karyawan

Aset Omset Tahun

Berdiri

Kriteria

2 - - 2009 -

3 - 100000000 2002 Mikro

2 50000000 80000000 2000 Mikro

5 75000000 300000000 1996 Kecil

8 40000000 800000000 1992 Mikro

2 35000000 1260000000 1956 Mikro

(45)

a. Imputasi KNN

Pada tahap ini dilakukan imputasi missing value menggunakan metode K-Nearest Neighbor (KNN). Jumlah data dari tahap seleksi sebanyak 5219 record dilakukan pembersihan data pada label yang tidak diketahui dan setiap record yang memiliki lebih dari 1 missing value. Contoh data sebelum imputasi KNN dari data pada tabel 3.3 dapat dilihat pada tabel berikut.

Tabel 3.4 Contoh Data Sebelum Imputasi KNN Jumlah

Karyawan

Aset Omset Tahun

Berdiri

Kriteria

3 - 100000000 2002 Mikro

2 50000000 80000000 2000 Mikro

5 75000000 300000000 1996 Kecil

8 40000000 800000000 1992 Mikro

2 35000000 1260000000 1956 Mikro

Jumlah data yang didapatkan sebanyak 3738 record, kemudian dilakukan imputasi KNN. Jumlah k terdekat yang digunakan imputasi adalah 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20. Contoh perhitungan dilakukan dengan menggunakan data pada tabel 3.4 di atas, kemudian akan dilakukan perhitungan jarak euclidean menggunakan fungsi pdist2.

Fungsi pdist2 merupakan salah satu fungsi pada MATLAB yang berguna untuk menghitung jarak antara dua set observasi.

Penggunaan fungsi pdist2 ini digunakan untuk menghitungkan jarak euclidean. Nilai default dari argumen masukan jarak pdist2 adalah euclidean. Contoh penggunaan fungsi jarak pdist2 dapat dilihat pada gambar berikut.

(46)

Gambar 3.3 Fungsi Jarak pdist2

Misalkan dihitung jarak euclidean observasi missing data 1 dengan data 2 yang tidak memiliki missing data menggunakan data pada tabel, maka perhitungannya sebagai berikut.

Jarak euclidean missing data 1 dan data 2 =

√(3 − 2)²+ (100000000 − 80000000)²+ (20002 − 2000)²

= 20000000

Selanjutnya perhitungan euclidean missing data 1 dilakukan sebanyak data. Hasil perhitungan jarak euclidean sebanyak data dapat dilihat pada tabel di bawah ini.

Tabel 3.5 Perhitungan Euclidean Missing Data 1

Data ke - Jarak euclidean

2 20000000

3 200000000

4 700000000

5 1160000000

Setelah perhitungan jarak tersebut selesai, langkah selanjutnya yaitu mengurutkan hasil perhitungan jarak tersebut dari yang terkecil.

Pengurutan data tersebut dilakukan berdasarkan nilai k yang digunakan. Selanjutnya dilakukan imputasi missing data dengan menghitung weight mean estimation menggunakan rumus 2.3.

Contoh perhitungan weight mean estimation pada missing data 1 terhadap data 2 berdasarkan tabel sebagai berikut.

(47)

Perhitungan weight mean estimation missing data 1 dan data 2 = (1/ (√(3 − 2)²+ (100000000 − 80000000)²+ (20002 − 2000)²)²) ∗ 50000000

(1/(√(3 − 2)² + (100000000 − 80000000)²+ (20002 − 2000)²)²)

= 50000000

Perhitungan weight mean estimation pada missing data 1 dilakukan sebanyak data. Hasil perhitungan weight mean estimation dapat dilihat pada tabel berikut.

Tabel 3.6 Perhitungan Weight Mean Estimation Missing Data 1

Data ke - weight mean estimation

2 50000000

3 75000000

4 40000000

5 35000000

Setelah perhitungan weight mean estimation selesai. Langkah terakhir yaitu melakukan imputasi berdasarkan nilai k yang digunakan, misalkan nilai k = 1 maka perhitungannya adalah sebagai berikut.

(1/ (√(3 − 2)²+ (100000000 − 80000000)²+ (20002 − 2000)²)²) (1/ (√(3 − 2)²+ (100000000 − 80000000)²+ (20002 − 2000)²)²) ∗ 50000000

= (1.25E − 07)

(2.5E − 15) = 50000000

Misalkan nilai k = 3, maka perhitungannya adalah sebagai berikut.

(1.25E − 07 + 1.875E − 09 + 8.1633E − 11)

(2.5E − 15 + 2.5E − 17 + 2.04E − 18) = 50239248.94

(48)

Tabel 3.7 Contoh Hasil Imputasi Missing Data 1

Imputasi KNN Hasil imputasi

K = 1 50000000

K = 3 50239248.94

b. Data Cleaning

Pada tahap ini dilakukan data cleaning terhadap beberapa atribut yang memiliki missing value. Penggunaan data cleaning dalam penelitian ini bertujuan agar tidak mengubah keaslian pada data yang akan mempengaruhi hasil klasifikasi nantinya. Jumlah data cleaning yang didapatkan dari tahap seleksi sebanyak 2356 record. Contoh hasil data cleaning dari data pada tabel 3.3 dapat dilihat pada tabel berikut.

Tabel 3.8 Contoh Hasil Setelah Data Cleaning Jumlah

Karyawan

Aset Omset Tahun

Berdiri

Kriteria

2 50000000 80000000 2000 Mikro

5 75000000 300000000 1996 Kecil

8 40000000 800000000 1992 Mikro

2 35000000 1260000000 1956 Mikro

(49)

3.3.3 Penanganan Outlier

Proses penanganan outlier bertujuan untuk membuang outlier yang terdapat pada data penelitian. Outlier di deteksi menggunakan boxplot untuk menggambarkan secara grafik dari data numeris melalui lima ukuran (minimum, kuartil pertama, median, kuartil ketiga, dan maksimum).

a. Data Imputasi

Pada tahap ini dilakukan penanganan outlier yang terdapat pada masing-masing data imputasi KNN. Data imputasi sebanyak 20 data, memiliki ukuran boxplot yang sama pada atribut jumlah karyawan dan tahun berdiri. Hasil boxplot pada data imputasi k = 1 dapat dilihat pada tabel berikut.

Tabel 3.9 Boxplot Data Imputasi Jumlah

Karyawan

Aset Omset Tahun

Berdiri

Min 0 0 0 1940

Q1 0 3000000 8000000 1995

Q2 2 4000000 25000000 2000

Q3 3 20000000 1E+08 2005

Max 50 7.24E+09 5.4E+09 2017

IQR 3 17000000 92000000 10

Outlier

bawah -4.5 -2.3E+07 -1.3E+08 1980

Outlier

atas 7.5 45500000 2.38E+08 2020

(50)

Berdasarkan tabel boxplot di atas, diperoleh hasil deteksi outlier yang terdapat pada data penelitian. Secara filosofi seharusnya outlier tetap dipertahankan jika outlier tersebut merupakan representasi dari populasi yang di teliti. Namun outlier harus di hapus, jika outlier memang tidak menggambarkan observasi dari populasi (Ghozali, 2006).

Berdasarkan pernyataan tersebut, outlier yang telah terdeteksi akan dihapus dari data penelitian. Namun pada penelitian ini, penulis hanya akan menghapus outlier yang terdapat pada atribut jumlah karyawan dan atribut tahun berdiri. Sedangkan pada atribut aset dan omset akan dipertahankan karena merupakan representasi dari populasi dan jika di hapus akan mengubah label klasifikasi. Grafik boxplot pada masing-masing atribut dapat dilihat pada gambar di bawah ini.

Gambar 3.4 Boxplot Data Imputasi Atribut Jumlah Karyawan

(51)

Gambar 3.5 Boxplot Data Imputasi Atribut Aset

Gambar 3.6 Boxplot Data Imputasi Atribut Omset

(52)

Gambar 3.7 Boxplot Data Imputasi Atribut Tahun Berdiri

Berdasarkan grafik boxplot pada masing-masing atribut di atas dapat dilihat distribusi data tidak simetris, karena median tidak berada di tengah, garis whisker lebih panjang dari yang lainnya dan terdapat outlier. Namun boxplot dari atribut tahun berdiri memiliki data yang simetris, karena median terletak di tengah dan garis whisker seimbang.

(53)

b. Data Cleaning

Pada tahap ini dilakukan penanganan outlier yang terdapat pada data cleaning. Hasil boxplot pada data cleaning dapat dilihat pada tabel berikut.

Tabel 3.10 Boxplot Data Cleaning Jumlah

Karyawan

Aset Omset Tahun

Berdiri

Min 0 0 0 1940

Q1 0 3000000 4200000 1994

Q2 1 4000000 12000000 1999

Q3 3 16000000 72000000 2004

Max 50 7.24E+09 5.4E+09 2017

IQR 3 13000000 67800000 10

Outlier

bawah -4.5 -1.7E+07 -9.8E+07 1979

Outlier

atas 7.5 35500000 1.74E+08 2019

Berdasarkan tabel boxplot di atas, diperoleh hasil deteksi outlier yang terdapat pada data penelitian. Outlier yang telah terdeteksi akan dihapus dari data penelitian. Namun pada penelitian ini, penulis hanya akan menghapus outlier yang terdapat pada atribut jumlah karyawan dan atribut tahun berdiri. Sedangkan pada atribut aset dan omset akan dipertahankan karena merupakan representasi dari populasi dan jika di hapus akan mengubah label klasifikasi.

Grafik boxplot pada masing-masing atribut dapat dilihat pada gambar di bawah ini.

(54)

Gambar 3.8 Boxplot Data Cleaning Atribut Jumlah Karyawan

Gambar 3.9 Boxplot Data Cleaning Atribut Aset

(55)

Gambar 3.10 Boxplot Data Cleaning Atribut Omset

Gambar 3.11 Boxplot Data Cleaning Atribut Tahun Berdiri

Berdasarkan grafik boxplot pada masing-masing atribut di atas dapat dilihat distribusi data tidak simetris, karena median tidak berada di tengah, garis whisker lebih panjang dari yang lainnya dan terdapat outlier. Namun boxplot dari atribut tahun berdiri memiliki

(56)

data yang simetris, karena median terletak di tengah dan garis whisker seimbang. Jumlah data setelah penanganan outlier pada masing-masing data imputasi dan data cleaning dapat dilihat pada tabel berikut.

Tabel 3.11 Jumlah Data Setelah Penanganan Outlier

Data Jumlah

Imputasi K = 1 3292 Imputasi K = 2 3291 Imputasi K = 3 3297 Imputasi K = 4 3297 Imputasi K = 5 3296 Imputasi K = 6 3298 Imputasi K = 7 3301 Imputasi K = 8 3301 Imputasi K = 9 3301 Imputasi K = 10 3300 Imputasi K = 11 3300 Imputasi K = 12 3300 Imputasi K = 13 3300 Imputasi K = 14 3300 Imputasi K = 15 3300 Imputasi K = 16 3300 Imputasi K = 17 3300 Imputasi K = 18 3300 Imputasi K = 19 3300 Imputasi K = 20 3300

Data cleaning 2123

(57)

3.3.4 Penyeimbangan Data

Data yang digunakan dalam penelitian ini merupakan data yang tidak seimbang maka dilakukan penyeimbangan data. Penyeimbangan data dalam penelitian ini menggunakan salah satu metode oversampling yaitu Synthetic Minority Oversampling Technique (SMOTE). SMOTE merupakan teknik yang diajukan untuk mengatasi ketidakseimbangan kelas pada suatu data. SMOTE adalah pendekatan baru dengan cara kerja menggunakan pendekatan oversampling pada kelas minoritas dengan membuat sampel sintesis (Chawla, 2002).

Pada penelitian ini proses penyeimbangan data menggunakan tools SMOTE yang terdapat di aplikasi Weka. Pada penyeimbangan data ini dilakukan pengacakan data untuk mempertimbangkan keseimbangan kelas data pada masing-masing model. Pengacakan data dilakukan menggunakan fungsi randperm. Fungsi randperm merupakan salah satu fungsi pada MATLAB yang berguna untuk melakukan permutasi acak.

Penggunaan fungsi randperm ini digunakan untuk mengacak data setelah melalui proses penyeimbangan data. Contoh penggunaan fungsi randperm dapat dilihat pada gambar berikut.

Gambar 3.12 Fungsi randperm

Berdasarkan gambar di atas, fungsi randperm digunakan untuk melakukan pengacakan pada setiap baris dari data num. Hasil dari pengacakan data tersebut selanjutnya akan melalui tahap transformasi data. Contoh penyeimbangan data yang dilakukan pada penelitian ini adalah sebagai berikut.

a. Data Imputasi

Pada tahap ini dilakukan penyeimbangan data pada data imputasi. Grafik data imputasi k = 1 sebelum dilakukan proses penyeimbangan data dapat dilihat pada gambar berikut.