1
IMPLEMENTASI ALGORITMA ID3 (ITERATIVE DICOTOMIZER THREE) UNTUK KLASIFIKASI BANTUAN USAHA MIKRO KECIL MENENGAH
(UMKM) JASA TELEMATIKA INDONESIA
Mira Ridwanah, Eneng Tita Tosida, S.Tp., M.Si, Mulyati, M.Kom Email : [email protected]
Program Studi Ilmu Komputer FMIPA Universitas Pakuan
Abstrak
Meningkatnya Usaha Mikro Kecil Menengah (UMKM) jasa telematika adalah potensi yang harus didukung untuk memiliki nilai kompetitif, terutama dalam menghadapi Masyarakat Ekonomi ASEAN (MEA). Tapi ada banyak kesulitan dalam menentukan keputusan untuk memberikan bantuan kepada UMKM yang benar-benar membutuhkan. Proses Klasifikasi kelayakan bantuan bagi Usaha Mikro Kecil Menengah (UMKM) Jasa Telematika Indonesia tidak didukung oleh label kelayakan, tanpa penentuan atribut prioritas, dan terdiri dari data campuran numerik - kategorik. Hal ini mengakibatkan proses penilaian berjalan lebih lambat dan kurang akurat. Tujuan dari penelitian ini adalah untuk mengembangkan model data mining kelayakan bantuan bagi UMKM jasa telematika Indonesia, melalui pemanfaatan data Sensus Ekonomi Nasional (Susenas). Uji validasi sistem menggunakan confusion matrix. Hasil dari data menggunakan 3 skenario berbeda. Skenario 21 atribut mendapat akurasi 99%, skenario 10 atribut mendapat akurasi 82% dan skenario dengan 4 atribut 58%. Dari skenario tersebut dapat disimpulkan bahwa skenario dengan 21 atribut yang paling baik tingkat akurasinya yaitu 99% tetapi memiliki kaidah yang terlalu banyak. Hasil menyebutkan bahwa sistem tidak mampu menampilkan kaidah yang terlalu banyak. Maka harus disederhanakan dengan seleksi atribut dan dipilihlah skenario 4 atribut karena skenario tersebut memiliki kaidah yang cukup ringan untuk di implementasikan kedalam sistem.
Kata Kunci : Klasifikasi, Data mining, ID3(Iterative Dicotomizer Three), UMKM Pendahuluan
Telematika menjadi hal yang utama dalam tumbuhnya pembangunan dan ekonomi Indonesia saat ini. Meningkatnya Usaha Mikro Kecil Menengah (UMKM) telematika adalah potensi yang harus didukung untuk memiliki nilai kompetitif, terutama dalam menghadapi Masyarakat Ekonomi ASEAN (MEA). Tapi ada banyak kesulitan dalam menentukan keputusan untuk memberikan bantuan kepada UMKM yang benar-benar membutuhkan. Salah satu penyebabnya adalah banyaknya data serta standar kualifikasi untuk memutuskan kelayakan UMKM tersebut untuk diberikan bantuan (Tosida et al. 2015) .
Penelitian terdahulu dilakukan oleh Tosida et al (2015). Penelitian tersebut mengembangkan visualisasi data UMKM tiap daerah oleh karena itu sistem ini perlu dikembangkan untuk menunjang pemilihan dalam pemberian bantuan pada UMKM jasa telematika. Hardiani (2015) melakukan clustering usaha kecil menengah jasa telematika Indonesia sesuai dengan data Sensus Nasional Badan Pusat Statistik tahun 2006 yang tersebar di seluruh wilayah di Indonesia, kedua penelitian tersebut masih belum bisa melakukan klasifikasi sehingga perlu untuk di kembangkan agar bisa menjadi model klasifikasi penerimaan bantuan pada UMKM jasa telematika.
2 Penelitian ini sudah menggunakan data yang telah melalui tahap praproses data sehingga data tersebut sudah bisa langsung di uji coba dengan algoritma yang akan digunakan. Model penilaian kelayakan bantuan UMKM jasa telematika ini memiliki karakter yang sama seperti yang sudah dilakukan Sucipto (2015) dengan penelitian penerapan data mining untuk memprediksi kriteria nasabah kredit menggunakan algoritma ID3 dan Adhatrao et al (2013) memprediksi penentuan kelulusan dengan algoritma yang sama.
Pengembangan dari penelitian tersebut dilakukan dengan cara menentukan atribut
class dan menerapkan data tersebut
kedalam model klasifikasi menggunakan
algoritma ID3 (Iterative Dicotomizer
Three) untuk membuat kaidah aturan
kelayakan bantuan UMKM jasa telematika dan dalam pembuatan web penelitian ini menggunakkan framework Yii.
Metode Penelitian
Metode yang diterapkan pada klasifikasi ini menggunakan tahapan data mining atau disebut juga Knowledge
Discovery and Data Mining (KDD) (Han et al. 2012). Sebagai suatu rangkaian
proses, data mining dapat dibagi menjadi beberapa tahap yang ditunjukan di Gambar 1. Tahap-tahap tersebut bersifat interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.
Knowledge Data Data Data Warehouse 40 60 90 70 30 Cleaning and Integration Selection and Transformation Data Mining Evaluation and Presentation Pattern Flat Files DataBase
Gambar 1. Tahap-Tahap Data Mining 1. Cleaning and Integration Data
Pembersihan data atau cleaning data merupakan proses menghilangkan
noise dan data yang tidak konsisten atau
data tidak relevan. Serta Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal
dari satu database tetapi juga berasal dari beberapa database atau file teks (Tosida et al 2015).
2. Selection and Transformation Data Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Serta transformasi data adalah
3 Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Untuk penelitian ini menggunakan metode entropy-based
dalam melakukan seleksi data tersebut 3. Proses Mining
Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. Untuk proses mining dari data penelitian ini menggunakan algoritma ID3 untuk menentukan keputusan kelayakan menerima bantuan.
4. Evaluasi Pola (Pattern Evaluation) Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. Evaluasi dari penelitian ini menggunakan confusion
matrix.
5. Presentasi Pengetahuan (Knowledge Presentation)
Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak
memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, hasil berupa grafik yang bermakna decision tree yang berisi beberapa kaidah atau rule
diimplementasikan dalam bentuk sistem berbasis web.
Pembersihan dan Integrasi Data Data sistem dari data set usaha jasa telematika diperoleh dari Susenas tahun 2006 terdiri dari 8798 UMKM jasa telematika dengan atribut sebanyak 21 atribut dan semuanya memiliki nilai kategorik.
Data untuk klasifikasi ini telah mengalami tahapan praproses data mining seperti pembersihan dan intregasi data telah dilakukan pada penelitian sebelumnya yaitu oleh Tosida et al. (2015).
Seleksi dan Transformasi Data Agar data lebih ringkas dan efektif dilakukan seleksi data atau atribut. Serta untuk proses transformasi data ini telah dilakukan oleh Tosida et al. (2015). Atribut ini diseleksi dengan metode filter
Entropy-Based yaitu menseleksi Atribut
yang memiliki nilai penting dalam proses mining ini menggunakan persamaan (1)
( ) ∑
4
flowchart untuk algoritma ID3. Ditunjukan pada Gambar 3.
START
MASUKKAN DATA TRAINING
HITUNG ENTROPY, DAN INFORMATION GAIN,
DARI TIAP ATRIBUT
BUAT SIMPUL AKAR BERDASARKAN NILAI GAIN RATIO TERBESAR
HITUNG ENTROPY, DAN INFORMATION GAIN DARI TIAP ATRIBUT UNTUK MEMBENTUK CABANG DARI SIMPUL
AKAR
SEMUA ATRIBUT SUDAH MASUK KEDALAM POHON ?
GENERATE RULE / ATURAN KEPUTUSAN END TIDAK YA
Gambar 3. Flowchart Algoritma ID3
Flowchart Sistem
Berikut adalah flowchart sistem klasifikasi bantuan UMKM jasa telematika yang ditunjukan pada Gambar 4.
HALAMAN INDEX START 1. Klasifikasi 2.Lihat Rule 3. Data User 4. Lihat Data Tabel 5. Login / Logout 1 2 3 4 5 Input Data UMKM Decision Tree Algoritma ID3 Klasifikasi
Valid ? Menerima Bantuan Tidak Menerima Bantuan DATA BASE UMKM Rule Algoritma ID3 UMKM Admin ? List Data User
Add Edit Delete Search
Admin ?
Add Edit Delete Search List Data Atribut Input Username & Password Valid Status = Admin T Y End Input Keyword Ditemukan Data Ditemukan Input Keyword Ditemukan Data Ditemuka n Y T Y T Y T Y T T Y
5 Hasil Dan Pembahasan
Hasil dari penelitian ini adalah bagaimana membuat model sistem klasifikasi bantuan usaha UMKM jasa telematika dengan menggunakan algoritma ID3 kemudian algoritma tersebut dieksekusi menggunakan aplikasi Rstudio dan menggunankan 80 % data latih dan 20 % data uji dari keselurahan 8798 data, sehingga menghasilkan decision tree untuk menentukan keputusan kelayakan suatu badan usaha untuk menerima bantuan.
Setelah didapatkan output berupa
decision tree, rule atau kaidah dari decision tree tersebut diimplementasikan
menggunakan adobe dreamweaver
kemudian diterapkan dalam framework yii dan database dirancang serta dibuat dalam aplikasi MySQL
Pembahasan 1. Seleksi Atribut
Decision tree yang dihasilkan dari
penelitian ini menghasilkan kaidah yang terlalu besar. Maka dari itu dilakukanlah generalisasi tiap atribut dan memangkas banyak atribut menjadi 10 atribut dengan seleksi fitur entropy-based yaitu dengan cara memilih entropy terbesar dari tiap atribut, berikut susunan peringkat atribut berdasarkan entropy-based menggunakan
software Rstudio dan menggunakan
persamaan (1) ditunjukan pada Tabel 1
Tabel 1. Peringkat Atribut Berdasarkan Nilai Entropy Peringkat Nama Atribut Nilai
Penting
1 Kesulitan 2442,09
2 bentuk_badan_hukum 404,74
3 Penjualan 245,45
4 Kelompok.Usaha 206,17 Semakin besar nilai entropynya
maka atribut tersebut sangat berperan penting dalam sistem klasifikasi ini dan juga perlu dilakukan seleksi atribut agar lebih memangkas decision tree menjadi
lebih ringkas namun mengurangi tingkat akurasi keputusan sekitar 10% hingga 20%. Berikut adalah deskripsi data yang telah di generalisasi dan di seleksi ditunjukan pada Tabel 2.
Tabel 2. Deskripsi data yang telah di seleksi
No Atribut Tipe Rentang Nilai
1. Bentuk badan hukum
K 1. Sendiri 5. Yayasan
2. Firma
3. Ijin Khusus dari instansi terkait 4 Perorangan 2. Kelompok Usaha K
1. Jasa Telekomunikasi 3. Konsultasi Software 2. Konsultasi Hardware 4. Lainnya 3. Penjualan K 1. Mikro 3. Menengah 2. Kecil
4. Kesulitan K 1 pemasaran 3. permodalan
6 2. Proses Mining
Proses mining data UMKM jasa telematika ini menggunakan algoritma ID3 dalam menentukan kelayakan badan usaha untuk menerima bantuan. Berikut ini adalah beberapa hasil percobaan dari
penelitian ini dengan menggunakan 3 skenario berbeda agar dapat diketahui tingkat akurasi dan banyaknya kaidah yang tercipta. Berikut ditunjukan pada Gambar 5, dan 6.
Gambar 5. Chart Nilai Akurasi Data Uji Dari 3 Skenario Dan berdasarkan gambar 5
dipilihlah skenario dengan 4 atribut karena skenario tersebut memiliki kaidah yang ringan untuk diimplementasikan
kedalam sistem, tetapi akurasi yang didapat berkurang menjadi 58% pada data latih. Maka dipilihlah atribut tersebut dalam penelitian kali ini.
Gambar 6. Chart Akurasi Data Uji Dari 3 Skenario 58%
82%
99%
4 10 21 (Tetap)
Atribut
Nilai Akurasi Data Latih dari 3 Skenario
akurasi
63%
26% 24%
4 10 21
Atribut
Nilai Akurasi Data Uji dari 3 Skenario
7 Bersarkan gambar 6 dapat disimpulkan bahwa skenario dengan 4 atribut adalah yang paling baik tingkat akurasinya yaitu 63% pada data uji dan memiliki kaidah yang paling banyak. Namun dikarenakan keterbatasan sistem dalam mengolah kaidah yang terlalu
banyak sehingga kaidah nya tidak muncul maka harus disederhanakan dengan seleksi atribut.
3. Evaluasi Pola
Dalam evaluasi pola klasifikasi ini menggunakan metode confusion matrix dengan menggunakan persamaan (3) sebagai berikut.
1. Confusion Matrix Data Latih
Tabel 3. Hasil Summary Data Latih Menggunakan Aplikasi Rstudio.
Klasifikasi a b Tidak menerima bantuan True Positive (TP) 1786 False Positive (FP) 1745 Menarima bantuan False Negative (FN) 1177 True Negative (TN) 2329
Dari Tabel 3 Diketahui : a. True Positive (TP) = 1786 b. True Negative (TN) = 2329 c. False Positive (FP) = 1745 d. False Negative (FN) = 2329 e. Jumlah Data = 7098
Dari perhitungan diatas didapat tingkat akurasi kaidah yang dimiliki oleh klasifikasi ini adalah sesuai dengan data latih yang dimasukkan.
2. Confusion Matrix Data Uji
Tabel 4. Hasil Summary Data Uji Menggunakan Aplikasi Rstudio.
Klasifikasi a b Tidak menerima bantuan True Positive (TP) 0 False Positive (FP) 0 Menarima bantuan False Negative (FN) 1123 True Negative (TN) 638
8 Dari Tabel 4 Diketahui :
f. True Positive (TP) = 0 g. True Negative (TN) = 1123 h. False Positive (FP) = 0 i. False Negative (FN) = 638 j. Jumlah Data = 1761 Dari perhitungan diatas didapat
tingkat akurasi klasifikasi ini adalah % menggunakan data uji yang dimasukkan kedalam klasifikasi tersebut.
4. Presentasi Pengetahuan
Berikut adalah visualisasi decision
tree dari skenario yang dipilih
sebelumnya yaitu menggunakan seleksi 4 atribut dengan seleksi fitur
entropy-based. Di tunjukan pada gambar 7.
BENTUK BADAN HUKUM KELOMPOK USAHA KESULITAN PENJUALAN LAINNYA Firma MIKRO KECIL MENENGAH TIDAK MENERIMA BANTUAN KECIL TIDAK MENERIMA BANTUAN MENENGAH JASA TELEKOMUNIKASI, LAINNYA MENERIMA BANTUAN KONSULTASI SOFTWARE TIDAK MENERIMA BANTUAN MIKRO KELOMPOK USAHA JASA TELEKOMUNIKASI, KONSULTAN HADWARE KONSULTAN SOFWARE LAINNYA TIDAK MENERIMA BANTUAN PERORANGAN PENJUALAN KECIL JASA TELEKOMUNIKASI, KONSULTAN HADWARE LAINNYA KELOMPOK USAHA TIDAK MENERIMA BANTUAN KONSULTASI SOFTWARE MENERIMA BANTUAN MENENGAH KELOMPOK USAHA KONSULTAN HADWARE KONSULTAN SOFWARE LAINNYA TIDAK MENERIMA BANTUAN JASA TELEKOMUNIKASI MENERIMA BANTUAN KECIL MENENGAH MENERIMA BANTUAN MIKRO TIDAK MENERIMA BANTUAN KECIL MIKRO Firma MENERIMA BANTUAN IJIN KHUSUS, PERORANGAN, SENDIRI TIDAK MENERIMA BANTUAN
Gambar 7. Decision Tree Menggunakan 4 atribut dengan seleksi Atribut Gambar 7 menunjukkan bahwa
bantuan akan diberikan kepada UMKM yang telah mengikuti kelompok usaha. Kondisi ini sesuai dengan Kemenkop UKM yang menyatakan bahwa bantuan akan diberikan kepada UMKM yang telah melakukan kelommpok usaha yang diselenggarakan oleh Kemenkop UKM tersebut.
UMKM yang tidak mengikuti kelommpok usaha akan diproses kembali berdasarkan jasa telekomunikasi. Jika UMKM tersebut memiliki jasa telekomunikasi maka akan diberikan
bantuan, jika tidak maka UMKM tersebut diproses lagi berdasarkan rencana usahanya dan seterusnya. Decision tree tersebut kemudian diimplementasikan kedalam sistem berbasis web.
Kesimpulan
Implementasi algoritma ID3 untuk klasifikasi bantuan UMKM jasa telematika indonesia telah berhasil di rancang dan di bangun. Implementasi sistem ini menggunakan software RStudio untuk membangun algoritma
9 untuk membangun halaman web dengan bahasa pemrograman PHP yang tersimpan dalam framework Yii. Framework yii itu sendiri memiliki
kelebihan yaitu proses perancangannya cepat dan mudah, kemudian untuk desain menggunakan Bootstrap Template agar tampilan web menjadi responsive, serta perancangan database menggunakan
MySQL. Tahap penelitian dimulai dengan
analisis sistem yaitu melihat deskripsi data yang akan dijadikan data latih, perancangan basis data dilakukan dengan ERD (Entity Relationship Diagram) dan DFD (Data Flow Diagram). Basis model menjelaskan tentang alur dari algoritma ID3. Uji validasi sistem menggunakan
confusion matrix.
Jumlah keseluruhan data yang digunakan adalah 8798 data. Dan 2 kelas output (mendapat bantuan dan tidak mendapat bantuan). Data dibagi 2 yaitu 80% sebagai data latih dan 20% sebagai data uji. Hasil dari data menggunakan 3 skenario berbeda. Skenario 21 atribut mendapat akurasi 99% , skenario 10 atribut mendapat akurasi 82% dan skenario dengan 4 atribut 58%. Dari skenario tersebut dapat disimpulkan bahwa skenario dengan 21 atribut yang paling baik tingkat akurasinya yaitu 99% tetapi memiliki kaidah yang terlalu banyak. Hasil menyebutkan bahwa sistem tidak mampu menampilkan kaidah yang terlalu banyak. Maka harus disederhanakan dengan seleksi atribut dan dipilihlah skenario 4 atribut karena skenario tersebut memiliki kaidah yang cukup ringan untuk di implementasikan kedalam sistem.
Sistem ini memiliki kegunaan sebagai klasifikasi kelayakan UMKM menerima bantuan menggunakan kaidah atau aturan yang telah dibuat serta menyimpan data klasifikasi beserta keputusannya.
Daftar Pustaka
Adhatrao, et al. 2013. Predicting
Students’ Performance Using ID3 and C4.5, Classification Algorithms memiliki tujuan untuk
membuat aplikasi penentuan kelulusan siswa berdasarkan skor.Universitas Lampung, Lampung
Hardiani, 2015. Implementasi Self Organizing Maps (SOM) untuk ClusteringUsaha Jasa Telematika
Indonesia Menggunakan Matlab. Skripsi. Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Pakuan, Bogor.
Han J, Kamber M, Pei J. 2012. Data
Mining : Concepts and
Techniques. Third Edition.
Morgan Kaufmann is an imprint
of Elsevier, 225Wyman
Street,Waltham, MA 02451, USA
Sucipto, A. 2015. Prediksi Kredit Macet Melalui Perilaku Nasabah Pada Koperasi Simpan Pinjam Dengan Menggunakan Metode Algoritma Klasifikasi ID3. Fakultas Sains dan Teknologi, Universitas Islam Nahdlatul Ulama, Jepara
Tosida, E. T. 2015. Pengembangan Model Data Mining Kelayakan Bantuan Usaha Bagi Usaha Mikro Kecil Menengah Jasa Telematika Indonesia. Tesis. Sekolah Pascasarjana Institut Pertanian Bogor, Bogor.
Tosida, et al. 2015. Visualization model
of small and medium enterprises
(SMEs) telematics services
potentiality map in Indonesia.
Fakultas Matematika dan Ilmu Pengetahua Alam, Universitas Pakuan, Bogor.