Penerapan Algoritma C4.5 Untuk Klasifikasi Tren Pelanggaran Kendaraan Angkutan Barang dengan Metode CRISP-DM
Novie Hari Purnomo*, Bayu Pamungkas, Christina Juliane Program Studi Sistem Informasi, STMIK LIKMI, Bandung, Indonesia
Email: 1*[email protected], 2[email protected], 3[email protected] Email Penulis Korespondensi: [email protected]
Abstrak−Kerusakan jalan akibat ODOL (Over Dimension Over Loading) meningkatkan anggaran pemeliharaan jalan yang tidak sedikit yaitu rata-rata Rp 43,45 triliun per tahun. Selain itu, banyak terjadi kecelakaan yang melibatkan truk ODOL atau muatan berlebih dan dimensi. Tingkat pelanggaran yang disebabkan oleh kendaraan ODOL masih tinggi, sehingga diperlukan teknologi yang mampu untuk pengelolaan data dan berfungsi sebagai referensi untuk mengetahui pendekatan yang tersembunyi dalam kumpulan data, serta menganalisis pengelompokan antara data dan atribut untuk memudahkan pengambilan keputusan serta membuat kebijakan. Penelitian ini menerapkan metodologi CRISP-DM menggunakan model pohon keputusan dengan algoritma C4.5. Tujuan dari penelitian ini adalah untuk mengklasifikasikan tren pelanggaran angkutan barang berdasarkan data pelanggaran di UPPKB. Data penelitian adalah data primer yang didapat dari Direktorat Prasarana Transportasi Jalan Kementerian Perhubungan melalui sistem jembatan timbang online (JTO). Hasil yang diharapkan dari penelitan ini adalah dapat mengetahui pola klasifikasi tren pelanggaran kendaraan angkutan barang berdasarkan hasil pohon keputusan algoritma C.45, sehingga hasil penelitian dapat menjadikan acuan dalam pengembilan keputusan dan membuat kebijakan. Hasil dari penelitian ini menjunjukkan bahwa performa akurasi pada pengujian data mining klasifikasi tren pelanggaran kendaraan angkutan barang dengan 10 fold cross validation linear sampling menghasilkan akurasi 86.31% +/- 1.23% (micro average:
86.31%), shuffled sampling menghasilkan akurasi 86.34% +/- 0.67% (micro average: 86.34%) dan stratified sampling menghasilkan akurasi 86.34% +/- 0.67% (micro average: 86.34%).
Kata Kunci: Klasifikasi; Decision Tree; CRISP-DM; Data Mining; Over Dimension Over Loading; Algoritma C4.5
Abstract−Road damage due to ODOL (Over Dimension Over Loading) increases the road maintenance budget significantly, namely an average of IDR 43.45 trillion per year. In addition, many accidents involving ODOL trucks or overloading and dimensions have occurred. The level of violations caused by ODOL vehicles is still high, so technology is needed that is able to manage data and serve as a reference to find out the hidden approaches in the data set, as well as analyze the grouping between data and attributes to facilitate decision making and policy making. This study applies the CRISP-DM methodology using a decision tree model with the C4.5 algorithm. The purpose of this research is to classify trends in freight transport violations based on violation data in the UPPKB. The research data is primary data obtained from the Directorate of Road Transportation Infrastructure of the Ministry of Transportation through the online weighbridge system (JTO). The expected result of this research is to be able to find out the pattern of classification trends for freight vehicle disturbances based on the results of the C.45 algorithm decision tree, so that the research results can be used as a reference in making decisions and making policies. The results of this study indicate that the accuracy performance in data mining tests for the classification of trends in freight vehicle disturbances with 10 fold cross validation linear sampling produces an accuracy of 86.31% +/- 1.23%
(micro average: 86.31%), shuffled sampling produces an accuracy of 86.34% +/ - 0.67% (micro average: 86.34%) and stratified sampling produces an accuracy of 86.34% +/- 0.67% (micro average: 86.34%).
Keywords: Classification; Decision Tree; CRISP-DM; Data Mining; Over Dimension Over Loading; C4.5 Algorithm
1. PENDAHULUAN
Pelanggaran ODOL (over loading dan over dimension) sudah menjadi permasalahan yang sangat serius pada angkutan barang di Indonesia. Kondisi ODOL terjadi ketika kendaraan membawa beban melebihi batas beban dan muatan yang ditentukan. Dalam praktiknya, over dimension dan over loading (ODOL) dianggap sangat merugikan pemerintah dan masyarakat[1]. Kerusakan jalan akibat ODOL (Over Dimension Over Loading) meningkatkan anggaran pemeliharaan jalan yang tidak sedikit yaitu rata-rata Rp 43,45 triliun per tahun.Selain itu, banyak terjadi kecelakaan yang melibatkan truk ODOL atau muatan berlebih dan dimensi hingga merenggut nyawa dan kerugian materiil yang tidak sedikit [2].
Pemerintah berniat menerapkan kebijakan Zero Over Dimension and Over Loading (Zero ODOL) mulai 1 Januari 2023. Artinya, kendaraan ODOL tidak lagi diperbolehkan melintas. Pada saat yang sama, muncul berbagai reaksi terhadap kebijakan Para sopir truk merasa kebijakan zero ODOL tidak peduli dengan nasib para sopir truk yang tercekik biaya pengiriman barang. Dalam keadaan seperti itu, mereka harus menggunakan truk ODOL untuk menutupi biaya operasional yang sangat tinggi. Misalnya, harga suku cadang naik, biaya hidup lebih tinggi dan biaya tidak jelas di jalan, atau ketika permintaan kebutuhan barang meningkat tetapi biaya pengiriman barang tidak meningkat [3]. Unit Pelaksana Penimbangan Kendaraan Bermotor (UPPKB) adalah unit kerja di bawah bawah Kementerian Perhubungan yang menangani pengendalian muatan dengan fasilitas penimbangan permanen di setiap lokasi. UPPKB memiliki fungsi untuk melakukan pengawasan, penindakan, dan pencatatan untuk meningkatan keselamatan pengguna jalan dan menjaga kondisi infrastruktur jalan. Pengawasan adalah kegiatan yang dilakukan oleh UPPKB terhadap mobil barang dijalan meliputi daya angkut, tata cara muat, dimensi kendaraan, dan kelas jalan [4]. Karena pelanggaran angkuta barang masih tinggi, maka teknologi informasi diperlukan untuk mengelola data, menjadikan data sebagai tolok ukur untuk membaca dan mengetahui pendekatan
tersembunyi dari kumpulan data dan menganalisis pengelompokan data dan atribut untuk memfasilitasi pengambilan keputusan serta membuat kebijakan.
Data Mining adalah proses mencari pola atau informasi dalam kumpulan data terpilih dengan menggunakan teknik atau metode tertentu. Data mining dapat dibagi menjadi lima bagian sesuai tugas utamanya yaitu estimasi, prediksi, klasifikasi, clustering, dan asosiasi [5]. Teknik pengolahan data mining yang umum digunakan yaitu klasifikasi. Klasifikasi adalah salah satu proses pada data mining yang bertujuan untuk menemukan pola yang berharga didalam data yang berukuran relatif besar hingga sangat besar. Algoritma data mining C4.5 merupakan salah satu algoritma yang digunakan untuk melakukan klasifikasi, segmentasi atau pengelompokan dan bersifat prediktif. Algortima C4.5 sendiri merupakan pengembangan lebih lanjut dari algortima ID3 [6]. Keunggulan algoritma C4.5 adalah dapat menghasilkan pohon keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang dapat diterima, menangani atribut diskrit secara efisien, dan dapat menangani atribut numerik [7].
Ada berbagai jenis model pohon keputusan seperti CART, C4.5, ID3 dan ada banyak algoritma lainnya [8].
Metode data mining yang dapat diterapkan pada tahap penelitian ini adalah CRISP-DM. Banyak model proses dan upaya telah dilakukan untuk membakukan proses penambangan data, termasuk pendekatan CRISP- DM [8][9]. CRISP-DM (Cross Industry Standard Process for Data Mining) adalah suatu standarisasi pemrosesan data mining yang dirancang agar data yang ada melewati setiap langkah terstruktur dan terdefinisi dengan baik dan efisien [8]. CRISP-DM bukan satu-satunya standar untuk data mining, tetapi ini adalah yang paling populer saat ini. Berdasarkan hasil survei datascience-pm, CRISP-DM digunakan 2-3 kali lebih sering dari empat standar yang paling umum digunakan [10]. Tools rapid miner yang merupakan perangakat lunak yang bersifat terbuka (open source) yang digunakan untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi.
RapidMiner adalah perangkat lunak analisis data mandiri dan mesin data mining yang dapat diintegrasikan ke dalam produk sendiri. RapidMiner menggunakan berbagai teknik deskriptif dan prediktif untuk memberikan wawasan kepada pengguna sehingga mereka dapat membuat keputusan terbaik. RapidMiner memiliki sekitar 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi. RapidMiner ditulis dalam bahasa pemrograman java dan dapat bekerja dengan semua sistem operasi [11].
Penelitian sebelumnya penerapan algoritma C4.5 untuk data mining sudah banyak dilakukan, yaitu pada penelitian Data Mining Algorithm C4.5 Classification Determination Credit Eligibility For Jaya Bersama Cooperatives (Korjabe) 2021 dengan menghasilkan akurasi 98,33% [12]. Pada penelitian Penerapan Algoritma C4.5 untuk Penentuan Ketersediaan Barang E-commerce 2018 menghasilkan akurasi 98% dari 5000 sampel data dan 23 atribut [13]. Penelitian berikutnya adalah Penerapan Klasifikasi C4.5 Dalam Meningkatkan Sistem Pembelajaran Mahasiswa 2019 menghasilkan akurasi 95% [14]. Penelitian Penerapan Algoritma C4.5 Untuk Klasifikasi Pola Kepuasan Pelayanan E-Ktp Di Kantor Camat Pematang Bandar 2022 menghasilkan tingkat akurasi sebesar 95,24% [15]. Penelitian lain yaitu Penerapan Algoritma C4.5 Untuk Klasifikasi Keberhasilan Pengiriman Barang menghasilkan nilai akurasi 93% dengan 100 data training [16].
Pada penelitian ini, algoritma C4.5 diterapkan untuk klasifikasi tren pelanggaran kendaraan angkutan barang dengan metode CRISP-DM. Data penelitian adalah data primer yang didapat dari Direktorat Prasarana Transportasi Jalan Kementerian Perhubungan. Hasil yang diharapkan dari penelitian ini adalah mampu menemukan pola dan faktor-faktor yang berpengaruh pada pelanggaran kendaraan angkutan barang berdasarkan hasil pohon keputusan algoritma C.45 pada klasifikasi tren pelanggaran kendaraan angkutan barang, sehingga hasil penelitian dapat menjadikan acuan dalam pengembilan keputusan dan membuat kebijakan.
2. METODOLOGI PENELITIAN
2.1 Tahapan Penelitian
Tahapan penelitian merupakan rangkaian kegiatan-kegiatan dari jalannya penelitian ini. Pada gambar 1 berikut ini merupakan bagan tahapan penelitian ini mulai dari studi literatur, identifikasi masalah dan tujuan penelitian, penerapan metode, pengujian dan hasil serta membuat kesimpulan.
Gambar 1. Tahapan Penelitian
2.2 Identifikasi Masalah dan Tujuan Penelitian
Tahapan awal pada penelitian ini adalah mengidentifikasi masalah yang ada sehingga dapat dilakukan analisis awal untuk menentukan tujuan penelitian.
2.3 Studi Pustaka
Studi kepustakaan bertujuan untuk mencari informasi dari penelitian-penelitian serupa sebelumnya dan untuk memperoleh teori-teori yang diperlukan dalam penelitian ini sehingga dapat membentuk kerangka berpikir agar penelitian ini menjadi logis dan terarah.
2.4 Penerapan Metode
Penelitian ini menggunakan metodologi CRISP-DM sebagai pemecah masalah umum untuk bisnis dan penelitian.
Metode ini terdiri dari enam langkah yaitu yaitu Business Understanding, Data Understanding, Data Preparation, Modelling, Evaluation, dan Deployment.
a. Business Understanding (Pemahaman Bisnis)
Tahapan ini merupakan tahap memahami proses bisnis dengan tujuan mendapatkan pengetahuan yang dapat didefinisikan pada data mining dan membentuk strategi untuk mencapai tujuan. Penelitian ini membutuhkan pengetahuan untuk memberikan informasi guna mendukung proses pengklasifikasian tren pelanggaran kendaraan angkutan barang.
b. Data Understanding (Pemahaman Data)
Merupakan bagian dari aktivitas persiapan melakukan data mining. Diawali dengan mengumpulkan data dan memverifikasi keakuratan dan keandalan data. Sumber data yang digunakan dalam penelitian ini adalah data pelanggaran kendaraan angkutan barang di UPPKB Losarang, Indramayu dan UPPKB Balonggandu, karawang.
c. Data Preparation (Persiapan Data)
Dalam tahapan ini yaitu membangun sebuah dataset yang telah dilakukan pembersihan data, melakukan seleksi data dan melakukan transformasi data untuk dijadikan masukan dalam tahap pemodelan.
d. Modelling (Pemodelan)
Fase pemodelan adalah teknik pemodelan yang diterapkan pada kumpulan data yang dibuat untuk memenuhi kebutuhan bisnis yang signifikan. Teknik pemodelan dalam penelitian ini memakai teknik klasifikasi.
Klasifikasi data mining tren pelanggaran kendaraan angkutan barang menggunakan model pohon keputusan dengan algoritma C4.5. Alat bantu dalam proses pengolahan data yaitu rapid miner versi 10.0 educational edition. Klasifikasi adalah proses mengekstraksi dan memprediksi kelas untuk setiap kumpulan data.
Klasifikasi mencari model yang dapat membedakan kelas data sehingga model tersebut dapat digunakan untuk memprediksi kelas untuk objek yang tidak diketahui kelasnya [17].
Pada proses pengukuran kinerja model atau algoritma menggunakan teknik cross validation dengan pengulangan sebanyak 10 kali (k=10). Dalam cross validation, data dibagi menjadi dua subset yaitu dataset training dan dataset testing. Model cross validation menggunakan validasi k-fold karena dapat mengurangi waktu komputasi [18]. Nilai k adalah jumlah iterasi yang digunakan. 10 fold validation adalah salah satu k- fold validation yang direkomendasikan untuk memilih model terbaik dan memperkirakan akurasi maksimal [19].
Gambar 2. Skema 10 Fold Cross Validation
Dari gambar 2 menunjukkan bahwa, data dibagi menjadi 10 fold dengan ukuran yang sama menjadi 10 subset data. Setiap 10 fold data diambil 9 fold menjadi data training dan 1 fold untuk data testing yang kemudian diulang sebanyak 10 kali. Didalam tools rapid miner algoritma C4.5 menggunakan operators decision tree untuk menghasilkan pohon keputusan. Sebelum melakukan pengujian, data training yang telah dikelompokkan didalam
kelas tertentu harus sudah dipersiapkan. Pohon keputusan akan membentuk akar dari atribut yang dipilih berdasarkan nilai gain yang terbesar. Untuk menghitung gain digunakan rumus sebagai berikut :
Gain (S, A) = Entropy (S) − ∑ |Si|
|S|
ni=1 ∗ Entropy (Si) (1)
Keterangan:
S : Himpunan kasus A : Atribut
n : Jumlah patisi S
Pi : Proporsi dari Si terhadap S
A|Si | : Jumlah kasus pada partisi ke-i
|S| : Jumlah kasus dalam S
Untuk mendapatkan nilai entropy (S) digunakan rumus sebagai berikut :
Entropy (S) = ∑ni=1pi ∗ log2pi (2)
Keterangan:
S : Himpunan kasus A : Atribut
n : Jumlah patisi S
Pi : Proporsi dari Si terhadap S e. Evaluation (Pengujian)
Evaluasi ini menguji model yang dibentuk serta mengevaluasi akurasi dan efisiensinya. Pada fase ini, kami mengukur seberapa baik model yang dipilih memenuhi tujuan perusahaan dan apakah diperlukan model tambahan [20]. Untuk mengevaluasi tingkat performa akurasi dari pola yang dihasilkan algoritma menggunakan confusion matrix. Penghitungan klasifikasi dapat menggunakan rumus sebagai berikut : Accuracy = TP+TN
TP+TN+FP+FN x 100% (3)
Recall = TP
TP+FN x 100% (4)
Precision = TP
TP+FP x 100% (5)
Keterangan:
TP : True Positif TN : True Negatif FP : False Positif FN : False Negatif f. Deployment (Penyebaran)
Pada tahap ini, laporan artikel jurnal tentang pemodelan dan evaluasi proses data mining [20]. Hasil penelitian dapat menginformasikan tren pelanggaran kendaraan angkutan barang untuk mendukung dan menginformasikan pengambilan keputusan.
3. HASIL DAN PEMBAHASAN
3.1 Business Understanding (Pemahaman Bisnis)
Tahap memahami bisnis adalah memahami kegiatan riset data mining yang akan dilakukan. Memahami bisnis dimulai dengan menentukan tujuan penelitian dan menjelaskan masalah yang ditemukan. Ada empat langkah dalam fase ini, yaitu determine business objective (menentukan tujuan bisnis), assess situation (menilai situasi), determine data mining goals (menentukan tujuan penambangan data), dan produce project plan (membuat rencana proyek).
a. Determine Business Objective (Menentukan Tujuan Bisnis)
Penelitian ini bertujuan untuk mengklasifikasikan tren pelanggaran kendaraan angkutan barang dengan menggunakan algoritma C4.5. Hal ini didasari dari masih tingginya angka pelanggaran kendaraan angkutan barang yang dipengaruhi dari jenis pelanggaran tata cara pemuatan, daya angkut, dokumen, dimensi kendaraan, dan kelas jalan.
b. Assess Situation (Menilai Situasi)
Masih tingginya angka pelanggaran kendaraan angkutan barang terhadap kelebihan muatan serta target pemerintah dalam melaksanaan kebijakan zero ODOL per 1 Januari 2023 dianggap oleh kalangan pengemudi tidak memperdulikan nasib sopir truk yang tercekik biaya operasional pengiriman barang yang tinggi.
Berdasarkan data yang kami peroleh dari UPPKB Losarang dan UPPKB Balonggandu pada bulan januari
hingga oktober 2022 tercatat 60.787 kendaraan angkutan barang yang diperiksa dengan jumlah pelanggaran sebesar 21.153 atau 35% yang didominasi oleh pelanggaran daya angkut dan dokumen.
c. Determine Data Mining Goals (Menentukan Tujuan Data Mining)
Tujuan dari penelitian ini adalah menganalisis tren klasifikasi pelanggaran angkutan barang menggunakan algoritma C4.5 dan digunakan untuk mengevaluasi kinerja model. Informasi di proses oleh algoritma C4.5, hasil pengolahan data dapat digunakan oleh Direktorat Prasarana Transportasi Jalan Kementerian Perhubungan untuk mendukung pengambilan keputusan dan membuat kebijakan yang tepat.
d. Produce Project Plan (Menghasilkan Rencana Proyek)
Rencana penelitian meliputi pengumpulan data pelanggaran di UPPKB Losarang dan UPPKB Balonggandu dari bulan januari sampai dengan bulan oktober 2022 dengan atribut yang digunakan adalah uppkb, waktu, status buku uji, jenis kendaraan, lebih muatan, kategori komoditi, kepemilikan, pelanggaran. Dengan atribut yang sudah dilakukan pada tahap preparation (pembersihan data, melakukan seleksi data, dan melakukan transformasi data), kemudian pemodelan menggunakan algoritma C4.5. Cross validation digunakan untuk mengukur validitas model klasifikasi menggunakan tools RapidMiner [17].
3.2 Data Understanding (Pemahaman Data)
Pengumpulan data dilakukan pada fase ini. Data pelanggaran kendaraan angkutan barang berupa tanggal jam, bulan, tahun, masa berlaku uji, nama uppkb, jenis kendaraan, sumbu, JBI, berat timbang, berat lebih, persen lebih, panjang lebih, lebar lebih, tinggi lebih, komoditi, kategori komoditi, kepemilikan dan jenis pelanggaran. Data ini diperoleh dari Direktorat Prasarana Transportasi Jalan Kementerian Perhubungan. Jumlah data adalah 19.396 record dan terdiri dari 19 kolom. Pada gambar 3 berikut ini adalah data pelanggaran kendaraan angkutan barang.
Gambar 3. Data Pelanggaran Kendaraan Angkutan Barang 3.3 Data Preparation (Persiapan Data)
Tahap ini melakukan persiapan data sebelum dilakukan pengolahan data mining. Penyiapan data dilakukan untuk mengubah data mentah menjadi data yang siap digunakan dalam mengklasifikasikan pelanggaran kendaraan angkutan barang. Ada lima langkah yang akan dilakukan pada langkah ini yaitu selection data, cleansing data, construct data, data transformation dan format data.
a. Selection Data
Data yang terkumpul diseleksi berdasarkan sejumlah karakteristik yang diyakini mempengaruhi klasifikasi kecenderungan pelanggaran angkutan barang. Atribut yang dipilih yaitu bulan, nama uppkb, jenis kendaraan, konfig sumbu, kategori komoditi dan pelanggaran.
Tabel 1. Atribut Data Yang Di Pilih
No Atribut Keterangan
1 Tgl Jam Tanggal dan Jam Pemeriksaan
2 Nama UPPKB Unit Pelaksana Penimbangan Kendaraan Bermotor 3 Masa Berlaku Uji Tanggal masa berlaku uji kendaraan saat diperiksa 4 Jenis Kendaraan Jenis Kendaraan Angkutan Barang
5 Prosen Lebih Persentase kelebihan muatan kendaraan
6 Panjang Lebih Kelebihan panjang dimensi kendaraan berdasarkan deteksi sensor dimensi dalam satuan milimeter
7 Lebar Lebih Kelebihan lebar dimensi kendaraan berdasarkan deteksi sensor dimensi dalam satuan milimeter
8 Tinggi Lebih Kelebihan tinggi dimensi kendaraan berdasarkan deteksi sensor dimensi dalam satuan milimeter
No Atribut Keterangan 9 Kategori Komoditi Kategori Muatan Angkutan Barang
10 Pelanggaran Kendaraan Angkutan Barang
11 Kepemilikan Kategori kepemilikan kendaraan yang terdiri dari 2 kategori yaitu perusahaan dan perorangan
Tabel 1 merupakan semua atribut yang sudah dilakukan seleksi data akan di proses menggunakan teknik data mining dengan algoritma C4.5.
b. Cleansing Data
Langkah ini memastikan bahwa data yang digunakan benar-benar berkualitas untuk mendapatkan hasil terbaik saat mengklasifikasikan proses data mining. Tahap ini akan menghapus data missing value yang mengandung duplikasi data, data kosong, data tidak terukur dan data yang tidak dilakukan pengukuran.
Gambar 4. Missing Value Data Pelanggaran Kendaraan Angkutan Barang
Gambar 4 adalah missing value data pelanggaran kendaraan angkutan barang dengan total keseluruhan data sebelum dilakukan cleansing yaitu sebanyak 19.396 record.
Gambar 5. Hasil Cleansing Data Pelanggaran Kendaraan Angkutan Barang
Gambar 5 merupakan data pelanggaran kendaraan angkutan barang yang sudah di lakukan cleansing. Terdapat 3005 record missing value yang telah dihapus sehingga tersisa data 16.390 record.
c. Construct data
Tahap ini merupakan tahap pendahuluan dari pengetahuan konstruktif, yaitu konstruksi turunan atribut yang ada. Terdapat beberapa atribut dihilangkan dan mengganti atribut tersebut dengan atribut baru berdasarkan data dari atribut yang dihilangkan.
Tabel 2. Construct Data
No Atribut Sebelum Atribut Sesudah Keterangan
1 Tanggal Jam Penimbangan
Waktu Jam 05:00 s.d < 12:00 = Pagi Jam 12:00 s.d < 15:00 = Siang Jam 15:00 s.d < 18:00 = Sore
>= 18:00 = Malam
2 Masa Berlaku Uji Status Buku Uji Jika Masa Berlaku Uji <= dari 6 bulan dari tanggal penimbangan maka Status
No Atribut Sebelum Atribut Sesudah Keterangan
Buku Uji Berlaku dan jika > 6 bulan dari tanggal penimbangan maka Status Buku Uji Tidak Berlaku
4 Prosen Lebih Lebih Muatan Kolom Prosen Lebih dikelompokkan menjadi interval 0-5%, 6-20%, 21-40%, 41-60%, 61-80%, 81-100% dan > 100%
Tabel 4 merupakan hasil dari construction data. Class target / label yang digunakan adalah atribut pelanggaran.
Atribut ini tidak dilakukan perubahan dari data aslinya.
d. Transformation
Tujuan dari langkah ini adalah mengubah data yang digunakan dalam transformasi data agar data terbaik dapat dipulihkan dengan mengubah tipe data standar menjadi kategorikal sehingga data tersebut dapat digunakan untuk mengklasifikasikan teknik penambangan data menggunakan algoritma daya C4.5. Pada gambar 6 berikut ini adalah data pelanggaran angkutan barang terdapat beberapa atribut yang di transformasi.
Gambar 6. Hasil transformasi data e. Format data
Langkah terakhir dalam tahap persiapan adalah format data. Pada fase ini, dataset akhir dibuat, siap untuk diproses dengan alat pemodelan data mining. Tabel 3 berikut ini adalah atribut data yang digunakan untuk mengklasifikasikan tren pelanggaran kendaraan angkutan barang.
Tabel 3. Atribut Data Yang Di Pilih
No Atribut Jenis Keterangan
1 UPPKB Binominal Unit Pelaksana Penimbangan Kendaraan Bermotor 2 Waktu Polynominal Waktu penimbangan pagi, siang, sore dan malam 3 Status Buku Uji Binominal Status buku uji berlaku dan tidak berlaku
4 Jenis Kendaraan Polynominal Jenis kendaraan angkutan barang yang melanggar 5 Lebih Muatan Polynominal Interval prosentase kelebihan muatan
6 Kategori Komoditi Polynominal Kategori muatan kendaraan angkutan barang 7 Kepemilikan Binominal Kategori kepemilikan kendaraan angkutan barang 8 Pelanggaran Polynominal Jenis pelanggaran
3.4 Modelling (Pemodelan)
Pengujian dengan Cross Validation 10 Fold menggunakan tools rapid miner melibatkan operator retrieve, cross validation, decision tree, apply model dan performance.
Gambar 7. Pengujian cross validation 10 fold
Pada gambar 7 pengujian cross validation 10 fold diatas, CV Decision Tree adalah cross validation untuk mengukur akurasi model decision tree. Dari pengujian ini menghasilkan pohon keputusan pada gambar 8 sebagai berikut :
Gambar 8. Pohon keputusan hasil pengujian Deskripsi pohon keputusan hasil pengujian adalah sebagai berikut :
Lebih Muatan = 0-5%
| UPPKB = Uppkb Balonggandu: Dokumen {Daya Angkut=14, Dokumen=2315, Dimensi=16}
| UPPKB = Uppkb Losarang
| | Status Buku Uji = Berlaku
| | | Kategori Komoditi = Barang Penting
| | | | Jenis Kendaraan = Mobil Barang Bak Terbuka: Dimensi {Daya Angkut=1, Dokumen=0, Dimensi=5}
| | | | Jenis Kendaraan = Mobil Barang Bak Tertutup: Dokumen {Daya Angkut=0, Dokumen=2, Dimensi=1}
| | | Kategori Komoditi = Barang Pokok: Dokumen {Daya Angkut=0, Dokumen=5, Dimensi=1}
| | | Kategori Komoditi = Lainnya
| | | | Jenis Kendaraan = Mobil Barang Bak Terbuka
| | | | | Waktu = Malam: Dokumen {Daya Angkut=1, Dokumen=101, Dimensi=31}
| | | | | Waktu = Pagi
| | | | | | Kepemilikan = Perseorangan: Dimensi {Daya Angkut=0, Dokumen=33, Dimensi=44}
| | | | | | Kepemilikan = Perusahaan: Dokumen {Daya Angkut=1, Dokumen=16, Dimensi=15}
| | | | | Waktu = Siang: Dimensi {Daya Angkut=0, Dokumen=4, Dimensi=6}
| | | | | Waktu = Sore
| | | | | | Kepemilikan = Perseorangan: Dimensi {Daya Angkut=1, Dokumen=32, Dimensi=45}
| | | | | | Kepemilikan = Perusahaan: Dokumen {Daya Angkut=0, Dokumen=15, Dimensi=4}
| | | | Jenis Kendaraan = Mobil Barang Bak Tertutup: Dokumen {Daya Angkut=1, Dokumen=477, Dimensi=123}
| | | | Jenis Kendaraan = Mobil Penarik: Dimensi {Daya Angkut=0, Dokumen=0, Dimensi=2}
| | Status Buku Uji = Tidak Berlaku: Dokumen {Daya Angkut=2, Dokumen=489, Dimensi=7}
Lebih Muatan = 21-40%: Daya Angkut {Daya Angkut=1712, Dokumen=267, Dimensi=22}
Lebih Muatan = 41-60%: Daya Angkut {Daya Angkut=770, Dokumen=199, Dimensi=8}
Lebih Muatan = 6-20%
| Status Buku Uji = Berlaku: Daya Angkut {Daya Angkut=2504, Dokumen=139, Dimensi=43}
| Status Buku Uji = Tidak Berlaku
| | Kategori Komoditi = Barang Penting
| | | Jenis Kendaraan = Mobil Barang Bak Terbuka: Daya Angkut {Daya Angkut=6, Dokumen=6, Dimensi=0}
| | | Jenis Kendaraan = Mobil Barang Bak Tertutup: Dokumen {Daya Angkut=0, Dokumen=1, Dimensi=1}
| | | Jenis Kendaraan = Mobil Penarik
| | | | Waktu = Malam: Dokumen {Daya Angkut=1, Dokumen=2, Dimensi=0}
| | | | Waktu = Pagi: Daya Angkut {Daya Angkut=1, Dokumen=1, Dimensi=0}
| | Kategori Komoditi = Barang Pokok: Dokumen {Daya Angkut=20, Dokumen=27, Dimensi=0}
| | Kategori Komoditi = Lainnya: Daya Angkut {Daya Angkut=245, Dokumen=230, Dimensi=1}
Lebih Muatan = 61-80%: Daya Angkut {Daya Angkut=445, Dokumen=106, Dimensi=9}
Lebih Muatan = 81-100%: Daya Angkut {Daya Angkut=207, Dokumen=69, Dimensi=4}
Lebih Muatan = > 100%: Daya Angkut {Daya Angkut=405, Dokumen=107, Dimensi=5}
3.5 Evaluation (Evaluasi)
Setelah pola klasifikasi didapatkan pada model decision tree algoritma C4.5, selanjutnya adalah tahap evaluasi dengan menggunakan data hasil klasifikasi yang disajikan dalam bentuk tabel confusion matrix. Pada pengujian menggunakan rapid miner, cross validation diuji dengan tiga tipe sampling. Hasil tabel confusion matrix dari tiga tipe sampling adalah sebagai berikut :
a. Cross Validation Linear Sampling
Tabel 4. Performance model decision tree cross validation linear sampling accuracy: 86.31% +/- 1.23% (micro average: 86.31%)
true DAYA ANGKUT true DOKUMEN true DIMENSI class precision
pred. DAYA ANGKUT 6300 1135 93 83.69%
pred. DOKUMEN 35 3429 213 93.26%
pred. DIMENSI 2 79 87 51.79%
class recall 99.42% 73.85% 22.14%
Teknik linear sampling hanya membagi sampel set menjadi partisi tanpa mengubah urutan [21]. Dari tabel 4 menunjukkan bahwa performa model decision tree dengan 10 fold cross validation linear sampling menghasilkan akurasi 86.31% +/- 1.23% (micro average: 86.31%).
b. Cross Validation Shuffled Sampling
Tabel 5. Performance model decision tree cross validation shuffled sampling accuracy: 86.34% +/- 0.67% (micro average: 86.34%)
true DAYA ANGKUT true DOKUMEN true DIMENSI class precision
pred. DAYA ANGKUT 6234 1102 93 83.91%
pred. DOKUMEN 101 3464 213 92.01%
pred. DIMENSI 2 77 100 55.87%
class recall 98.37% 74.61% 25.45%
Teknik shuffled yaitu pengambil sampel secara acak, membuat subset dari sebagian contoh data [21]. Dari tabel 5 menunjukkan bahwa performa model decision tree dengan 10 fold cross validation shuffled sampling menghasilkan akurasi 86.34% +/- 0.67% (micro average: 86.34%).
c. Cross Validation Stratified Sampling
Tabel 6. Performance model decision tree cross validation Stratified sampling accuracy: 86.15% +/- 0.74% (micro average: 86.15%)
true DAYA ANGKUT true DOKUMEN true DIMENSI class precision
pred. DAYA ANGKUT 6234 1102 93 83.91%
pred. DOKUMEN 101 3464 200 92.01%
pred. DIMENSI 2 77 100 55.87%
class recall 98.37% 74.61% 25.45%
Teknik stratified sampling yaitu digunakan pada populasi berkelompok, pemilihan sampel dilakukan secara acak dan terstruktur pada masing-masing kelompok [21]. Dari tabel 6 menunjukkan bahwa performa model decision tree dengan 10 fold cross validation Stratified sampling menghasilkan akurasi 86.34% +/- 0.67%
(micro average: 86.34%).
3.6 Deployment (Penyebaran)
Tahapan ini merupakan laporan dari seluruh kegiatan penelitian data mining dalam mengklasifikasikan tren pelanggaran kendaraan angkutan barang. Pemahaman bisnis dan tujuan dari proses data mining pada penelitian ini yaitu melakukan klasifikasi tren pelanggaran kendaraan angkutan barang dengan menggunakan algoritma C4.5.
Melakukan pengumpulan data pelanggaran angkutan barang dimana data tersebut digunakan untuk mengambil informasi tentang atribut yang terdapat pada data tersebut. Setelah memperoleh data selanjutnya melakukan seleksi data, menentukan atribut yang kemudian di proses serta dilakukan pembersihan data untuk menghilangkan record missing value untuk mendapatkan data terbaik. Selanjutnya adalah modifikasi data sesuai dengan persyaratan proses data mining. Ketika data sudah siap digunakan algoritma C4.5 sebagai teknik data mining. Selanjutnya membuat model dan menguji model. Setelah mengetahui hasilnya, selanjutnya mengevaluasi model yang telah digunakan [9]. Laporan dibuat dalam bentuk jurnal penelitian.
4. KESIMPULAN
Pada penelitian ini, telah dilakukan klasifikasi tren pelanggaran kendaraan angkutan barang menggunakan algoritma C4.5 dengan menerapkan metode CRISP-DM. Data ini diperoleh dari Direktorat Prasarana Transportasi Jalan Kementerian Perhubungan. Data yang diperoleh adalah data pelanggaran kendaraan angkutan barang dari bulan januari hingga bulan oktober 2022 dengan jumlah 19.396 record dan terdiri dari 19 kolom. Pada tahap cleansing dilakukan penghapusan data missing value yang mengandung duplikasi data, data kosong, data tidak terukur dan data yang tidak dilakukan pengukuran hingga tersisa data 16.390 record. Konstruksi data menghasilkan interval waktu, status buku uji, dan lebih muatan yang selanjutnya ditransformasikan dengan cara mengubah tipe data standar menjadi kategorikal. Format data yang dihasilkan dari dataset untuk digunakan melakukan proses data mining klasifikasi tren pelanggaran kendaran angkutan barang menggunakan algoritama C4.5 adalah binominal dan polynominal. Hasil pengujian menunjukkan bahwa lebih muatan sebagai akar dari pohon keputusan yang kemudian diikuti oleh UPPKB, status buku uji, kategori komoditi, jenis kendaraan, waktu dan kepemilikan.
Evaluasi performa akurasi pada pengujian data mining klasifikasi tren pelanggaran kendaraan angkutan barang dengan 10 fold cross validation linear sampling menghasilkan akurasi 86.31% +/- 1.23% (micro average: 86.31%), shuffled sampling menghasilkan akurasi 86.34% +/- 0.67% (micro average: 86.34%) dan stratified sampling menghasilkan akurasi 86.34% +/- 0.67% (micro average: 86.34%). Hasil evaluasi dengan tiga tipe sampling cross validation tidak menunjukkan perbedaan yang signifikan dan tidak berpengaruh pada pohon keputusan yang dihasilkan. Penelitian ini menggunakan data pelanggaran di dua UPPKB. Sedangkan jumlah UPPKB di Indonesia yang sudah beroperasi adalah 81 UPPKB. Penelitian selanjutnya diharapkan dapat menerapkan penggunaan data pelanggaran lebih dari dua UPPKB, sehingga dapat menghasilkan pengetahuan yang lebih luas terhadap pola klasifikasi tren pelanggaran kendaraan angkutan barang.
REFERENCES
[1] Rezky Yostisa, “Kajian Pengendalian Over Dimensi Over Loading,” Badan Kebijakan Transportsi Kementerian Perhubungan, Apr 27, 2021. https://baketrans.dephub.go.id/berita/kajian-pengendalian-over-dimensi-over-loading (diakses Des 11, 2022).
[2] Nuraini Wulandari, “Menuju Indonesia Bebas Odol,” Badan Kebijakan Transportasi Kementerian Perhubungan, Agu 18, 2022. https://baketrans.dephub.go.id/berita/menuju-indonesia-bebas-odol (diakses Okt 30, 2022).
[3] L. Antono, “Implementasi Kebijakan Odol Dalam Upaya Meningkatkan Sistem Pengawasan Dan Pengendalian Muatan Angkutan Barang,” JURNAL ILMIAH MULTI DISIPLIN INDONESIA, vol. 1, hlm. 1720–1729, 2022.
[4] Republik Indonesia, “Undang-Undang Nomor 22 Tahun 2009.”
https://www.dpr.go.id/dokjdih/document/uu/UU_2009_22.pdf (diakses Okt 30, 2022).
[5] B. Poernomo, R. Dewi, dan I. Sari, “Penerapan Data Mining Untuk Prakiraan Cuaca Di Kota Malang Menggunakan Algoritma Iterative Dichotomiser Tree (ID3),” JOUTICLA, vol. 3, no. 2, hlm. 101–108, 2017.
[6] H. Hafizan dan A. N. Putri, “Penerapan Metode Klasifikasi Decision Tree Pada Status Gizi Balita Di Kabupaten Simalungun,” Jurnal Penerapan Sistem Informasi (Komputer & Manajemen), vol. 1, no. 2, hlm. 68–72, 2020.
[7] M. Muhamad, A. P. Windarto, dan S. Suhada, “Penerapan Algoritma C4.5 Pada Klasifikasi Potensi Siswa Drop Out,”
KOMIK (Konferensi Nasional Teknologi Informasi dan Komputer), vol. 3, no. 1, Des 2019, doi:
10.30865/komik.v3i1.1688.
[8] M. A. Hasanah, S. Soim, dan A. S. Handayani, “Implementasi CRISP-DM Model Menggunakan Metode Decision Tree dengan Algoritma CART untuk Prediksi Curah Hujan Berpotensi Banjir,” Journal of Applied Informatics and Computing (JAIC), vol. 5, no. 2, hlm. 103–108, 2021.
[9] S. Huber, H. Wiemer, D. Schneider, dan S. Ihlenfeldt, “DMME: Data mining methodology for engineering applications - A holistic extension to the CRISP-DM model,” dalam Procedia CIRP, 2019, vol. 79, hlm. 403–408. doi:
10.1016/j.procir.2019.02.106.
[10] Ida Kade Sukesa, “CRISP DM Sebagai Salah Satu Standard untuk Menghasilkan Data Driven Decision Making yang Berkualitas,” Kementerian Keuangan Republik Indonesia, Jun 22, 2022.
https://www.djkn.kemenkeu.go.id/artikel/baca/15134/CRISP-DM-Sebagai-Salah-Satu-Standard-untuk-Menghasilkan- Data-Driven-Decision-Making-yang-Berkualitas.html (diakses Okt 28, 2022).
[11] D. A. C, D. A. Baskoro, L. Ambarwati, dan I. W. S. Wicaksana, Belajar Data Mining dengan RapidMiner. Jakarta, 2013.
[12] M. Jufri, “Data Mining Algorithm C4.5 Classification Determination Credit Eligibility For Jaya Bersama Cooperatives (Korjabe),” JURTEKSI (Jurnal Teknologi dan Sistem Informasi), vol. 8, no. 1, hlm. 85–94, Des 2021, doi:
10.33330/jurteksi.v8i1.1228.
[13] G. L. Pritalia, “Penerapan Algoritma C4.5 untuk Penentuan Ketersediaan Barang E-commerce,” 2018.
[14] D. R. S. P, A. P. Windarto, D. Hartama, dan I. S. Damanik, “Penerapan Klasifikasi C4.5 Dalam Meningkatkan Sistem Pembelajaran Mahasiswa,” KOMIK (Konferensi Nasional Teknologi Informasi dan Komputer), vol. 3, no. 1, hlm. 593–
597, Des 2019, doi: 10.30865/komik.v3i1.1665.
[15] P. Nuraini, J. Tata Hardinata, Y. Pranayama Purba Program Studi Sistem Informasi, S. A. Tunas Bangsa Jalan Jendral Sudirman Blok, dan S. Utara, “Penerapan Algoritma C4.5 Untuk Klasifikasi Pola Kepuasan Pelayanan E-Ktp Di Kantor Camat Pematang Bandar,” Media Online), vol. 3, no. 2, hlm. 138–144, 2022, [Daring]. Available:
https://djournals.com/resolusi
[16] G. Taufik dan D. Jatmika, “Penerapan Algoritma C4.5 Untuk Klasifikasi Keberhasilan Pengiriman Barang,” vol. 6, no. 1, hlm. 12–26, 2021.
[17] K. Suhada, A. Elanda, dan A. Aziz, “Klasifikasi Predikat Tingkat Kelulusan Mahasiswa Program Studi Teknik Informatika dengan Menggunakan Algoritma C4.5 (Studi Kasus: STMIK Rosma Karawang),” Jurnal Manajemen dan Sistem Informasi, vol. 01, no. 02, hlm. 14–27, 2021.
[18] Antoni Wibowo, “10 Fold-Cross Validation,” BINUS Higher Education, Nov 24, 2017.
https://mti.binus.ac.id/2017/11/24/10-fold-cross-validation/ (diakses Nov 20, 2022).
[19] A. Nugroho dan Y. Religia, “Analisis Optimasi Algoritma Klasifikasi Naive Bayes menggunakan Genetic Algorithm dan Bagging,” Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), vol. 5, no. 3, hlm. 504–510, Jun 2021, doi:
10.29207/resti.v5i3.3067.
[20] J. Jaya Purnama dan S. Rahayu, “Klasifikasi Konsumsi Energi Industri Baja Menggunakan Teknik Data Mining,”
JURNAL TEKNOINFO, vol. 16, no. 2, hlm. 395–407, 2022.
[21] A. M. Khalimi, “Tutorial RapidMiner Teknik Sampling Data,” Pengalaman Edukasi, 2020. https://www.pengalaman- edukasi.com/2020/04/cara-sampling-data-menggunakan.html (diakses Nov 20, 2022).