IMPLEMENTASI METODE ALGORITMA C4.5 DALAM PENENTUAN
TARIF ANGKOT DI KOTA MEDAN
Labuan Nababan1, Lamtiur Sinambela2
Universitas Potensi Utama Medan1, Politeknik Negeri Medan2 Jln K.L Yos Sudarso Km 6,5 No 3A Tanjung Mulia Medan1
Jln. Almamater No. 1 Kampus USU, Medan2
Email: [email protected], [email protected]2 ABSTRACT
Medan city is the capital city of North Sumatra province which is developing quite rapidly. The number of population that is increasing from day to day also causes the volume of vehicles to increase. City transportation or often called Angkot is one of the means of transportation within the city and between cities that is widely used in Indonesia, in the form of a minibus or van driven by a driver and sometimes also assisted by a kenek. Each route is distinguished by the color of the fleet or by a numeric code. Angkot fares are usually set by the local government, however most people traveling on short or long distance often pay the same or less. This makes angkot drivers sometimes disappointed. To solve this problem, we need a method to help the performance that will be used in decision making. The method I use in determining public transportation rates in this study is Data Mining Algorithm C4.5. The C4.5 algorithm is a decision tree type data classification algorithm that is built in several stages including selecting attributes as roots, creating branches for each value and dividing cases into branches. These steps are repeated for each branch until all cases on the branch have the same class. From the completion of the decision tree, several rules will be obtained, which are used as decisions in determining the Angkot tariff. Keywords: Datamining, Classification, C4.5 Algorithm, Decision Tree, Bus, Tarif.
ABSTRAK
Kota Medan merupakan ibukota propinsi Sumatera Utara sangat berkembang cukup pesat. Jumlah penduduk yang bertambah dari hari ke hari menyebabkan bertambah pula tingkat volume kendaraan. Angkutan kota atau sering disebut Angkot adalah salah satu sarana perhubungan dalam kota dan antar kota yang banyak digunakan di Indonesia, berupa mobil jenis minibus atau van yang dikendarai oleh seorang sopir dan kadang juga dibantu oleh seorang kenek. Setiap jurusan dibedakan melalui warna armadanya atau melalui kode angka. Tarif angkot biasanya ditetapkan oleh pemerintah daerah setempat, namun orang kebanyakan penumpang jarak pendek atau jarak jauh sering membayar dengan biaya yang sama atau lebih sedikit. Hal ini membuat para supir angkot terkadang kecewa. Untuk mengatasi permasalahan tersebut diperlukan sebuah metode untuk membantu kinerja yang akan digunakan dalam pengambilan keputusan. Metode yang saya gunakan dalam Penentuan Tarif Angkot pada penelitian ini adalah Data Mining Algoritma C4.5. Algoritma C4.5 adalah algoritma klasifikasi data bertipe pohon keputusan yang dibangun dengan beberapa tahap yang meliputi pemilihan atribut sebagai akar, membuat cabang untuk tiap-tiap nilai dan membagi kasus dalam cabang. Tahapan-tahapan ini akan diulangi untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. Dari penyelesaian pohon keputusan maka akan didapatkan beberapa rule, yang dijadikan sebagai keputusan dalam penentuan tarif Angkot.
Kata kunci : Datamining, Klasifikasi, Algoritma C4.5, Decission tree, Angkot, Tarif. 1. PENDAHULUAN
Decision Tree dan algoritma yang digunakan
untuk membentuk pohon keputusan adalah algoritma C4.5. Metode Decision Tree merupakan metode yang merubah fakta yang sangat besar menjadi sebuah pohon keputusan yang mereprentasikan aturan-aturan. Pohon keputusan ini juga berguna untuk mengeksplorasi data, serta menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Algoritma C4.5 membuat pohon keputusan dari atas ke bawah, di mana atribut paling atas merupakan akar, dan yang paling bawah dinamakan daun. Dalam algoritma C4.5 pemilihan atribut dilakukan dengan menggunakan Gain Ratio, atribut dengan nilai Gain Ratio tertinggi dipilih sebagai atribut test untuk simpul. Dengan perbedaan dalam pemilihan atribut ini, C4.5 memiliki keunggulan, yaitu dapat mengolah data numerik (kontinyu) dan kategori (diskret), dan menghasilkan aturan-aturan yang mudah diinterpretasikan. Salah satu aspek dari dunia transportasi adalah mengetahui tentang bagaimana tata cara yang dilakukan oleh Dinas Perhubungan untuk menentukan prioritas tarif angkot pada Trayek KPUM 32 Belawan-Pinang Baris, untuk menyelesaikan suatu masalah khususnya di bidang prioritas tarif angkutan kota. Angkutan kota adalah salah satu sarana perhubungan dalam kota dan antar kota yang banyak digunakan di Indonesia, berupa mobil jenis minibus atau van yang dikendarai oleh seorang sopir dan kadang juga dibantu oleh seorang kenek. Setiap jurusan dibedakan melalui warna armadanya atau melalui kode angka. Tarif angkot biasanya ditetapkan oleh pemerintah daerah setempat, namun orang kebanyakan penumpang jarak pendek atau jarak jauh sering membayar dengan biaya yang sama atau lebih sedikit. Hal ini membuat para supir angkot terkadang kecewa. Untuk mengatasi
permasalahan tersebut Dinas Perhubungan memerlukan sebuah metode untuk membantu kinerja yang akan digunakan dalam pengambilan keputusan. Metode yang saya gunakan dalam Penentuan Tarif Angkot pada tesis saya ini adalah Data Mining
Algoritma C4.5.
2. METODE PENELITIAN
Keterbatasan waktu, tenaga, dan dana menyebabkan ketidakmungkinan untuk melakukan banyak hal dalam waktu yang bersamaan sehingga perlu itu dilakukan prioritas. Prioritas itu penting karena keterbatasan tadi padahal perlu dilakukan pembenahan dalam banyak hal, dan semuanya harus dilakukan dengan waktu yang cepat, dana yang cukup dan kualitas yang utama sehingga perlu dilakukan suatu cara, yaitu: dengan menyusun prioritas.
Prioritas dapat memberi arah bagi kegiatan yang harus dilaksanakan. Jika prioritas, telah disusun maka tidak akan bingung kegiatan mana yang harus dilakukan terlebih dahulu, kegiatan mana yang dilakukan selanjutnya, sampai tercapai tujuan yang telah ditetapkan. Jika dalam tujuan untuk melakukan kegiatan yang berkesinambungan, maka diprioritaskan kegiatan sesuai dengan kebutuhan, maka arah kegiatan adalah pada pengembangan, bukan semata-mata pada pembangunan. Dengan demikian arah kegiatan bukanlah pada pembangunan yang sebesar-besarnya, melainkan pada pengembangan yang berkelanjutan. Prioritas juga membantu dalam memecahkan masalah. Jika konsisten pada prioritas yang telah ditetapkan maka prioritas akan membantu untuk memecahkan masalah.
Menurut Undang–Undang RI No.22 Tahun 2009 yang dimaksud dengan jalan adalah seluruh bagian jalan, termasuk bangunan pelengkapnya yang diperuntukan
bagi lalu lintas umum, yang berada dibawah permukaan tanah, diatas pemukaaan tanah, dibawah permukaan air, serta diatas pemukaan air, kecuali jalan rel dan jalan kabel. Jalan mempunyai peranan untuk mendorong pembangunan semua satuan wilayah pengembangan, dalam usaha mencapai tingkat perkembangan antar daerah. Jalan merupakan satu kesatuan sistem jaringan jalan yang mengikat dan menghubungkan pusat-pusat pertumbuhan dengan wilayah lainnya.
Menurut Pedoman Pengumpulan Data Lalu Lintas Jalan Direktorat Jenderal Perhubungan Darat Departemen Perhubungan (1999), pada modal transportasi darat pergerakan lalu lintas dikelompokkan berdasarkan atas beberapa hal, diantaranya berdasarkan jenis kendaraan yang digunakan akan ada pergerakan dengan kendaraan bermotor dan tanpa kendaraan bermotor. Pergerakan dengan kendaraan bermotor dikelompokkan atas beberapa hal diantarannya berdasarkan kepemilikannya yang dikelompokan menjadi pergerakan dengan kendaraan pribadi dan kendaraan umum. Berdasarkan jenis muatan yang dipindahkan akan ada pergerakan angkutan barang dan pergerakan angkutan orang. 2.1 Penerapan Metode Algoritma C 45
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti structure query language untuk mencari record pada kategori tertentu (Kusrini, 2009).
Untuk membuat decission tree kita perlu memperhatikan:
1. Atribut mana yang akan dipilih untuk pemisahan objek
2. Urutan atribut mana yang akan dipilih terlebih dahulu
3. Struktur tree
4. Kriteria pemberhentian 5. Pruning
ID3 adalah model decission tree yang menggunakan kriterian information gain untuk memilih atribut yang akan digunakan untuk memisahkan objek. Objek yang mempunyai information gain paling tinggi dibandingkan atribut lain dibandingkan terhadap set y dalam suatu data, dipilih untuk melakukan pemecahan.
Salah satu algoritma induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3). ID3 dikembangkan oleh J. Ross Quinlan. Dalam prosedur algoritma ID3, input berupa sampel training, label training dan atribut. Algoritma C4.5 merupakan pengembangan dari ID3. Sedangkan pada perangkat lunak
open source WEKA mempunyai versi sendiri
C4.5 yang dikenal sebagai J48.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut (Kusrini, 2009).:
1. Pilih atribut sebagai akar.
2. Buat cabang untuk tiap-tiap nilai. 3. Bagi kasus dalam cabang.
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut:
1. Hitung jumlah data, jumlah data berdasarkan anggota atribut hasil dengan syarat tertentu. Untuk proses pertama syaratnya masih kosong.
2. Pilih atribut sebagai Node.
3. Buat cabang untuk tiap-tiap anggota dari Node.
4. Periksa apakah nilai entropy dari anggota Node ada yang bernilai nol. Jika ada, tentukan daun yang terbentuk. Jika seluruh nilai entropy anggota Node adalah nol, maka proses pun berhenti. 5. Jika ada anggota Node yang memiliki
nilai entropy lebih besar dari nol, ulangi lagi proses dari awal dengan Node sebagai syarat sampai semua anggota dari Node bernilai nol.
Node adalah atribut yang mempunyai
nilai gain tertinggi dari atribut-aribut yang ada. Untuk menghitung nilai gain suatu atribut digunakan rumus seperti yang tertera dalam persamaan berikut:
Keterangan:
S : Himpunan Kasus. A : Atribut
n : Jumlah partisi atribut A
Si : Jumlah kasus pada partisi ke-i. S : Jumlah kasus dalam S
Sementara itu, untuk menghitung nilai Entropy dapat dilihat pada persamaan berikut ini:
Dengan :
S : Himpunan Kasus A : Fitur
N : Jumlah Partisi S
Pi : Proporsi dari Si terhadap S 3. HASIL DAN PEMBAHASAN
Data trayek KPUM Koperasi Angkutan Umum 32 Belawan-Pinang Baris, kemudian dilakukan transformasi dengan cara mengelompokkan variabel variabel prioritas sebagai berikut :
1. Panjang Jalan
Panjang Jalan di klasifikasikan dalam 3
range, hasil pengelompokan tersebut
dapat dilihat pada tabel 1.
Tabel 1 Tabel Klasifikasi Panjang Jalan Panjang Jalan Klasifikasi
1 – 10 km Pendek
11 – 20 km Standar 21 – 31 km Panjang 2. Bahan Bakar Minyak
Bahan Bakar Minyak di klasifikasikan dalam 3 range, hasil pengelompokan tersebut dapat dilihat pada tabel 2.
Tabel 2 Tabel Klasifikasi BBM
BBM Klasifikasi
<1 Liter Sedikit
1 s/d 2 Liter Sedang
> 2 Liter Banyak
3. Kondisi Jalan
Kondisi jalan diklasifikasikan dalam 3
range, yaitu Adapun hasil
pengelompokan tersebut dapat dilihat pada tabel 3.
Tabel 3 Tabel Klasifikasi Kondisi Jalan Kondisi Jalan Klasifikasi
Tidak Bagus TB
Bagus B
Sangat Bagus SB
4. Volume lalu lintas
Volume lalu lintas di klasifikasikan dalam 3 range, hasil pengelompokan tersebut dapat dilihat pada tabel 4. Tabel 4 Tabel Klasifikasi Volume Lalu
Lintas
Volume Lalu Lintas Klasifikasi
Tidak Padat TP
Sedang S
5. Tarif
Tarif di klasifikasikan dalam 2 range, hasil pengelompokan tersebut dapat dilihat pada tabel 5
Tabel 5 Tabel Klasifikasi Tarif
Tarif Klasifikasi
Rp. 4500 Yes
Rp. 9000 No
Data hasil transformasi adalah data
cleaning yang telah di transformasikan, data
hasil transformasi dapat dilihat pada tabel berikut :
Menghitung Nilai Entropy diperoleh dari rumus: 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑠) = - − 𝑝𝑖∗𝑙𝑜𝑔 " # $%& 𝑝𝑖 Untuk menghitung Nilai Gain digunakan
rumus sebagai berikut:
𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 − 7|𝑆𝑖|
𝑆 ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑠$)
#
$%&
Setelah nilai entropy dan 𝐺𝑎𝑖𝑛 dihitung, kemudian hasil dari perhitungan tersebut dimasukkan ke dalam tabel berikut
Tabel 6 Hasil Perhitungan Nilai Entropy dan Gain
1. Dari hasil perhitungan node 1 pada tabel di atas, dapat diketahui bahwa atribut dengan nilai tertinggi adalah Panjang jalan adalah 0.630182956. dengan demikian panjang jalan dapat menjadi
node akar. Ada tiga atribut dari panjang
jalan yaitu atribut pendek, standar, dan
atribut panjang, dimana dari ketiga atribut tersebut nilai atribut pendek dan
panjang sudah diklasifikasikan menjadi Yes dan No, sehingga tidak perlu lagi dilakukan perhitungan lebih lanjut. Tetapi untuk nilai atribut standart perlu dilakukan dari hasil tersebut dapat digambarkan pohon keputusan sebagai berikut :
Gambar 1 pohon keputusan hasil perhitungan Node 1
Berdasarkan pohon keputusan sementara yang terbentuk pada gambar 4.1 diatas maka aturan atau rule yang terbentuk adalah If Panjang Jalan = Pendek, Then Tarif = Yes. Dan If Panjang Jalan = Panjang, Then Tarif = No.
2. Selanjutnya adalah menyelesaikan untuk menghitung node 1.1 sebagai akar, sama dengan cara yang diatas dengan menghitung nilai entropy dari atribut yang tersisa yaitu nilai yang tersisa. Setelah dihitung entropy, kemudian menghitung nilai untuk tiap tiap atribut. Berikut hasil perhitungan entropy untuk masing masing atribut :
Tabel 7 Hasil Perhitungan Node 1.1
Dari hasil perhitungan node 1.1 pada diatas, bahwa diketahui bahwa atribut dengan tertinggi, yaitu sebesar 0.344360938 dengan demikian Volume lalu lintas dapat menjadi node akar. Terdapat tiga nilai atribut dari Volume lalu lintas. dimana dari ketiga
atribut tersebut nilai atribut P dan S sudah
diklasifikasikan menjadi Yes dan No, sehingga tidak perlu lagi dilakukan perhitungan lebih lanjut. Tetapi untuk nilai
atribut TP perlu dilakukan dari hasil tersebut
dapat digambarkan pohon keputusan sebagai berikut :
Gambar 2 pohon keputusan hasil perhitungan Node 1.1
Berdasarkan pohon keputusan sementara yang terbentuk pada gambar 4.2 diatas maka aturan atau rule yang terbentuk If Nilai Panjang jalan = standart, and If Nilai Volume lalulintas = P, then Tarif = Yes, If Nilai, Panjang jalan = Standart, and If Nilai Volume lalulintas = S, then Tarif = No 3. Selanjutnya adalah menyelesaikan untuk
menghitung node 1.1.2 sebagai akar, sama dengan cara yang diatas dengan menghitung nilai entropy dari atribut yang tersisa. Setelah dihitung entropy, kemudian menghitung nilai untuk tiap tiap atribut. Berikut perhitungan hasil
entropy untuk masing masing atribut : Tabel 8 hsil Perhitungan Node 1.1.2
Dari hasil perhitungan node 1.1.2 pada tabel diatas, diketahui bahwa atribut dengan
gain tertinggi, yaitu sebesar 1. dengan
akar. Terdapat tiga nilai atribut dari kondisi jalan dan dapat digambarkan pohon keputusan sebagai berikut :
Gambar 3 pohon keputusan hasil perhitungan Node 1.1.2
Berdasarkan pohon keputusan sementara yang terbentuk pada gambar diatas maka rule yang terbentuk adalah If Nilai Panjang Jalan = Standar, and If Nilai volume lalu lintas = TP, and. If Nilai Kondisi Jalan = TB, then Tarif = No, If Nilai Panjang Jalan = Standar, and If Nilai volume lalu lintas = TP, and. If Nilai Kondisi Jalan = B, then Tarif = Yes, If Nilai Panjang Jalan = Standar, and If Nilai volume lalu lintas = TP, and. If Nilai Kondisi Jalan = SB, then Tarif = Yes.
Berdasarkan pohon keputusan yang terbentuk pada node node diatas maka rule
rule yang terbentuk adalah sebagai berikut :
1. If Nilai Panjang Jalan = Pendek,
Then Tarif = Yes
2. If Nilai Panjang Jalan = Panjang,
Then Tarif = No
3. If Nilai Panjang jalan = Standart and If Nilai Volume lalu lintas = P
then Tarif = Yes
4. If Nilai Panjang jalan = Standart and If Nilai Volume lalu lintas = S
then Tarif = No
5. If Nilai Panjang Jalan = Standar And If Volume lalu lintas =TP and If Nilai Kondisi Jalan = TB
then Tarif = No
6. If Nilai Panjang Jalan = Standar And If Volume lalu lintas = TP and If Nilai Kondisi Jalan = B
then Tarif = Yes
7. If Nilai Panjang Jalan = Standar And If Volume lalu lintas = TB and If Nilai Kondisi Jalan = SB
then Tarif = Yes 4. KESIMPULAN
Perancangan Pohon keputusan memudahkan dalam proses penalaran penentuan pola keputusan dalam menentukan prioritas tarif angkot yang akan dilakukan oleh Dinas Perhubungan kota Medan. Dari hasil perhitungan terhadap prioritas penentuan tarif angkot diketahui bahwa
atribut dengan nilai gain tertinggi adalah
Panjang jalan, kemudian atribut volume lalu lintas, dan selanjutnya atribut kondisi jalan, dan yang terakhir dengan nilai gain bernilai 0 adalah atribut BBM. Setelah dilakukan pengujian dengan menggunakan salah satu sofware aplikasi WEKA, dan hasil perhitungan manual tidak adanya perbedaan urutan atribut dan memberikan kemudahan bagi user untuk menentukan hasil keputusan yang mudah dimengerti dalam bentuk visualisasi pohon keputusan. Algoritma C4.5 sebagai algoritma yang sangat membantu dalam melakukan prioritas penentuan tarif angkot, karena karakteristik data yang
diklasifikasikan dapat diperoleh dengan jelas, baik dalam bentuk struktur pohon keputusan (decision tree) maupun aturan rule if – then, sehingga memudahkan pengguna dalam melakukan penggalian informasi terhadap data yang bersangkutan. Sistem prioritas penentuan tarif angkot menggunakan
Datamining Algoritma C4.5, dapat
digunakan dalam pengambilan keputusan untuk mencari alternative Dalam menentukan prioritas penentuan tarif angkot pada Dinas Perhubungan Kota Medan. 5. SARAN
Adapun saran pada penelitian diatas dapat dikembangan menggunakan aplikasi android sehingga dapat di implementasikan oleh masyarakat secara langsung.
DAFTAR PUSTAKA
[1] Kusrini, (2009). Algoritma Data Mining
,Andi Yogyakarta
[2] Herlawati, et al (2013).Penerapan Data
Mining Dengan Matlab, Rekayasa Sains,
Bandung
[3] Prasetyo Eko (2012). DATA MINING - Konsep dan Aplikasi Menggunakan Matlab. Yogyakarta. Penerbit Andi. [4] Kusrini,et.al, (2009) .”Perbandingan
Metode Nearest Neighbor dan Algoritma C4.5 untuk Menganalisis Kemungkinan Pengunduran Diri Calon Mahasiswa Di STMIK AMIKOM Yogyakarta ,Vol 10, No.1,Maret.
[5] Efraim Turban, Jay E. Aronson, Ting Peng Liang (2005). Decision Support
System and Intelligent Systems Edisi 7 Jilid 1, Andi Yogyakarta.
[6] Budi Santosa,(2007). Data Mining
Terapan dengan Matlab Edisi 1, Andi
Yogyakarta.
[7] Efraim Turban, Jay E. Aronson, Ting Peng Liang (2005). Decision Support
System and Intelligent Systems Edisi 7 Jilid 1, Andi Yogyakarta.
[8] Holisatul Munaroh,et.al, (2013) .”Perbandingan Algoritma ID3 dan C5.0
dalam Identifikasi Penjurusan Siswa SMA ,Vol 1, No.1,Juni.