Algoritma CART - ANALISIS DAN PERANCANGAN

ANALISIS DAN PERANCANGAN

3.2. Algoritma CART

CART (Classification and Regression Trees) merupakan salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. CART terbilang sederhana namun merupakan metode yang kuat. CART bertujuan untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian, selain itu CART digunakan untuk menggambarkan hubungan antara variabel respon (variabel dependen atau tak bebas ) dengan satu atau lebih variabel prediktor (variabel independen atau bebas). Model pohon yang dihasilkan bergantung pada skala variabel respon, jika variabel respon data berbentuk kontinu maka model pohon yang dihasilkan adalah regression trees (pohon regresi) sedangkan bila variabel respon mempunyai skala kategorik maka pohon yang dihasilkan adalah classification trees (pohon klasifikasi).

CART mempunyai beberapa kelebihan dibandingkan metode klasifikasi lainnya, yaitu hasilnya lebih mudah diinterpretasikan, lebih akurat dan lebih cepat penghitungannya, selain itu CART bisa diterapkan untuk himpunan data yang mempunyai jumlah besar, variabel yang sangat banyak dan dengan skala variabel campuran melalui prosedur pemilahan biner. Data learning digunakan untuk pembentukan pohon klasifikasi optimal sedangkan data testing digunakan untuk validasi model yaitu seberapa besar kemampuan model dalam memprediksi data baru.

Metode CART memiliki kelemahan sebagai berikut:

1. CART mungkin tidak stabil dalam decision trees (pohon keputusan) karena CART sangat sensitif dengan data baru. CART sangat bergantung dengan jumlah sampel. Jika sampel data learning dan testing berubah maka pohon keputusan yang dihasilkan juga ikut berubah.

2. Tiap pemilihan bergantung pada nilai yang hanya berasal dari satu variabel penjelas.

Pohon keputusan dibentuk dengan menggunakan algoritma penyekatan rekursif secara biner (binary recursive partitioning). Pemilahan dilakukan untuk memilah data

menjadi 2 kelompok, yaitu kelompok yang masuk simpul kiri dan yang masuk simpul kanan. Pemilahan dilakukan pada tiap simpul sampai didapatkan suatu simpul terminal/akhir. Variabel yang memilah pada simpul utama adalah variabel terpenting dalam menduga kelas dari amatan.

Simpul utama (root node) dinotasikan sebagai t1, sedangkan simpul t2, t3, t5, t7

dan t8 disebut simpul dalam (internal nodes). Simpul akhir yang juga disebut sebagai simpul terminal (terminal nodes) adalah t4, t6, t9, t10, t11, t12 dan t13 dimana tidak terjadi lagi pemilahan. Kedalaman pohon (depth) dihitung dimulai dari simpul utama atau t1

yang berada pada kedalaman 1, sedangkan t2 dan t3 berada pada kedalaman 2. Begitu seterusnya sampai pada simpul terminal t12 dan t13 yang berada pada kedalaman 5.

Proses pengolahan data dan Penghitungan CART :

Ambil data armada bus, dan aktivitas jadwal keberangkatan. Data armada bus dan jadwal keberangkatan akan disajikan dalam bentuk Tabel 3.1.

Tabel 3.1. Tabel Data Bus

Klasifikasi data dilakukan ke dalam beberapa jenis parameter data, yang dalam penelitian ini kita ambil untuk parameter jarak, harga_tiket dan jadwal. Misalnya dalam penentuan klasifikasi pada parameter jarak dinormalisasi dengan rules sebagai berikut :

 Untuk jarak tempuh 0 < X <= 100, statusnya dekat.

 Untuk jarak tempuh 100 < X <= 350, statusnya menengah.

 Untuk jarak tempuh X > 350, statusnya jauh.

nama_bus asal_kota tujuan_kota Jarak harga_tiket jadwal

Bus A Medan Banda Aceh 600 200.000 10.00

Untuk parameter harga_tiket untuk kisaran harga tiket dibawah 180.000 (t <=

180.000) akan dikelompokkan ke dalam status ekonomis sedangkan untuk harga tiket diatas 180.000 dikategorikan ke dalam status vip. Pada parameter jadwal akan dikategorikan sebagai pagi , siang, sore atau malam. Dari proses normalisasi atau pengelompokkan data ini maka bentuk tabel hasil normalisasi seperti yang digambarkan pada Tabel 3.2.

Tabel 3.2. Tabel Data Bus Setelah Normalisasi

 Menghitung Normalisasi Min-Max

Berdasarkan data pada tabel data armada bis dan jadwal keberangkatan, dinormalisasi dengan menggunakan rumus Min-Max Normalization. Pada proses ini data atribut parameter jarak, harga_tiket dan waktu_keberangkatan akan diubah dengan nilai interval / range (0 – 1).

Tabel 3.3. Tabel Data Normalisasi

nama_bus asal_kota tujuan_kota Jarak harga_tiket Jadwal

Bus A Medan Banda Aceh jauh Vip Pagi

nama_bus asal_kota Tujuan_kota Jarak harga_tiket Jadwal

Bus A Medan Banda Aceh 1 1 0.25

Proses penentuan nilai bergantung dengan jumlah atribut nilai (N) yang dimiliki oleh setiap parameter. Sebagai contoh untuk parameter jarak, yang memiiliki 3 buah atribut nilai (dekat, menengah, jauh) diubah dengan koefisien nilai range (0 -1), maka akan diperoleh nilai dari masing-masing atribut nilai yaitu (0, 0.5, 1). Untuk contoh parameter harga_tiket dimana memiliki 2 buah nilai atribut (ekonomis dan vip) maka nilai dari masing-masing atribut dikonversi menjadi (0 dan 1).

 Membuat distribusi dalam suatu interval

Berdasarkan data yang ada (sejumlah N record), dihitung jumlah kelas dan interval kelas dengan menggunakan rumus sturges,

K = 1 + 3,322 Log N

Dan untuk Menentukan Interval kelas berdasarkan rumus Sturges : IK = Range / K

Sehingga jika dalam sistem pemesanan tiket memiliki data N record jadwal bus sebesar 100 record, maka akan diperoleh jumlah kelas adalah :

K = 1 + 3.322 log(100)

K = 1 + 3.322 (2) = 1 + (6.644) = 7.644 ~ 8

Maka jumlah kelas yang dapat dibentuk dari jumlah 100 record data adalah 8 kelas.

Dengan jumlah interval per kelas dihitung seperti berikut IK = 1 / 8 = 0.125

Tabel 3.4. Nilai Interval

Pembagian interval sesuai pada Tabel 3.4 akan menentukan peletakan posisi left child dan right child pada penentuan parameter yang dijadikan root.

Interval Rentang Nilai

Interval Pertama (a1) 0 s/d 0.125 Interval Kedua (a2) 0.126 s/d 0.25 Interval Ketiga (a3) 0.251 s/d 0.375 Interval Keempat (a4) 0.376 s/d 0.5 Interval Kelima (a5) 0.51 s/d 0.625 Interval Keenam (a6) 0.626 s/d 0.75 Interval Ketujuh (a7) 0.76 s/d 0.875 Interval Kedelapan (a8) 0.876 s/d 1.0

Universitas Sumatera Utara

 Membuat Candidate Split

Pembuatan candidate split merupakan salah satu tahapan dalam algoritma CART, langkahnya yaitu dengan menentukan atribut yang masuk kategori left childe node (tL) dan atribut yang masuk dalam kategori right child node (tR), pengkategorian ini dibuat secara keseluruhan pada masing-masing aktifitas di tiap-tiap interval data pada aktifitas tersebut.

Pada contoh perhitungan ini, seperti pada Tabel 3.4, maka parameter field jarak memiliki nilai parameter rata-rata split paling tertinggi, sehingga dijadikan sebagai root node dan menandakan bahwa parameter jarak sangat mempengaruhi terhadap hasil pengambilan keputusan tiket yang direkomendasikan.

Tabel 3.5 Candidate Split Parameter Jarak

Penentuan nilai candidate split dalam kasus ini memudahkan proses untuk membuat diagram pengambilan keputusan terkahir. Pada contoh ini sesuai pada Tabel 3.3, parameter field jarak memiliki nilai mean terbesar dengan besar 0.857, sehingga dijadikan sebagai node root. Nilai ini sesuai pembagian interval pada tabel 3.5 masuk ke kategori interval ke ketujuh (a7) sehingga akan memiliki diagram decision tree yang memiliki struktur seperti pada Tabel 3.5, yaitu nomor struktur left node dan right node pada candidate splite yang bernomor 7.

Nomor

Candidate Split Left Child Node (tL) Right Child Node(tR)

1 Jarak = {a1} Jarak = {a2, a3, a4, a5, a6, a7, a8}

3.3. Perancangan Sistem

Dalam dokumen SISTEM REKOMENDASI PEMESANAN TIKET BUS MENGGUNAKAN ALGORITMA CART (CLASSIFICATION AND REGRESSION TREES) PADA PERANGKAT ANDROID SKRIPSI (Halaman 28-33)