BAB III METODE PENELITIAN
4.2 Hasil Analisis CART
4.2.1 Pembentukan Pohon Klasifikasi Kondisi Pertama
Pada kondisi pertama pembagian data menjadi dua bagian (data
learning dan data testing) dengan proporsi 70%:30%. Dengan demikian data learning berjumlah 534 buah data, sedangkan data testing berjumlah 208 buah data. Sebelum dilakukan proses splitting node, terlebih dahulu memilih variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node 𝑡𝑅 dan node 𝑡𝐿 jika s memaksimalkan nilai ∆𝑖 𝑠∗, 𝑡 = max𝑠∆𝑖 𝑠, 𝑡 , dimana ∆𝑖 𝑠∗, 𝑡 adalah nilai yang paling maksimal/tertinggi dari ∆𝑖 𝑠, 𝑡 . Root node dipecah dengan kriteria pemecahan Cara Bayar adalah dengan cara Triwulanan, Setengah
commit to user
Tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement yaitu ∆𝑖 𝑠, 𝑡 dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal ini dapat dilihat pada Tabel 4.2.
Tabel 4.2. Kriteria Pemilahan Terbaik Root Node Kondisi Pertama Main Splitter Improvement = 0.12801
Competitor Split Improvement N
Left N Right
N Missing
Main Cara Bayar Triwulanan, Setengah Tahunan, Tahunan 0.12801 415 119 0 1 Macam Asuransi Mitra Prima, Mitra Pelangi, Ekawaktu Ideal, Mitra Beasiswa Berencana, Mitra Melati, Mitra Cerdas, Mitra Sehat 0.12533 416 118 0 2 Penghasilan 8000040 0.10874 120 414 0 3 Premi Dasar 100000.50 0.10874 120 414 0 4 Status Kawin 0.04960 258 276 0 5 Jangka Waktu Asuransi 9.5 0.02272 140 394 0 6 Jenis Kelamin Laki-laki 0.00063 237 297 0
commit to user
Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node utama yang berisi 534 objek data dipilah menjadi dua buah terminal nodes. Terminal node 1 terbentuk akibat kriteria variabel Cara Bayar adalah triwulanan, setengah tahunan, dan tahunan. Terminal node 2 terbentuk akibat kriteria variabel Cara Bayar adalah bulanan. Proses pemilahan dapat dilihat pada Gambar 4.1. Proses serupa terus berjalan pada node-node lainnya, hingga tersisa satu objek saja yang berada dalam
node terakhir atau semua objek yang berada dalam sebuah node merupakan anggota
dari kelas yang sama (homogen).
Gambar 4.1. Pemilahan Root Node Kondisi Pertama 2. Pelabelan Kelas
Pada bagian ini adalah pemberian label kelas pada node-node yang telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14
class assignment rule yaitu jika 𝑝 𝑗|𝑡 = max𝑖𝑝 𝑖|𝑡 𝑚𝑎𝑘𝑎 𝑗∗ 𝑡 = 𝑗 , dimana 𝑗∗ 𝑡 adalah kelas yang diidentifikasikan pada node t. Sebagai contoh, pada Gambar 4.1
𝑃 tidak lancar|𝑡 = 130
534= 0.243 𝑃 lancar|𝑡 =404
534= 0.757
CARA_BAYAR = (Triw ulanan...) Terminal Node 1 Class = Lancar Class Cases % Tidak Lancar 45 10.8 Lancar 370 89.2 W = 415.00 N = 415 CARA_BAYAR = (Bulanan) Terminal Node 2 Class = Tidak Lancar
Class Cases % Tidak Lancar 85 71.4 Lancar 34 28.6 W = 119.00 N = 119 Node 1 Class = Lancar CARA_BAYAR =
(Triw ulanan,Setengah Tahunan, Tahunan) Class Cases % Tidak Lancar 130 24.3 Lancar 404 75.7 W = 534.00 N = 534
commit to user
sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada semua node terutama terminal node, karena terminal node adalah node yang sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek berada pada terminal node tersebut.
3. Proses Penghentian Pemecahan
Proses splitting node yang berulang-ulang akan berhenti dan menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.3. Proses
splitting node akan berhenti karena pada ujung pohon klasifikasi terdapat terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini
terlihat pada terminal node 46 dan 47 dalam Gambar 4.2. Pohon maksimal (Gambar 4.3.) untuk kondisi pertama mempunyai 46 nonterminal nodes dan 47 terminal nodes.
Gambar 4.2. Terminal node 46 dan 47 kondisi pertama
Gambar 4.3. Pohon Klasifikasi Maksimal Kondisi Pertama Terminal
Node 47
Class = Tidak Lancar
Class Cases % Tidak Lancar 4 100.0 Lancar 0 0.0 W = 4.00 N = 4 Terminal Node 46 Class = Lancar Class Cases % Tidak Lancar 0 0.0 Lancar 1 100.0 W = 1.00 N = 1
commit to user
4. Proses Pemangkasan Pohon
Proses pemangkasan pohon dapat dilihat pada Lampiran 2. Proses pemangkasan pohon klasifikasi maksimal menghasilkan 9 subtree. Proses pemangkasan pohon klasifikasi dimulai dengan mengambil 𝑡𝑅 yang merupakan right child node dan 𝑡𝐿 yang merupakan left child node dari 𝑇𝑚𝑎𝑥 yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent
node yang memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿), maka child node 𝑡𝑅 dan 𝑡𝐿 dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan yang mungkin terjadi. Dan diperoleh urutan sebagai berikut 𝑇1, 𝑇2, ⋯ , 𝑡1 , 𝑇1 > 𝑇2 > ⋯ > {𝑡1},
Gambar 4.4. Pohon klasifikasi kondisi pertama yang akan dipangkas
Pada Gambar 4.4 terdapat node yang akan dipangkas yaitu node 36 . Node tersebut mengalami pemangkasan karena parent node dan child node memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿).
Gambar 4.5. Node 36 pada kondisi pertama yang akan dipangkas JANGKA_WAKTU_ASURANSI <= 5.50
Terminal Node 33
Class = Tidak Lancar
Class Cases % Tidak Lancar 43 72.9 Lancar 16 27.1 W = 59.00 N = 59 JANGKA_WAKTU_ASURANSI > 5.50 Terminal Node 34
Class = Tidak Lancar
Class Cases % Tidak Lancar 6 85.7 Lancar 1 14.3 W = 7.00 N = 7 Node 36
Class = Tidak Lancar
JANGKA_WAKTU_ASURANSI <= 5.50 Class Cases % Tidak Lancar 49 74.2 Lancar 17 25.8 W = 66.00 N = 66
commit to user
Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini
Parent Node (Node 36) :
Nilai 𝑅 𝑡 = 𝑟 𝑡 . 𝑃(𝑡)
dengan 𝑟 𝑡 = 1 − max𝑗𝑃(𝑗|𝑡) dan 𝑃(𝑗|𝑡) adalah peluang beberapa objek berada dalam node t.
Dalam node 36 terdapat dua kelas yaitu kelas tidak lancar dan kelas lancar. Nilai probabilitas tiap kelas dalam node 36 adalah sebagai berikut:
𝑃 tidak lancar|𝑛𝑜𝑑𝑒 36 =49
66= 0.742 𝑃 lancar|𝑛𝑜𝑑𝑒 36 =17
66= 0.258
sehingga dengan menggunakan rumus 𝑟 𝑡 = 1 − max𝑗𝑃(𝑗|𝑡), maka diperoleh
𝑟 𝑛𝑜𝑑𝑒 36 = 1 − max
𝑗 𝑃 𝑗|𝑡 = 1 − 0.742 = 0.258 . Nilai probabilitas objek yang berada dalam node 36 adalah
𝑃 𝑛𝑜𝑑𝑒 36 =𝑁 𝑛𝑜𝑑𝑒 36
𝑁 =
66
534= 0.1236 . Oleh karena itu,
𝑅 𝑛𝑜𝑑𝑒 36 = 𝑟 𝑛𝑜𝑑𝑒 36 . 𝑃 𝑛𝑜𝑑𝑒 36 = 0.258 × 0.1236 = 3.18 × 10−2. Selanjutnya pada child node , yaitu terminal node 33 dan terminal
node 34 :
Dengan cara perhitungan yang sama maka, terminal node 33 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.729, sehingga nilai
𝑟 𝑡𝐿 = 1 − max𝑗𝑃(𝑗|𝑡) = 1 − 0.729 = 0.271.
𝑃(𝑡𝐿) adalah peluang banyaknya objek pada anak node sebelah kiri (terminal
commit to user 𝑃 𝑡𝐿 =𝑁 𝑡𝐿
𝑁 =
59
534= 0.11 oleh karena itu,
𝑅 𝑡𝐿 = 𝑟 𝑡𝐿 . 𝑃 𝑡𝐿 = 0.271 × 0.11 = 2.99 × 10−2 .
Terminal node 34 memiliki nilai max𝑗𝑃(𝑗|𝑡) sebesar 0.857, maka nilai 𝑟 𝑡𝑅 = 1 − max
𝑗 𝑃(𝑗|𝑡) = 1 − 0.857 = 0.143
𝑃(𝑡𝑅) adalah peluang banyaknya objek pada anak node sebelah kanan (terminal node 34), maka nilai
𝑃 𝑡𝑅 =𝑁 𝑡𝑅 𝑁 = 7 534= 1.31 × 10−2 sehingga 𝑅 𝑡𝑅 = 𝑟 𝑡𝑅 . 𝑃 𝑡𝑅 = 0.143 × 1.31 × 10−2 = 1.87 × 10−3 . Dengan demikian, persamaan
𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿)
3.18 × 10−2 = 1.87 × 10−3+ 2.99 × 10−2 3.18 × 10−2 = 3.18 × 10−2
terpenuhi untuk node 36, sehingga dilakukan pemangkasan.
5. Pohon Klasifikasi Optimal
Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan pohon klasifikasi optimal. Dari 9 subtree akan dipilih satu pohon klasifikasi dengan nilai penduga pengganti yang terkecil. Dalam mencari pohon klasifikasi optimal digunakan metode Test Sample Estimate yaitu 𝑅𝑡𝑠 𝑇 =
1
𝑁(2) 𝐶(𝑖|𝑗)𝑁𝑖,𝑗 𝑖𝑗(2), karena ukuran data yang besar. Nilai penduga pengganti sample uji (test sample estimate) dari masing-masing subtree terlihat pada Tabel 4.3.
commit to user
Tabel 4.3. Tree Sequence Kondisi Pertama Tree
number
Terminal Nodes Test Set Relative Cost Resubstitution Relative Cost 1 47 0.74162 ± 0.10700 0.47403 2 35 0.74063 ± 0.10553 0.47426 3 32 0.75986 ± 0.10603 0.47441 4 26 0.75986 ± 0.10603 0.48979 5 19 0.78057± 0.10890 0.51241 6 17 0.76134 ± 0.10828 0.52003 7** 9 0.66272 ± 0.10144 0.55887 8 2 0.68097 ± 0.10023 0.60510 9 1 1.00000 ± 0.00000 1.00000 ** Optimal
Pada Tabel 4.3. terlihat bahwa dari kesembilan subtree yang terbentuk,
subtree nomor 7 dengan 9 terminal nodes adalah pohon klasifikasi optimal.
Hal ini dikarenakan memenuhi kriteria nilai test set relative cost 𝑅𝑡𝑠 𝑇𝑘0 = min𝑘𝑅𝑡𝑠 𝑇𝑘 yaitu subtree nomor 7 memiliki nilai paling kecil dari kesembilan subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada Lampiran 3.
6. Predictive Accuracy
Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan pohon klasifikasi optimal pada kondisi pertama dengan menggunakan
𝑅𝑡𝑠 𝑑 = 1 𝑁1 𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 𝑁 (𝑥𝑛,𝑗𝑛)∈ℒ1 = 35 + 38 534 = 73 534= 0.1367
commit to user
Dengan nilai 𝑅𝑡𝑠 𝑑 = 0.1367, maka ketepatan klasifikasinya adalah 1 − 0.1367 = 0.8633 atau 86.33 %. Hasil dari klasifikasi pohon optimal dengan menggunakan data learning dapat dilihat pada Tabel 4.4.
Tabel 4.4. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi
Pertama
Kelas Sebenarnya Total Kelas Persentase Akurasi Lancar N = 407 Tidak Lancar N = 127 Lancar 404 91.34 369 35 Tidak Lancar 130 70.77 38 92 Total 534 Rata-rata 81.05 Persentase Keseluruhan Akurasi 86.33
Kemudian pohon optimal diuji keakuratannya dengan cara mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada data testing adalah
𝑅𝑡𝑠 𝑑 = 1 𝑁2 𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 𝑁 (𝑥𝑛,𝑗𝑛)∈ℒ2 =18 + 16 208 = 34 208= 0.1634
Oleh karena itu ketepatan klasifikasinya adalah 1 − 0.1634 = 0.8365 atau 83.65%. Hasil dari klasifikasi pohon optimal dengan menggunakan data
commit to user
Tabel 4.5. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi
Pertama Kelas Sebenarnya Total Kelas Persentase
Akurasi Lancar N = 407 Tidak Lancar N = 127 Lancar 156 88.46 138 18 Tidak Lancar 52 69.23 16 36 Total 208 Rata-rata 78.85 Persentase Keseluruhan Akurasi 83.65
4.2.2. Pembentukan Pohon Klasifikasi Kondisi Kedua