• Tidak ada hasil yang ditemukan

BAB III METODE PENELITIAN

4.2 Hasil Analisis CART

4.2.3 Pembentukan Pohon Klasifikasi Kondisi Ketiga

Pada kondisi ketiga pembagian data menjadi dua bagian (data

learning dan data testing) dengan proporsi 40%:60%. Dengan demikian data learning berjumlah 308 buah data, sedangkan data testing berjumlah 434 buah data. Sebelum dilakukan proses splitting node, terlebih dahulu memilih variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node 𝑡𝑅 dan node 𝑡𝐿 jika s memaksimalkan nilai ∆𝑖 𝑠, 𝑡 = max𝑠∆𝑖 𝑠, 𝑡 , dimana ∆𝑖 𝑠, 𝑡 adalah nilai yang paling maksimal/tertinggi dari ∆𝑖 𝑠, 𝑡 . Root node dipecah dengan kriteria pemecahan Cara Bayar adalah dengan cara triwulanan, Setengah tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement yaitu ∆𝑖 𝑠, 𝑡 dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal ini dapat dilihat pada Tabel 4.10.

commit to user

Tabel 4.10. Kriteria Pemilahan Terbaik Root Node Kondisi Ketiga Main Splitter Improvement = 0.14753

Competitor Split Improvement N

Left N Right

N Missing

Main Cara Bayar Triwulanan, Setengah Tahunan, Tahunan 0.14753 241 67 0 1 Macam Asuransi Ekawaktu Ideal, Mitra Beasiswa Berencana, Mitra Melati, Mitra Cerdas, Mitra Sehat 0.14238 242 66 0 2 Penghasilan 8000080 0.12576 66 242 0 3 Premi Dasar 100001 0.12576 66 242 0 4 Status Kawin 0.05114 150 158 0 5 Jangka Waktu Asuransi 9.5 0.02861 80 288 0

6 Jenis Kelamin Laki-laki 0.00044 144 164 0

Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node utama yang berisi 308 objek data dipilah menjadi tiga buah terminal nodes.

commit to user

triwulanan, setengah tahunan dan tahunan. Terminal node 2 terbentuk akibat kriteria variabel Cara Bayar adalah bulanan. Proses pemilahan dapat dilihat pada Gambar 4.11. Proses serupa terus berjalan pada node-node lainnya, hingga tersisa satu objek saja yang berada dalam node terakhir atau semua objek yang berada dalam sebuah node merupakan anggota dari kelas yang sama (homogen).

Gambar 4.11. Pemilahan Root Node Kondisi Ketiga 2. Pelabelan Kelas

Pada bagian ini adalah pemberian label kelas pada node-node yang telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14

class assignment rule yaitu jika 𝑝 𝑗|𝑡 = max𝑖𝑝 𝑖|𝑡 𝑚𝑎𝑘𝑎 𝑗 𝑡 = 𝑗 , dimana 𝑗 𝑡 adalah kelas yang diidentifikasikan pada node t . Sebagai contoh, pada Gambar 4.11

𝑃 tidak lancar|𝑡 = 71

308= 0.231 𝑃 lancar|𝑡 =237

308= 0.769

sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada semua node terutama terminal node, karena terminal node adalah node yang

CARA_BAYAR = (Triw ulanan...) Terminal Node 1 Class = Lancar Class Cases % Tidak Lancar 22 9.1 Lancar 219 90.9 W = 241.00 N = 241 CARA_BAYAR = (Bulanan) Terminal Node 2 Class = Tidak Lancar

Class Cases % Tidak Lancar 49 73.1 Lancar 18 26.9 W = 67.00 N = 67 Node 1 Class = Lancar CARA_BAYAR =

(Triw ulanan,Setengah Tahunan, Tahunan) Class Cases % Tidak Lancar 71 23.1 Lancar 237 76.9 W = 308.00 N = 308

commit to user

sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek berada pada terminal node tersebut.

3. Proses Penghentian Pemecahan

Proses splitting node yang berulang-ulang akan berhenti dan menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.13. Proses

splitting node akan berenti karena pada ujung pohon klasifikasi terdapat terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini

terlihat pada terminal node 10 dan 11 dalam Gambar 4.12. Pohon maksimal (Gambar 4.13.) untuk kondisi ketiga mempunyai 18 nonterminal nodes dan 19

terminal nodes.

Gambar 4.12. Terminal node 10 dan 11 kondisi ketiga

Gambar 4.13. Pohon Klasifikasi Maksimal Kondisi Ketiga 4. Proses Pemangkasan Pohon (Tree Prunning Process)

Proses pemangkasan pohon dapat dilihat pada Lampiran 6. Proses pemangkasan pohon klasifikasi maksimal menghasilkan 6 subtree. Proses pemangkasan pohon klasifikasi dimulai dengan mengambil 𝑡𝑅 yang

Terminal Node 10 Class = Lancar Class Cases % Tidak Lancar 0 0.0 Lancar 6 100.0 W = 6.00 N = 6 Terminal Node 11 Class = Tidak Lancar

Class Cases % Tidak Lancar 2 100.0

Lancar 0 0.0

W = 2.00 N = 2

commit to user

merupakan right child node dan 𝑡𝐿 yang merupakan left child node dari 𝑇𝑚𝑎𝑥 yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent

node yang memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿), maka child node 𝑡𝑅 dan 𝑡𝐿 dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan yang mungkin terjadi. Dan diperoleh urutan sebagai berikut 𝑇1, 𝑇2, ⋯ , 𝑡1 , 𝑇1 > 𝑇2 > ⋯ > {𝑡1},

Gambar 4.14. Pohon klasifikasi kondisi ketiga yang akan dipangkas

Pada gambar 4.14 terdapat node yang akan dipangkas yaitu node 9 . Node tersebut mengalami pemangkasan karena parent node dan child node memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿).

Gambar 4.15. Node 9 pada kondisi ketiga yang akan dipangkas

PREMI_DASAR <= 582620.00 Terminal Node 8 Class = Lancar Class Cases % Tidak Lancar 1 10.0 Lancar 9 90.0 W = 10.00 N = 10 PREMI_DASAR > 582620.00 Terminal Node 9 Class = Tidak Lancar

Class Cases % Tidak Lancar 2 66.7 Lancar 1 33.3 W = 3.00 N = 3 PREMI_DASAR <= 601567.50 Node 10 Class = Lancar PREMI_DASAR <= 582620.00 Class Cases % Tidak Lancar 3 23.1 Lancar 10 76.9 W = 13.00 N = 13 PREMI_DASAR > 601567.50 Terminal Node 10 Class = Lancar Class Cases % Tidak Lancar 1 6.3 Lancar 15 93.8 W = 16.00 N = 16 Node 9 Class = Lancar PREMI_DASAR <= 601567.50 Class Cases % Tidak Lancar 4 13.8 Lancar 25 86.2 W = 29.00 N = 29

commit to user

Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini

Parent Node (Node 9) :

Nilai 𝑅 𝑡 = 𝑟 𝑡 . 𝑃(𝑡)

dengan 𝑟 𝑡 = 1 − max𝑗𝑃(𝑗|𝑡) dan 𝑃(𝑗|𝑡) adalah peluang beberapa objek berada dalam node t.

Dalam node 9 terdapat dua kelas yaitu kelas tidak lancar dan kelas lancar. Nilai probabilitas tiap kelas dalam node 8 adalah sebagai berikut:

𝑃 tidak lancar|𝑛𝑜𝑑𝑒 9 = 4

29= 0.138 𝑃 lancar|𝑛𝑜𝑑𝑒 9 =25

29= 0.862

sehingga dengan menggunakan rumus 𝑟 𝑡 = 1 − max𝑗𝑃(𝑗|𝑡), maka diperoleh

𝑟 𝑛𝑜𝑑𝑒 9 = 1 − max

𝑗 𝑃 𝑗|𝑡 = 1 − 0.862 = 0.138 . Nilai probabilitas objek yang berada dalam node 9 adalah

𝑃 𝑛𝑜𝑑𝑒 9 =𝑁 𝑛𝑜𝑑𝑒 9

𝑁 =

29

308= 9.42 × 10−2. Oleh karena itu,

𝑅 𝑛𝑜𝑑𝑒 9 = 𝑟 𝑛𝑜𝑑𝑒 9 . 𝑃 𝑛𝑜𝑑𝑒 9 = 0.138 × 9.42 × 10−2 = 1.3 × 10−2. Selanjutnya pada child node , yaitu node 10 dan terminal node 10 : Dengan cara perhitungan yang sama maka, node 10 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.769, sehingga nilai

𝑟 𝑡𝐿 = 1 − max𝑗𝑃(𝑗|𝑡) = 1 − 0.769 = 0.231.

𝑃(𝑡𝐿) adalah peluang banyaknya objek pada anak node sebelah kiri (Node 10), sehingga nilai

𝑃 𝑡𝐿 =𝑁 𝑡𝐿

𝑁 =

13

commit to user Oleh karena itu,

𝑅 𝑡𝐿 = 𝑟 𝑡𝐿 . 𝑃 𝑡𝐿 = 0.231 × 4.22 × 10−2 = 9.75 × 10−3.

Terminal node 10 memiliki nilai max𝑗𝑃(𝑗|𝑡) sebesar 0.938, sehingga nilai 𝑟 𝑡𝑅 = 1 − max𝑗𝑃(𝑗|𝑡) = 1 − 0.938 = 0.063.

𝑃(𝑡𝑅) adalah peluang banyaknya objek pada anak node sebelah kanan (terminal node 10), sehingga nilai

𝑃 𝑡𝑅 =𝑁 𝑡𝑅

𝑁 =

16

308= 5.19 × 10−2. Oleh karena itu,

𝑅 𝑡𝑅 = 𝑟 𝑡𝑅 . 𝑃 𝑡𝑅 = 0.063 × 5.19 × 10−2 = 3.27 × 10−3. Dengan demikian persamaan

𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿)

1.3 × 10−2 = 3.27 × 10−3+ 9.75 × 10−3 1.3 × 10−2 = 1.3 × 10−2

terpenuhi untuk node 9, sehingga dilakukan pemangkasan.

5. Pohon Klasifikasi Optimal

Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan pohon klasifikasi optimal. Dari 6 subtree akan dipilih satu pohon klasifikasi dengan nilai penduga pengganti yang terkecil. Dalam mencari pohon klasifikasi optimal digunakan metode Test Sample Estimate yaitu 𝑅𝑡𝑠 𝑇 =

1

𝑁(2) 𝐶(𝑖|𝑗)𝑁𝑖,𝑗 𝑖𝑗(2), karena ukuran data yang besar. Nilai penduga pengganti sample uji (test sample estimate) dari masing-masing subtree terlihat pada Tabel 4.11.

commit to user

Tabel 4.11. Tree Sequence Kondisi Ketiga Tree

number

Terminal Nodes Test Set Relative Cost Resubstitution Relative Cost 1 19 0.97749 ± 0.08152 0.40270 2 17 0.94352 ± 0.08177 0.41238 3 11 0.87632 ± 0.07913 0.45464 4 9 0.85727 ± 0.07838 0.46982 5** 2 0.68321 ± 0.06881 0.54355 6 1 1.00000± 0.00000 1.00000 ** Optimal

Pada Tabel 4.11. terlihat bahwa dari keenam subtree yang terbentuk,

subtree nomor 5 dengan 3 terminal nodes adalah pohon klasifikasi optimal.

Hal ini dikarenakan memenuhi kriteria nilai test set relative cost 𝑅𝑡𝑠 𝑇𝑘0 = min𝑘𝑅𝑡𝑠 𝑇𝑘 yaitu subtree nomor 5 memiliki nilai paling kecil dari keenam

subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada Lampiran

7.

6. Predictive Accuracy

Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan pohon klasifikasi optimal pada kondisi pertama dengan menggunakan

𝑅𝑡𝑠 𝑑 = 1 𝑁1 𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 𝑁 (𝑥𝑛,𝑗𝑛)∈ℒ1 = 18 + 22 308 = 40 308= 0.129

Dengan nilai 𝑅𝑡𝑠 𝑑 = 0.129, maka ketepatan klasifikasinya adalah 1 − 0.129 = 0.8701 atau 87.01 %. Hasil dari klasifikasi pohon optimal dengan menggunakan data learning dapat dilihat pada Tabel 4.12

commit to user

Tabel 4.12. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi

Ketiga Kelas

Sebenarnya

Total Kelas Persentase Akurasi Lancar N = 241 Tidak Lancar N = 67 Lancar 237 92.41 219 18 Tidak Lancar 71 69.01 22 49 Total 308 Rata-rata 80.71 Persentase Keseluruhan Akurasi 87.01

Kemudian pohon optimal diuji keakuratannya dengan cara mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada data testing adalah

𝑅𝑡𝑠 𝑑 = 1 𝑁2 𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 𝑁 (𝑥𝑛,𝑗𝑛)∈ℒ2 =32 + 42 434 = 74 434= 0.1705

Oleh karena itu, ketepatan klasifikasinya adalah 1 − 0.1705 = 0.8295 atau 82.95 %. Hasil dari klasifikasi pohon optimal dengan menggunakan data testing dapat dilihat pada Tabel 4.13.

commit to user

Tabel 4.13. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi

Ketiga Kelas Sebenarnya Total

Kelas Persentase Akurasi Lancar N = 333 Tidak Lancar N = 101 Lancar 323 90.09 291 32 Tidak Lancar 111 62.16 42 69 Total 434 Rata-rata 76.13 Persentase Keseluruhan Akurasi 82.95

Dokumen terkait