Langkah Kerja Pembentukan Pohon Regresi

BAB II LANDASAN TEORI

2.1 Tinjauan Pustaka

2.1.6 Langkah Kerja Pembentukan Pohon Regresi

Menurut Lewis (2000) pada dasarnya dalam membuat sebuah pohon regresi, CART bekerja dalam empat langkah utama. Langkah pertama adalah pembentukan pohon regresi melalui proses pemilahan simpul yaitu proses pemilahan simpul induk menjadi dua buah simpul anak melalui aturan pemilahan tertentu dan dilakukan secara berulang-ulang. Langkah kedua adalah proses pemberhentian pembentukan pohon regresi. Pada tahap ini pohon maksimal (T_max) telah terbentuk. Langkah ketiga adalah proses pemangkasan pohon menjadi pohon yang lebih kecil . Selanjutnya langkah terakhir adalah proses pemilihan pohon regresi optimal. Berikut ini dijelaskan langkah kerja pembentukan pohon regresi.

a. Aturan Pemilahan dalam Pohon Regresi

Tahapan pemilahan seperti dijelaskan oleh Komalasari (2007) sebagai berikut: 1. Semua kemungkinan pemilahan ditentukan dari setiap variabel prediktor. Tiap

pemilahan tergantung pada nilai yang berasal dari satu variabel prediktor. Misal terdapat variabel prediktor sebanyak . Untuk variabel kontinu dengan adalah jenis variabel prediktor, pemilahan yang diperbolehkan adalah dan dimana adalah nilai tengah antara dua nilai amatan variabel secara berurutan. Jika mempunyai sebanyak nilai yang berbeda maka akan terdapat pemilahan.

perpustakaan.uns.ac.id digilib.uns.ac.id

2. Pada variabel kategorik pemilahan yang terjadi berasal dari semua kemungkinan pemilahan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint). Jika adalah variabel kategorik nominal dengan kategori, maka akan ada pemilahan, sedangkan jika adalah variabel kategorik ordinal maka akan terdapat pemilahan.

b. Aturan Penumbuhan Pohon dan Kriteria Pemilah Terbaik Proses pemilahan dilakukan pada tiap simpul dengan cara sebagai berikut. 1. semua kemungkinan pemilahan dicari pada setiap variabel prediktor (Timofeev,

2004),

2. pemilah terbaik dipilih dari masing-masing pemilahan terbaik yang ada. Pemilah terbaik dihitung berdasarkan selisih jumlah kuadrat deviasi dari masing-masing simpul dengan simpul pemilahnya. Selisih terbesar akan dijadikan sebagai pemilah terbaik.

Jumlah kuadrat deviasi digunakan sebagai kriteria kehomogenan pada tiap-tiap simpul . Jumlah kuadrat deviasi di dalam simpul adalah

dengan dimana dalam suatu simpul , nilai adalah nilai individu variabel respon dalam simpul , nilai adalah nilai individu variabel prediktor yang berada dalam simpul , nilai adalah nilai rata-rata untuk semua data dalam simpul , dan adalah jumlah data yang berada dalam simpul (Breiman et al., 1993).

Definisi 2.3. (Breiman et al., 1993) Pemilah terbaik dari simpul adalah pemilah

pada yang memaksimumkan jumlah kuadrat pohon regresi .

Setiap pemilah dari menjadi dan maka

Pemilihan pemilah terbaik menjadi sebuah pemilah menyebabkan

perpustakaan.uns.ac.id digilib.uns.ac.id

yaitu selisih jumlah kuadrat deviasi terbesar yang dijadikan pemilah terbaik dimana adalah kumpulan pemilah biner, dan masing-masing adalah simpul anak kiri dan simpul anak kanan.

c. Pemberhentian Pemilahan Pohon

Proses pembentukan pohon regresi berhenti apabila sudah tidak dimungkinkan lagi dilakukan proses pemilahan. Awalnya dibentuk pohon yang besar kemudian dilakukan proses pemilahan untuk meminimumkan . Pemilahan berhenti apabila tidak terdapat lagi penurunan keheterogenan atau semua nilai yang ada pada sebuah simpul adalah sama (homogen), ukuran simpul induk minimum 10 (Steinberg and Colla, 1998) yaitu ukuran minimum dimana simpul tidak akan dipilah, hanya terdapat satu pengamatan pada tiap simpul anak atau adanya batasan minimum serta adanya batasan jumlah level atau tingkat kedalaman pohon maksimal (Breiman et al., 1993). Pemilahan yang akan menghasilkan simpul anak yang lebih kecil tidak dipertimbangkan. Penambahan simpul induk yang diperbolehkan dan ukuran simpul anak digunakan untuk mengatur atau membatasi pertumbuhan pohon (Steinberg and Colla, 1998). Simpul-simpul yang tidak mengalami pemilahan lagi akan menjadi simpul terminal atau simpul akhir. Pohon regresi yang terbentuk sebagai hasil dari proses ini dinamakan pohon maksimal .

d. Pemangkasan Pohon Regresi

Pohon yang dibentuk dengan aturan pemilahan dan aturan pembentukan berukuran sangat besar. Hal ini karena aturan pemberhentian yang digunakan hanya berdasarkan banyaknya data pada simpul akhir atau besarnya peningkatan kehomogenan. Oleh karena itu, pemangkasan pohon dilakukan untuk mendapatkan pohon akhir yang lebih sederhana. Pemangkasan pohon dilakukan dengan memangkas menjadi beberapa pohon regresi yang ukurannya lebih kecil (sub pohon).

Sebuah simpul disebut descendan (anak) dari simpul dan simpul disebut ancestor dari simpul jika kedua simpul ini bisa dihubungkan oleh jalur-jalur yang

perpustakaan.uns.ac.id digilib.uns.ac.id

bergerak dari atas ke bawah (simpul berada di atas simpul ). Pada Gambar 2.3 pohon regresi dan adalah descendan dari tetapi tidak dengan dan . Begitu pula dengan dan adalah ancestor dari tetapi bukan ancestor dari (Breiman et al., 1993).

Gambar 2.3. Pohon Regresi

Gambar 2.4. Cabang

Gambar 2.5. Pohon Regresi t1 t3 t2 t₆ t₇ t9 t8 t2 t5 t₄ t₁₀ t₁₁ t9 t8 t₂ t5 t4 t10 t11 t1 t₃ t6 t7 perpustakaan.uns.ac.id digilib.uns.ac.id commit to user

Definisi 2.4. (Breiman et al., 1993) Suatu cabang dari dengan simpul akar terdiri dari simpul itu sendiri dengan semua descendant dari dalam .

Sebagai contoh pada Gambar 2.4 cabang terdiri dari simpul dan descendant

dari yaitu dan .

Definisi 2.5. (Breiman et al., 1993) Pemangkasan sebuah cabang dari pohon akan menghasilkan semua descendant dari kecuali simpul akarnya ( itu sendiri). Sebagai contoh pada Gambar 2.5 pohon regresi adalah hasil pemangkasan dari simpul . Jika pemangkasan terjadi pada simpul maka descendant dari yaitu dan dipangkas kecuali simpul akarnya yaitu simpul itu sendiri.

Definisi 2.6. (Breiman et al., 1993) Jika diperoleh dari sebagai hasil dari pemangkasan suatu cabang, maka disebut pruned subtree dari dan dinotasikan

dengan . Sebagai catatan dan memiliki simpul akar yang sama.

Sebagai contoh gambar pohon regresi menunjukkan pruned subtree.

Proses pemangkasan pohon dimulai dengan mengambil yang merupakan simpul anak kanan dan yang merupakan simpul anak kiri dari yang dihasilkan dari simpul induk . Jika diperoleh dua simpul anak dan simpul induk pada persamaan (2.3) berjumlah 0 atau maka simpul anak dan tersebut dipangkas. Hasilnya seperti pada persamaan (2.4) yaitu pohon yang memenuhi kriteria . Inti dari pemangkasan adalah pemotongan hubungan terlemah (weakest-link cutting) pada pohon regresi (Breiman et al., 1993). Jika pada pohon regresi tidak terpenuhi maka pemangkasan dimulai dari pohon yang memenuhi . Proses pemangkasan diulang sampai tidak ada lagi pemangkasan yang mungkin dan diperoleh urutan sebagai berikut

dimana dengan .

perpustakaan.uns.ac.id digilib.uns.ac.id

e. Penentuan Ukuran Pohon Regresi Optimal

Pohon regresi yang terbentuk dapat berukuran besar dan kompleks dalam menggambarkan struktur data. Sehingga perlu dilakukan suatu pemangkasan pohon untuk mendapatkan pohon akhir yang lebih sederhana. Pemangkasan dilakukan dengan memangkas bagian pohon yang kurang penting sehingga didapat pohon optimal. Pemangkasan yang digunakan adalah dengan membagi data menjadi data pelatihan dan data uji. Proporsi pembagian pohon data pelatihan dan data uji ditentukan sendiri oleh peneliti karena tidak ada aturan dalam membagi data. Proses pemangkasan pohon yang terjadi adalah dengan membangun pohon menggunakan data pelatihan kemudian menggunakan pohon yang terbentuk untuk sampel data uji.

Menurut Breiman et al. (1993) cara yang digunakan untuk menduga tingkat kesalahan prediksi dari suatu model pohon regresi adalah dengan menggunakan nilai kesalahan penduga sampel uji, data pengamatan dibagi dua secara acak menjadi data pelatihan dan data uji . Data pelatihan digunakan untuk membentuk urutan

dari pemangkasan pohon. Rumus kesalahan penduga sampel uji adalah

dimana adalah jumlah data uji, adalah nilai individu variabel prediktor yang berada dalam data uji, adalah nilai individu variabel respon yang berada dalam data uji, dan adalah dugaan respon dari pengamatan ke pada pohon ke .

f. Penduga Kesalahan Standar

Penduga kesalahan standar adalah ukuran dari ketidakpastian di sekitar tingkat kesalahan sebenarnya (sampel uji) dari pohon regresi saat berhadapan dengan data baru. Jadi, nilai penduga kesalahan standar memberikan gambaran ketidakpastian dari penduga tingkat kesalahan.

Berdasarkan Definisi (2.2) (Breiman et al., 1993) yaitu sebagai dasar penduga respon untuk jika nilai tidak diketahui dan yaitu variansi dari yang merupakan rata-rata kuadrat kesalahan menggunakan nilai

perpustakaan.uns.ac.id digilib.uns.ac.id

yang tetap sebagai penduga respon . Jika ditentukan dan atau maka kesalahan relatif penduga sampel uji pada pohon ke- seperti pada persamaan (2.1) dapat dituliskan menggunakan persamaan (2.2) menjadi

persamaan (2.5) merupakan penduga rata-rata kuadrat kesalahan dari

Pada penduga kesalahan standar, nilai dapat diganti dengan dalam menentukan kesalahan standar dari . Untuk menentukan kesalahan standar dari

, dianggap adalah tetap dan persamaan (2.6) dapat ditulis dalam bentuk

dengan dan adalah penduga yang tetap untuk dan dan adalah penduga yang tetap untuk . Variansi dari sama seperti variansi dari

yaitu

perpustakaan.uns.ac.id digilib.uns.ac.id

dimana , dan untuk .

Misal data pelatihan sebanyak dipilih secara independen dari suatu distribusi probabilitas tertentu dan anggap bahwa data pelatihan digunakan untuk membentuk penduga respon . Data uji sebanyak dipilih secara independen dari distribusi

yang sama dinotasikan dengan . Setiap pasangan

memiliki distribusi yang sama, sehingga variansi dari setiap pasangan sama dengan variansi dari pasangan pertama.

menggunakan estimasi momen sampel

sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

diketahui bahwa

dengan demikian dapat diestimasi dengan

Diketahui bahwa

menggunakan estimasi momen sampel

sehingga

perpustakaan.uns.ac.id digilib.uns.ac.id

diperoleh

dengan demikian dapat diestimasi dengan

Diketahui bahwa

diperoleh

perpustakaan.uns.ac.id digilib.uns.ac.id

dengan demikian dapat diestimasi dengan

Rumus kesalahan standar dari diperoleh menggunakan persamaan (2.7), (2.8) dan (2.9) sebagai berikut

Dalam dokumen Analisis Faktor-Faktor yang Mempengaruhi Berat Badan Bayi Saat Lahir di Kota Surakarta Menggunakan Metode Pohon Regresi (Halaman 25-35)