• Tidak ada hasil yang ditemukan

2 TINJAUAN PUSTAKA

2.4 Decision Tree

Decision tree (pohon keputusan) adalah struktur pohon yang mengandung

internal node (dengan 2 children) dan terminal node (tanpa children). Setiap

internal node berhubungan dengan fungsi keputusan untuk menunjukkan node

berikutnya yang akan dilalui, sementara setiap terminal node merupakan output

dari vektor input yang diberikan.

Decision tree dapat diterapkan pada permasalahan klasifikasi

(classification) ataupun masalah regresi (regression). Pada permasalahan klasifikasi setiap terminal node mengandung sebuah huruf yang menunjukkan kelas perkiraan dari vektor yang diberikan, sedangkan pada permasalahan regresi setiap terminal node biasanya merupakan sebuah konstanta yang merupakan

output dari vektor input.

Algoritme Classification and Regression Tree (CART) dapat digunakan untuk melakukan pemilihan peubah dan merupakan transformasi monotonik dari peubah penjelas x dan peubah respon y. Algoritme CART dapat mengetahui

peubah dominan dari sederet peubah yang dilibatkan dan dapat pula mengidentifikasi peubah-peubah yang hanya berpengaruh danberinteraksi secara lokal dalam kelompok tertentu (Jang et al. 1997; Tran et al. 2009; Kissi & Ramdani 2010).

Beberapa keunggulan yang dimiliki oleh decision tree adalah (Breiman et al. 1984):

1. Struktur datanya dapat dilihat secara visual sehingga berdasarkan model yang dihasilkan dapat memudahkan dalam eksplorasi data dan pengambilan keputusan.

2. Proses pendugaan nilai respon sangat mudah dilakukan dengan menelusuri pohon klasifikasi atau regresi yang dihasilkan.

3. Kemampuan identifikasi prioritas peubah yang mempengaruhi respon dapat diketahui dengan mudah.

4. Mempunyai kemampuan untuk mengidentifikasi interaksi antar peubah yang berpengaruh secara lokal sebagai akibat diterapkannya pengambilan keputusan secara bertahap dalam himpunan-himpunan bagian data pengukuran.

5. Hasil keluaran yang diperoleh lebih mudah untuk diinterpretasikan.

2.4.1 Classification & Regression Tree (CART)

Untuk membangun sebuah decision tree (pohon keputusan) yang cocok, algoritme CART pertamakali menumbuhkan tree secara luas berdasarkan pada gugus data pelatihan, dan kemudian memangkas kembali pohon didasari oleh sebuah prinsip kompleksitas biaya minimum. Hasilnya adalah runutan tree dengan ukuran yang bervariasi, tree terakhir yang dipilih adalah tree dengan ukuran terbaik.

Pembentukan pohon regresi memerlukan 4 komponen (Abdul Kudus, 1999 diacu dalam Suherlan 2006), yaitu :

1. Satu gugus pertanyaan dikotomus dengan bentuk ”Apakah xi ∈ A?” dengan xi merupakan suatu amatan contoh dan A ⊂ x (ruang peubah penjelas). Jawaban dari pertanyaan tersebut menentukan sekatan (partition), atau split bagi ruang peubah penjelas. Amatan dengan jawaban ”ya” masuk

ke anak ruang A sedangkan yang ”tidak” masuk ke ruang komplemen A. Anak ruang contoh yang terbentuk disebut simpul (node).

2. Kriteria goodnes of split φ(s,t) yang merupakan alat evaluasi bagi pemilahan yang dilakukan oleh pemilah (split) s pada simpul t.

3. Ukuran yang digunakan untuk menentukan ukuran pohon yang layak (right sized tree).

4. Statistik yang digunakan sebagai ringkasan dari tiap simpul akhir.

2.4.2. Aturan Pemilahan

Pohon regresi dibentuk melalui pemilahan data pada tiap simpul ke dalam dua simpul anak. Aturannya adalah sebagai berikut:

1. Tiap pemilahan tergantung pada nilai yang hanya berasal dari satu peubah penjelas.

2. Untuk peubah kontinu Xj, pemilahan hanya berasal dari pertanyaan ”Apakah Xj ≤ c ?” untuk c ∈ ℜ. Jadi jika ruang contohnya berukuran n dan terdapat sebanyak-banyaknya n nilai amatan yang berbeda pada peubah Xj, maka akan terdapat sebanyak-banyaknya n-1 split yang berbeda yang dibentuk oleh gugus pertanyaan {”Apakah Xj ≤ c ?”}, dengan i= 1, 2, ...,n-1 dan c nilai tengah-tengah antara dua nilai amatan peubah Xj berurutan yang berbeda.

2.4.3. Aturan Growing dan Kriteria Goodness of Split φ(t)

Pohon regresi dibentuk dengan pemilahan yang rekursif berdasarkan kriteria tertentu. Proses pemilahan dilakukan pada tiap simpul dengan cara :

1. Cari semua kemungkinan pemilahan tiap peubah penjelas.

2. Pilih ”pemilahan terbaik” dari masing-masing peubah penjelas dan pilih ”pemilah terbaik” dari kumpulan ”pemilahan terbaik” tersebut. ”Pemilahan terbaik adalah pemilahan yang memaksimumkan ukuran kehomogenan di dalam masing-masing simpul anak relatif terhadap simpul induknya dan yang memaksimumkan ukuran pemilahan (separation) antara dua simpul anak tersebut.

Jumlah Kuadrat Sisaan digunakan sebagai kriteria kehomogenan di dalam setiap simpul. Misalkan simpul t berisi anak contoh {(Xn,Yn)}, n(t)

maka Jumlah Kuadrat Sisaan di dalam simpul t adalah:

adalah banyaknya amatan dalam simpul t dan rataan respon dalam simpul t adalah

ŷ(t) = (5)

JKS(t) = ∑[Yn − ŷ(t) 2

]

Misalkan ada pemilahan s yang menyekat t menjadi simpul anak kiri t (6)

L dan simpul anak kanan tR

φ(s,t )= JKS (t) – {JKS(t

. Kriteria Jumlah Kuadrat Sisaan Terkecil adalah L) + JKS(tR

dan pemilahan terbaik s* adalah pemilahan yang sedemikian sehingga

)} (7)

φ(s*,t )= max s∈Ω

dengan Ω adalah gugus yang berisi semua kemungkinan pemilahan.

φ(s,t ) (8)

Pemilahan tersebut dihentikan tatkala banyaknya amatan dalam simpul tersebut berjumlah ”tertentu” atau pada saat nilai φ lebih kecil dari suatu nilai ambang (threshold). Simpul yang terakhir dibentuk disebut sebagai simpul akhir (terminal node) atau simpul daun (leaf node).

Pohon yang terbentuk dengan kedua aturan di atas mungkin masih berukuran besar, hal ini bisa mengakibatkan adanya overfitting, dimana rule terus meningkat seiring banyaknya peubah penjelas (input) yang masuk ke dalam model, sehingga perlu ditentukan banyaknya peubah penjelas pada model terbaik. Sebaliknya kasus underfitting terjadi karena tidak adanya pemilahan lebih lanjut akibat adanya tetapan ambang φ(s*,t) padahal sebenarnya pemilahan yang terjadi adalah layak. Cara mengatasi masalah ini adalah mencari pohon dengan ukuran yang layak.

2.4.4 Penentuan Ukuran Pohon yang Layak

Pencarian pohon dengan ukuran yang layak dilakukan dengan (1) penentuan pohon awal yang besar, (2) secara iteratif pohon tersebut dipangkas (pruning) menjadi sekuen pohon yang makin kecil dan tersarang dan (3) dipilih pohon

terbaik dari sekuen ini dengan menggunakan contoh uji (test sample) atau contoh validasi silang (crossvalidation sample).

Pemangkasan pada langkah (2) dilakukan dengan menggunakan ukuran cost complexity minimum. Untuk sembarang pohon T yang merupakan subpohon dari pohon terbesar Tmax

E

diperoleh ukuran complexity-nya |T|. Ukuran complexity

tersebut adalah banyaknya simpul akhir. Ukuran cost complexity E α(T)didefinisikan dengan

αs

dimana αadalah parameter complexity yang menghitung cost terkait complexity

pohon. Sehingga E

(T ) = E (T) + α |T | (9)

α

Untuk setiap nilai α kita dapat mencari subpohon minimum T(α) berhubungan dengan ukuran cost complexity α yang diberikan :

(T) adalah kombinasi linier dari cost of the tree dan

complexitynya.

E α(T(α))=min s∈Ω Eα

Jika T(α) pohon minimum untuk suatu nilai α yang diberikan, maka pohon tersebut akan terus diminimumkan sesuai peningkatan α hingga titik lompatan

α’ dicapai dan pohon baru T(α’) menjadi pohon minimum.

(T )

(10)

Misal bahwa Tmax memiliki L terminal node. Ide pemangkasan pohon arah naik adalah mencari sekuen pohon TL, TL-1,TL-2,... dan T1

{t

sehingga 1}=T1⊂T2⊂...⊂TL-2⊂TL-1⊂TL=Tmax

dimana Ti memiliki L terminal node. Tiap Ti-1 diperoleh dari Ti

Untuk mencari pohon minimisasi berikutnya bagi sebuah pohon T, prosesnya sebagai berikut. Untuk setiap internal node t dalam T, cari nilai α sehingga membuat T - T

melalui minimisasi subpohon pertama oleh ukuran cost complexity sesuai peningkatan nilai α dari nol.

t pohon minimasi berikutnya, nilai α ini dinotasikan αt sama dengan rasio antara perubahan ukuran error dan perubahan jumlah terminal node sebelum dan sesudah pemangkasan:

αt

kemudian pilih internal node dengan α

=

(11) t

1. Menghitung α

paling kecil sebagai node target untuk pemangkasan, sehingga siklus pemangkasan pohon terdiri dari tahap:

t untuk setiap internal node t dalam T 2. Mencari α

i

t minimal dan memilih T-Tt sebagai pohon minimasi berikutnya. Proses ini berulang hingga pohon mengandung node akar (root node) yang tunggal. Masalah sekarang telah dikurangi untuk memilih satu dari calon-calon pohon ini sebagai pohon ukuran optimum. Terdapat 2 metode umum untuk melakukan ini, yaitu penggunaan data checking independen dan melakukan validasi silang.

Dokumen terkait