Pohon Keputusan - LANDASAN TEORI - Implementasi data mining untuk mengindentifikasi profil dona

BAB II LANDASAN TEORI

D. Pohon Keputusan

Pohon keputusan adalah representasi graph dari kumpulan aturan klasifikasi. Pohon keputusan merupakan model data tertentu yang digunakan untuk membantu memecahkan masalah dengan mengklasifikasikan masalah ke dalam banyak kategori untuk dapat memprediksikan hasilnya. Pengklasifikasian masalah pada pohon keputusan dapat dilakukan secara rekursif.

Suatu pohon keputusan adalah suatu graph atau pohon yang memiliki sifat-sifat sebagai berikut :

a. Pohon tersebut memiliki simpul (node) awal yang disebut root.

b. Memiliki beberapa simpul akhir yang tidak

memiliki simpul lanjutan (successor) yang disebut

leaf.

c. Memiliki atribut yang digunakan sebagai internal node, yang mempunyai satu simpul pendahulu (predecessor) dan beberapa simpul lanjutan.

Dalam tugas akhir ini, penulis melakukan analisa dengan menggunakan salah satu algoritma pohon keputusan, yaitu ID3. Algoritma ID3 dipublikasikan oleh J.R Quinlan dalam makalahnya yang berjudul “Induction of Decision Tree”.

Algoritma ID3 merupakan salah satu algoritma yang digunakan untuk membangun sebuah pohon keputusan dari sekumpulan contoh yang ada dimana hasilnya digunakan untuk mengklasifikasikan contoh yang akan datang. Algoritma ID3 memiliki kelas yang didapat dari kumpulan kejadian tertentu dengan proses sebagai berikut :

1. Mengubah bentuk data menjadi model pohon

Langkah-langkah untuk mengubah bentuk data (tabel) menjadi pohon adalah sebagai berikut :

a. Menentukan simpul terpilih

Untuk menentukan simpul terpilih dilakukan penghitungan nilai gain dari setiap kriteria. Nilai gain diperoleh setelah melakukan penghitungan nilai entropi. Simpul yang dipilih adalah kriteria dengan nilai gain yang paling besar.

Entropi (S) merupakan jumlah informasi dalam sebuah atribut dan menggambarkan ukuran homogenitas dari sekumpulan sampel. Suatu himpunan S yang memuat kejadian-kejadian positif dan negatif memiliki entropi dari

himpunan S relatif terhadap klasifikasi biner yang didefinisikan sebagai berikut :

entropi (S) = - P₊log₂P₊ - P_-log₂P_-... 2.1 dimana :

S = ruang sampel data yang digunakan untuk training. P+ = rasio dari kejadian positif dalam S terhadap jumlah

sampel dalam S.

P- = rasio dari kejadian negatif dalam S terhadap jumlah sampel dalam S.

Entropi bernilai 0 bila himpunan S homogen sempurna. Entropi bernilai 1 bila himpunan S tak homogen sempurna. Jika himpunan memuat jumlah sampel positif dan negatif tak sama, entropi akan terletak diantara 0 dan 1.

Nilai rata-rata entropi suatu atribut dirumuskan sebagai berikut: E =

∑

= ⎜⎜_⎝^⎛^⎜_⎝^⎛ ^⎟_⎠^⎞^× ⎟⎟_⎠^⎞ inst i i t i e n n 1 ... 2.2 dimana :

inst = jumlah kejadian

ni = jumlah data kejadian ke-i nt = jumlah total data keseluruhan ei = nilai entropi kejadian ke-i

Setelah menghitung nilai rata-rata entropi, dilakukan perhitungan nilai gain. Gain (S A) adalah informasi yang

diperoleh melalui percabangan simpul pada atribut A. Gain dirumuskan sebagai berikut :

Gain (S A) = Entropi (S) – Nilai rata-rata Entropi (S)…2.3 dimana :

S = ruang sampel data yang digunakan untuk training. A = atribut dalam sampel data training

b. Menyusun pohon

Menyusun pohon dimulai pada simpul terpilih setelah dicari nilai gain. Nilai gain atribut yang terbesar yang dijadikan simpul terpilih. Semakin besar nilai gain, semakin banyak informasi yang dapat diperoleh tentang atribut output. Untuk menentukan simpul daun selanjutnya, dilakukan langkah-langkah berikut ini :

1) Pilih simpul daun yang memiliki sampel data yang tidak homogen.

2) Cari nilai gain pada setiap atribut kecuali atribut yang telah menjadi simpul di atasnya.

3) Tentukan simpul selanjutnya dengan memilih atribut yang memiliki nilai gain paling besar.

2. Mengubah simpul pohon menjadi aturan

Pada langkah ini simpul atau pohon yang telah selesai dibangun diubah menjadi aturan if...then. Simpul-simpul yang ada

merupakan anteseden pada aturan, sedangkan cabang-cabang pada simpul adalah nilai anteseden.

3. Menyederhanakan aturan (prunning)

Tujuan dilakukan prunning adalah untuk mengidentifikasi dan membuang beberapa anteseden (cabang) yang tidak dapat meningkatkan akurasi klasifikasi.

Langkah-langkah penyederhanaan aturan sebagai berikut :

a. Menyederhanakan aturan dengan membuang anteseden yang tidak perlu. Jika aturan memiliki hanya satu anteseden maka tidak perlu disederhanakan. Sebaliknya aturan dengan lebih dari satu anteseden perlu disederhanakan. Langkah-langkah penyederhanaan aturan adalah sebagai berikut:

a.1. Melakukan uji independensi setiap anteseden secara individual dengan konsekuen. Langkah-langkahnya sebagai berikut :

1. Membangun tabel kontingensi untuk setiap aturan yang memiliki dua atau lebih anteseden. Tabel kontingensi merupakan tabel yang merepresentasikan aturan-aturan dengan nilai frekuensi yang teramati. Tabel kontingensi memiliki

r baris dan c kolom. Total baris dan total kolom dalam tabel kontingensi disebut frekuensi marjinal.

Untuk lebih jelasnya, lihat bentuk umum tabel kontingensi 2x2 (Everitt, 1977: bab1) berikut ini:

Tabel 2.1 Bentuk Umum Tabel Kontingensi 2x2

C1 C2 Jumlah Marjinal

R₁ x₁₁ x₁₂ n1r = x11 + x12 R₂ x₂₁ x₂₂ n2r = x₂₁ + x₂₂ Jumlah Marjinal nc1 = x₁₁ + x₂₁ nc2 = x₁₂ + x₂₂ N = x₁₁ + x₁₂ + x₂₁ + x₂₂

dimana :

n1r, n2r = jumlah marjinal baris nc1, nc2 = jumlah marjinal kolom

x₁₁, x₁₂, x₂₁ ,x₂₂ = representasi frekuensi dari setiap pasangan anteseden-konsekuen.

N = jumlah keseluruhan frekuensi

marjinal.

2. Melakukan uji independensi terhadap anteseden dan mengeliminasi aturan yang tidak perlu. Untuk menentukan tingkat independensi suatu anteseden, data-data dari anteseden tertentu diuji dengan menggunakan uji independensi yaitu uji Chi-Square (χ2).

Berikut ini aturan Cochran (1954) yang menjadi pedoman penggunaan uji Chi-Square :

• Tidak satupun nilai frekuensi harapan yang kurang dari 1 (Rasmussen, 1992).

• Nilai frekuensi harapan yang kurang dari 5 tidak lebih dari 20% (Rasmussen, 1992)

Rumus umum untuk mendapatkan frekuensi harapan bagi sembarang sel xij, 1 i r, 1 j c

adalah : N n n E_ij ⁱ× ^j = ... 2.4 dimana :

Eij = Nilai frekuensi harapan baris ke-i kolom ke-j

n = Total frekuensi baris ke-i

n = Total frekuensi kolom ke-j

N = Jumlah total frekuensi keseluruhan.

Diasumsikan akan dilakukan pengamatan terhadap sampel data yang diambil secara random dari sebuah populasi. Pengamatan dikelompokkan berdasarkan dua variabel kualitatif.

Hipotesis nol (H0) yaitu pernyataan atau dugaan mengenai satu atau lebih populasi yang dirumuskan dengan harapan akan ditolak. Penolakan H0 mengakibatkan penerimaan suatu hipotesis alternatif, yang dilambangkan dengan H1. Untuk menguji hipotesis nol (H0) bahwa dua variabel independen dalam sebuah populasi digunakan uji independensi Chi-Square. Jika dua variabel independen maka tidak ada korelasi antara dua variabel tersebut.

Di bawah ini adalah penjelasan mengenai uji Chi-Square :

• Uji Chi-Square

Berikut ini langkah-langkah dalam melakukan uji Chi-Square :

1) Menentukan hipotesis nol (H0) dengan asumsi bahwa dua variabel independen dan hipotesis alternatif (H1) dengan asumsi bahwa dua variabel dependen.

2) Uji independensi Chi-Square antara dua variabel yang teramati dengan frekuensi harapan di bawah H0 didasarkan pada besaran : 2 χ =

( )

∑∑

= = − r i c j _ij ij ij E E n 1 1 2 ... 2.5 dimana : 2

χ = nilai bagi peubah acak yang sebaran penarikan contohnya sangat menghampiri sebaran Chi-Square

2 χ

r = baris c = kolom

nij = nilai frekuensi teramati baris ke-i

kolom ke-j

Eij = nilai frekuensi harapan baris ke-i

kolom ke-j

3) Menghitung derajat bebas (df) dengan rumus sebagai berikut :

df = (r - 1)(c - 1)... 2.6 dimana :

r = baris

4) Menentukan tingkat kepercayaan

α

5) Menggunakan tabel Chi-Square dengan dan df untuk menentukan apakah anteseden secara individual independen dengan konsekuennya. Untuk tingkat kepercayaan sebesar α, nilai kritiknya

dapat diperoleh dari tabel Chi-Square. 2 χ 2 α χ

6) Kesimpulan untuk nilai yang

dihitung dari penjumlahan semua sel adalah : 2 α χ • Bila χ2 ≤ 2 α χ

Terima hipotesis nol yaitu anteseden independen secara individual dengan konsekuen.

• Bila χ² > 2

Tolak hipotesis nol dan terima hipotesis alternatif yaitu anteseden yang dependen secara individual dengan konsekuen.

7) Jika dalam proses uji independensi setiap anteseden secara individual di atas (proses a.1) ditemukan adanya anteseden yang independen secara individual dengan konsekuen maka anteseden tersebut tidak dapat dieliminasi secara langsung. Selanjutnya dilakukan uji independensi anteseden secara bersama-sama dengan konsekuennya (Everitt, 1977).

Jika ditemukan adanya anteseden yang dependen secara individual dengan konsekuen maka uji independensi anteseden secara bersama-sama dengan konsekuen (proses a.2) tidak dilakukan.

a.2. Melakukan uji independensi anteseden secara

bersama-sama dengan konsekuennya. Langkah-langkahnya sebagai berikut :

1) Menentukan hipotesis nol (H0) sebagai berikut :

H0 : P_ijk = P_i.. P._j. P.._k; dengan asumsi bahwa dua variabel secara bersama-sama independen dengan konsekuen.

2) Membuat tabel kontingensi multidimensional berdasarkan semua kejadian dari anteseden dan konsekuen.

3) Membuat tabel frekuensi harapan dengan rumus sebagai berikut :

..

.

..

N

n

E

_ijk

=

ⁱ ^j ^k _{... 2.7} dimana : ijk

E = nilai frekuensi harapan baris ke-i, kolom ke-j, layer ke-k

n = jumlah marjinal baris ke-i

n. = jumlah marjinal kolom ke-j

n.. = jumlah marjinal layer ke-k

N = jumlah total frekuensi keseluruhan. 4) Melakukan uji Chi-Square dengan rumus

sebagai berikut :

( )

∑∑∑

= = = − = ^r i c j l k ijk ijk ijk E E n 1 1 1 2 2 χ ... 2.8 dimana : r = jumlah baris c = jumlah kolom l = jumlah layer

5) Menghitung derajat kebebasan dengan rumus sebagai berikut:

d.f = rcl – r – c – l + 2 ... 2.9 6) Menggunakan tabel Chi-Square dengan

dan d.f untuk menentukan apakah anteseden secara bersama-sama independen dengan konsekuennya. Untuk tingkat kepercayaan sebesar α, nilai kritiknya dapat diperoleh dari tabel Chi-Square.

2 χ

7) Kesimpulan untuk nilai yang dihitung dari penjumlahan semua sel adalah :

2 α χ • Bila χ2 ≤ 2 α χ

Terima hipotesis nol yaitu anteseden independen secara bersama-sama dengan konsekuen.

• Bila χ² > 2

Tolak hipotesis nol dan terima hipotesis alternatif yaitu anteseden yang dependen secara bersama-sama dengan konsekuen. Suatu kriteria tidak dapat dieliminasi.

8) Jika dalam proses uji independensi anteseden secara bersama-sama di atas ditemukan :

• Anteseden independen secara bersama-sama dengan konsekuen, maka anteseden yang independen secara individual dengan konsekuen (pada proses a.1) dapat dieliminasi.

• Anteseden dependen secara bersama-sama dengan konsekuen, maka semua anteseden tersebut tidak dapat dieliminasi.

b. Menyederhanakan aturan dengan mengeliminasi aturan yang tidak perlu.

Penyederhanaan aturan selanjutnya yaitu dengan mengeliminasi aturan yang tidak perlu. Default rule

merupakan salah satu cara untuk menyederhanakan aturan.

Default rule dibuat dengan mencari konsekuen yang paling banyak dari aturan. Aturan yang memiliki konsekuen tersebut dijadikan default rule.

Dalam dokumen Implementasi data mining untuk mengindentifikasi profil donatur organisasi veteran Amerika menggunakan model pohon keputusan [decision tree] - USD Repository (Halaman 33-47)