IPK dikatagorikan (Bagus, Cukup, Kurang)

(1)

LEARNING

ARTIFICIAL INTELLIGENT

(2)

Outline

 Decision tree learning

 Jaringan Syaraf Tiruan

(3)

Decision Tree Learning :

Klasifikasi untuk penerimaan pegawai baru merupakan salah satu studi kasus yang akan dijabarkan. Dimana terdapat 11 orang yang mengikuti tes penerimaan pegawai baru dengan menggunakan 3 parameter atau atribut penilaian sebagai berikut:

 IPK dikatagorikan (Bagus, Cukup, Kurang)

 Psikologi dikatagorikan (Tinggi, Sedang, Rendah)

(4)

Bagaimana menemukan aturan?

Pelamar IPK Psikologi Wawancara Diterima

P1 Bagus Tinggi Baik Ya

P2 Bagus Sedang Baik Ya

P3 Bagus Sedang Buruk Tidak

P4 Bagus Rendah Buruk Tidak

P5 Cukup Tinggi Baik Ya

P6 Cukup Sedang Baik Ya

P7 Cukup Sedang Buruk Tidak

P8 Cukup Rendah Buruk Tidak

P9 Kurang Tinggi Baik Ya

P10 Kurang Sedang Baik Ya

P11 Kurang Sedang Buruk Tidak

(5)

(6)

P3 Bagus Sedang Buruk Ya

P7 Cukup Sedang Buruk Ya

P11 Kurang Rendah Baik Ya

(7)

(8)

(9)

Masalah

 Data tidak lengkap

 IPK : 3 kemungkinan nilai

 Psikologi: 3 kemungkinan nilai

 Wawancara: 2 kemungkinan nilai

 Data lengkap = 3 x 3 x 2 = 18 records

(10)

Learning

 Bagaimana untuk data yang sangat banyak?

 Bagaimana menemukan aturan?

 Bagaimana jika datanya tidak lengkap?

 Aturan yang general untuk data yang akan

datang?

 Menemukan perbedaan dari dua hal yang mirip?

 Menemukan kesamaan dari dua hal yang

(11)

Data penerimaan pegawai baru

(12)

(13)

Langkah Pertama



Tentukan akar dari pohon, akar atau node

awal akan diambil dari atribut yang dipilih,

dengan cara menghitung kemudian memilih

informasi gain

tertinggi dari masing-masing

atribut.



Namun sebelum menghitung gain dari atribut,

(14)

Jumlah sampel setiap atribut :

Jumlah

Sampel Ya Tidak Himpunan

Wawancara Baik 6 6 0

(15)

Menghitung Entropy

 Perhitungan untuk mencari nilai Entropy dari setiap

tupel atribut masing-masing

Entropy

 Parameter untuk mengukur heterogenitas

(keberagaman) dari kumpulan sampel data.

 Jika kumpulan sampel data semakin heterogen,

(16)

Entropy

S : Himpunan Kasus

n : jumlah kelas pada atribut target (jumlah kelas klasifikasi).

(17)

Jumlah sampel setiap atribut :

Jumlah

Sampel Ya Tidak Himpunan

Wawancara Baik 6 6 0

(18)

(19)

(20)

(21)

(22)

(23)

(24)

(25)

(26)

(27)

Menghitung

Information Gain

(IG)

 Efektivitas atribut dalam mengklasifikasikan data

(28)

Information Gain

(IG)

 S : himpunan kasus  A : atribut

 n : jumlah partisi pada atribut A  |S_i | : jumlah sampel pada partisi ke i

 |S| : jumlah seluruh sampel data pada kasus S

(29)

(30)

(31)

(32)

Hasil Perhitungan Gain dan Entropy

Jumlah kasus Ya Tidak Entropi Gain Himpunan

kasus 11 8 3 0.845350936

IPK

0.0048 Bagus 4 3 1 _0.811278124

Cukup 4 3 1 _0.811278124 Kurang 3 2 1 _0.918295834

Psikologi

0.300580492

Tinggi 3 3 0 0

Sedang 5 4 1 _0.647517476 Rendah 3 1 2 _0.918295834

Wawancara

0.404009756

Baik 6 6 0 0

(33)

Menentukan Root dari Decision Tree

 Gain Tertinggi adalah atribut Wawancara

(nilai = 0.404009756), Sehingga  Atribut Wawancara menjadi root dari Decision Tree

 Atribut Wawancara (Nilai : Baik dan Buruk)

 Nilai : Baik  ada 6 kasus “Ya” diterima dan

(34)

(35)

Penentuan Node Pada

Wawancara - Nilai Buruk

(36)

(37)

(38)

(39)

(40)

(41)

(42)

(43)

Hasil Perhitungan Entropy dan Gain

Jumlah

kasus Ya Tidak Entropi Gain

Wawancara 5 2 3

(44)

Penentuan Node Lanjutan

 Gain tertinggi adalah Psikologi sebesar

0.419973093  atribut Psikologi dapat menjadi node lanjutan dari atribut Wawancara – Buruk

 Atribut Psikologi  (Nilai : Sedang dan Rendah)

 Nilai : Rendah  ada 2 kasus “Tidak” diterima

(45)

(46)

Menentukan Daun/Leaf (Node Terakhir)

Pelamar IPK Psikologi Wawancara Diterima

(47)

Menentukan Daun/Leaf (Node Terakhir)

 Tanpa menghitung nilai Entropy dan Gain

 Hal ini dikarenakan, untuk nilai Psikologi – Sedang,

(48)

(49)

Atruan (Rule)

 “JIKA wawancara = baik MAKA diterima”

 “JIKA wawancara = buruk AND psikologi = sedang

AND ipk = bagus MAKA diterima”

AND ipk = cukup MAKA diterima”

AND ipk = kurang MAKA ditolak”

 “JIKA wawancara = buruk AND psikologi = rendah

MAKA ditolak”

 “JIKA wawancara = buruk AND psikologi = tinggi

(50)

(51)

Diskusi

 Jika terdapat dua atribut dengan IG yang sama?

 Jika ada data yang sama tetapi kelasnya

berbeda?

 Berapa jumlah learning data minimum?

(52)

Dua atribut dengan IG sama ?

 Gain(S,IPK) = 0,0049

 Gain(S,Psikologi) = 0,4040

(53)

Data sama, kelasnya beda?

P7 Cukup Sedang Buruk Ya

P8 Cukup Sedang Buruk Tidak

(54)

Jumlah

learning data

?

 Masalah Sentiment Analysis atau Email Spam Filtering

 200.000 kata

 Masing-masing kata muncul 0 – 100 kali

(55)

Imbalance Class?

 Data latih untuk tiap kelas tidak seimbang

 Terutama untuk kasus data kesehatan (rekam medis)

(56)

Daftar Pustaka

 Suyanto. 2007. Artificial Intelligence: Searching, Reasoning, Planning and

Learning. Informatika, Bandung Indonesia. ISBN: 979-1153-05-1.

 Russel, Stuart and Norvig, Peter. 1995. Artificial Intelligence: A Modern