Baru-Baru Ini Dicari

Tidak ada hasil yang ditemukan

Tag

Tidak ada hasil yang ditemukan

Dokumen

Tidak ada hasil yang ditemukan

Unggah

Beranda Sekolah Topik

Masuk

Constructing decision trees

Membagikan "Constructing decision trees"

N/A

N/A

Protected

Tahun akademik: 2024

Info

Protected

Academic year: 2024

Membagikan "Constructing decision trees"

Copied!

12

0

0

Bebas

12

0

0

Memuat.... (Lihat teks lengkap sekarang)

Unduh sekarang ( 12 Halaman )

Teks penuh

(1)

DMML

, 21 Tan ²⁰²⁰

- -

Constructing

^decision

trees

Building

^smallest

tree

^is ^NP ^-

complete

Greedy heuristic

^- ^maximize

improvement

ⁱⁿ

purity Measuring impunity

-

Mrs classification

^rate

-

Entropy

^- ^"

Information gain

^"

-

Gini Index

(2)

Problem with

using information gain directly

^:

Attribute

⁼

Aadhaar

^no

/ Passport

^N^-

/

^Serial

Nof

^. ^.^.

Suppose

^me

pick Aadhaar

^as ^next

question

Dn

Iz

^- ^-

→

D Dr

^←

Kompany

highest possible information gana

^, ^but

totally

^useless

(3)

Penalize attributes ^with

too many possible values

-

Compute entropy ( aim

^index

of attribute itself !

Aadhaar

^- ^{N values}_, ^each ^once ⁱⁿ ^table

Pr

^-^-

IN for

^each ^value

-

Is

^, ^pi

hog

^pi ⁼ ^-

I

,

f- log 's

= _-

log IN

⁼

log

^N

(4)

information

^-

gain ( Ai )

^-

improvement

ⁱⁿ

purity if

^we

choose Ai

entropy ( Ai )

information

^-

gain

^-

raho ( Ai )

^r^.

mfm#Ad

entropy ( Ai )

(5)

Two

^well ^known

implement

^alms

f decision trees

-

CART

^-

Classification

^&

Regression

^Tree

(

_avi _Indy

Brennan

^et

al

- C

4.5

^-

Quinlan

^-

Entropy

-

Continuous attributes ? e.g

^"

salary

^"

"

Cost

^"

(6)

May

^borrow ^lower ^&

upper band for

^Ai

-

Granularity

Typical question should by Ai

^Ev

?

how

^do ^we

choose

^v

?

^→

( Ai Ai

^Z⁼ ^r^v

? ?

All

^we

know abort Ai

^is ^what ^we ^see ⁱⁿ

table

E N _values _across N rows V

,cuz ^C ^- ^- ^C UN

(7)

All ^these

values ^are

equivalent

#{

^Vi

/

^Vz

mfg

,

Vs

the

^Vt ^Yo ^tht ^UN

Mo Mi

Ai

^e

mg ? Try

each

mj

^, ^evaluate

Should ^we choose

midpoints for mj

^,

purity gann

^,

keep the

or actual

vj

^?

best

Better to _use actual

vjs

^. ^-

fr interpreted ihty of

^model

-not

all

^values ^are

possible

(8)

CART

-

Regression

^-

produce

â ^number âs ân ânswer

( Typically

^,

fit

^a

function fkn

^. ^. ^,^xn

) to

^data

Training data has

^a ^numeric ^value ^as

target

1*7*7

(9)

Regression Tree

like

^a

classification tree

TA

variance

is

/ \

_a

good

error

metric

¥

^- ^m ^rows ^-

predict

^mean

satay

(10)

CART

^-

Classification And Regnum

^Tree

( Only asks binary quests

-

how good

^is

the classifier ?

-

what

^is

the

^correct ^measure

?

-

On whet data

^can ^we

compute

^the ^measure

?

L

_{Need data}

for

which cowed^- ane is

known

(11)

Only

^labelled ^data ^we

have

^is

training data

Withhold

^some

training

^data

for testing

Typically 702

^to

build

^model ^,

30%

^to

test

( Be

cauafd to

^select

30%

"

randomly

^"

-

Build

^a ^model ^on

training

^set

-

Evaluate

^on

test

^set

Somethin

^-

training

^data ^is

too sparse to

"

waste^"

(12)

Cross Validation

- Choose

different subsets

^as

test

^data

-

Repeatedly build

^models

10

^-

fold

^cross^validation

-

902 tram

,

10%

^test

=

(

_covers

whole

_data _across ¹⁰

iteration

If

^results ^are

good

,

go

^back ^and ^build ^model ^on

full

^data

Referensi

Unduh sekarang ( PDF - 12 Halaman - 5.15 MB )

Dokumen terkait

ANALISIS SENTIMEN PT TIKI JALUR NUGRAHA EKAKURIR (PT TIKI JNE) PADA MEDIA SOSIAL TWITTER MENGGUNAKAN MODEL FEED FORWARD NEURAL NETWORK

Perbandingan hasil dari pengujian menggunakan 1 hidden layer dengan jumlah node hidden sebanyak 1 sampai 10 node pada data menggunakan 10-fold cross validation

DAFTAR REFERENSI. xii

Seluruh kelas Jalankan Kare, buka sebuah file data masukan, klik tombol Build/RDR, pilih mode pengujian Cross Validation dari box Test Option, text field jumlah

ANALISIS SENTIMEN APLIKASI RUANG GURU DI TWITTER MENGGUNAKAN ALGORITMA KLASIFIKASI

Proses ini dilakukan menggunakan metode 10-fold cross validation, yaitu metode membagi dataset menjadi 10 bagian yang mana 1 bagian diantaranya menjadi data uji

Penerapan Algoritma K-nearest Neighbor Untuk Penentuan Resiko Kredit Kepemilikan Kendaraan Bemotor

Dalam penelitian ini digunakan 10 fold- cross validation dimana 481 record pada data training dibagi secara random ke dalam 10 bagian dengan perbandingan yang sama

ANALISIS SENTIMEN APLIKASI RUANG GURU DI TWITTER MENGGUNAKAN ALGORITMA KLASIFIKASI

Proses ini dilakukan menggunakan metode 10-fold cross validation, yaitu metode membagi dataset menjadi 10 bagian yang mana 1 bagian diantaranya menjadi data uji

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Berdasarkan akurasi yang didapat pada pengujian 10-fold cross validation untuk seratus data tugas akhir, metode Naïve Bayes Classifier dapat melakukan klasifikasi

JOINCS (Journal of Informatics, Network, and Computer Science) Vol 3 No 2 (2020) Articles

menggunakan 10 K-Fold Cross Validation, artinya penulis membagi data menjadi 2, yaitu data uji dan data latih yang dibagi secara acak dan untuk mendapatkan nilai pengujian dari

DIAGNOSA HAMA DAN PENYAKIT PADA TANAMAN PADI MENGGUNAKAN METODE NAÏVE BAYES DAN K-NEAREST NEIGHBOR

Hasil pengujian dari indexing dan nonindexing dengan menggunakan 10- fold cross validation terhadap 153 data uji dapat disimpulkan bahwa nilai akurasi pada

Apakah Anda tertarik untuk menghasilkan pendapatan pasif? Mari kita mulai bersama kami.

Semakin banyak dokumen yang Anda bagikan, semakin banyak uang yang Anda hasilkan!

Dokumen terkait

Sistem Pakar Pendeteksi Hama dan Penyakit Tanaman Mangga Menggunakan Metode Iterative Dichotomiser Tree (ID3)

Sistem Pakar Pendeteksi Hama dan Penyakit Tanaman Mangga Menggunakan Metode Iterative Dichotomiser Tree (ID3)

8

0

0

Tabel 2 Jumlah data prosedur uji. Crop Variable. Jumlah data LAI 104 SPAD 105 yield 64 LAI 104 SPAD 105 yield 64 LAI 62 SPAD 63 yield 34.

Tabel 2 Jumlah data prosedur uji. Crop Variable. Jumlah data LAI 104 SPAD 105 yield 64 LAI 104 SPAD 105 yield 64 LAI 62 SPAD 63 yield 34.

5

0

0

Classification of Corn Seed Quality Using Convolutional Neural Network with Region Proposal and Data Augmentation

Classification of Corn Seed Quality Using Convolutional Neural Network with Region Proposal and Data Augmentation

15

0

0

Application of K-Nearest Neighbor Algorithm on Classification of Disk Hernia and Spondylolisthesis in Vertebral Column

Application of K-Nearest Neighbor Algorithm on Classification of Disk Hernia and Spondylolisthesis in Vertebral Column

10

0

0

A Comparison of C4.5 and K-Nearest Neighbor Algorithm on Classification of Disk Hernia and Spondylolisthesis in Vertebral Column

A Comparison of C4.5 and K-Nearest Neighbor Algorithm on Classification of Disk Hernia and Spondylolisthesis in Vertebral Column

11

0

0

Model Prediksi Kemenangan Tim dalam Game League of Legend Menggunakan Algoritma Decision Tree

Model Prediksi Kemenangan Tim dalam Game League of Legend Menggunakan Algoritma Decision Tree

11

0

0

juita

10

0

0

Machine Learning: Model Evaluation

Machine Learning: Model Evaluation

25

0

0