Evaluasi dan Validasi - SKRIPSI ANALISIS PERBANDINGAN ALGORITMA ID3 DAN C4.5 UNTUK KLASIFIKASI

Pengujian pada algoritma ID3 dan C4.5 dilakukan dengan confusion matrix untuk mengetahui tingkat Sensitivity (recall), PPV (positive predictive value ) atau precision, dan akurasi dari metode klasifikasi yang dibuat :

Untuk menghitung recall dengan rumus : Recall = ^𝑇𝑃

𝑇𝑃+𝐹𝑁

Recall bertujuan untuk mengukur proporsi true positive (TP) terhadap tupelo positif yang diidentifikasi secara benar.

Untuk perhitungan precision menggunakan rumus : Precision = ^𝑇𝑃

𝑇𝑃+𝐹𝑃

Precision bertujuan untuk mengukur proporsi jumlah kasus yang diprediksi positif yang juga positif benar pada data yang sebenarnya.

Akurasi dihitung dengan rumus : Accuracy = ^{𝑎 +𝑑}

𝑎+𝑏+𝑐+𝑑 = ^{𝑇𝑃+𝑇𝑁}

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁

Akurasi bertujuan untuk menjumlah prediksi penerima hibah pemasangan air minum yang benar.

Sehingga dengan mengetahui Recall, Precision, dan Akurasi dapat mengetahui suatu algoritma dikatakan cepat, presisi dan akurat sebagai nilai perbandingan antara algoritma C4.5 dengan ID3.

Untuk menentukan menerima atau tidak menerima hibah sambungan air minum untuk masyarakat berpenghasilan rendah dengan melihat hasil perbandingan antara algoritma C4.5 dan ID3. Antara kedua algoritma tersebut yang memiliki tingkat akurasi yang lebih tinggi yaitu akan digunakan sebagai klasifikasi penerima hibah sambungan air minum secara objektif dan akurat dengan melihat rule-rule yang terbentuk dari algoritma yang memiliki akurasi yang lebih tinggi. Sehingga data yang diolah saat ini dan yang memiliki tingkat akurasi tinggi akan digunakan dalam pengambilan keputusan selanjutnya.

Didalam bab ini penulis akan membahas mengenai data yang akan digunakan dalam penelitian, data tersebut akan dihitung menggunakan algoritma ID3 dan C4.5 yang kemudian akan diuji menggunakan Cross Validation. Pada penelitian ini, data yang digunakan adalah data Masyarakat Berpenghasilan Rendah tahun 2015 pada PDAM Kabupaten Kendal dengan jumlah data 1473(lampiran 1).

4. 1. Perhitungan Algoritma

4. 1. 1 Perhitungan Algoritma ID3

Dibawah ini merupakan contoh perhitungan manual dari penerapan algoritma ID3 untuk klasifikasi penerima hibah air minum dengan menggunakan 240 data training. Pada Algoritma ID3 harus menentukan pohon keputusan yang kemudaian akan menjadi rule untuk mengklasifikasi penerima hibah air minum.

4.1.1. 1. Perhitungan Node 1 o Total

Jumlah kasus (S) = 240

Jumlah Tidak Menerima (S1) = 47 Jumlah Menerima (S2) =193

Entropy(Total) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 47 240∗ log 2 47 240 + − 193 240log 2 193 240

= − 0,196 ∗ −2,351 + − 0,804 ∗ −0,315 = 0,461 + 0,253

=0,714

1. Perhitungan Daya Listrik o Daya listrik  450

Jumlah kasus (S) = 85 Jumlah Tidak Menerima (S1) = 7 Jumlah Menerima (S2) =78

Entropy(450) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 7 85∗ log 2 7 85 + − 78 85log 2 78 85

= − 0,082 ∗ −3,608 + − 0,918 ∗ −0,123 = 0,296 + 0,113

=0,409

o Daya listrik  900

Jumlah kasus (S) = 86 Jumlah Tidak Menerima (S1) = 9 Jumlah Menerima (S2) =77

Entropy(900) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 9 86∗ log 2 9 86 + − 77 86log 2 77 86

= − 0,105 ∗ −3,252 + − 0,895 ∗ −0,160 = 0,341 + 0,143

=0,484

o Daya listrik  1300

Jumlah kasus (S) = 33 Jumlah Tidak Menerima (S1) = 17 Jumlah Menerima (S2) =16

Entropy(1300) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 17 33∗ log 2 17 33 + − 16 33log 2 16 33

= − 0,515 ∗ −0,957 + − 0,485 ∗ −1,044

= 0,493 + 0,506

=0,999

o Daya listrik  pulsa

Jumlah kasus (S) = 20 Jumlah Tidak Menerima (S1) = 6 Jumlah Menerima (S2) =14

Entropy(pulsa) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 6 20∗ log 2 6 20 + − 14 20log 2 14 20

= − 0,3 ∗ − 1,737 + − 0,7 ∗ −0,515 = 0,521 + 0,361

=0,882

o Daya listrik  nyalur

Jumlah kasus (S) = 16 Jumlah Tidak Menerima (S1) = 8 Jumlah Menerima (S2) =8

Entropy(nyalur) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 8 16∗ log 2 8 16 + − 8 16log 2 8 16

= − 0,5 ∗ −1 + − 0,5 ∗ −1

= 0,5 + 0,5

= 1

𝐺𝑎𝑖𝑛 𝑇𝑜𝑡𝑎𝑙, 𝑑𝑎𝑦𝑎 𝑙𝑖𝑠𝑡𝑟𝑖𝑘

= 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑇𝑜𝑡𝑎𝑙 − |𝑑𝑎𝑦𝑎 𝑙𝑖𝑠𝑡𝑟𝑖𝑘_𝑖|

|𝑇𝑜𝑡𝑎𝑙|

𝑛

𝑖−1

∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑑𝑎𝑦𝑎 𝑙𝑖𝑠𝑡𝑟𝑖𝑘_𝑖

= 0,714

2. Perhitungan Fasilitas

o Fasilitas  Tidak Bermobil

Jumlah kasus (S) = 216 Jumlah Tidak Menerima (S1) = 23 Jumlah Menerima (S2) =193

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑡𝑖𝑑𝑎𝑘 𝑏𝑒𝑟𝑚𝑜𝑏𝑖𝑙 = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 +

o Fasilitas  Bermobil

Jumlah kasus (S) = 24 Jumlah Tidak Menerima (S1) = 24 Jumlah Menerima (S2) =0 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑏𝑒𝑟𝑚𝑜𝑏𝑖𝑙 =

− 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 24 24∗ log 2 24 24 + 0

= 0 + 0

= 0

𝐺𝑎𝑖𝑛 𝑇𝑜𝑡𝑎𝑙, 𝑓𝑎𝑠𝑖𝑙𝑖𝑡𝑎𝑠

= 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑇𝑜𝑡𝑎𝑙 − |𝑓𝑎𝑠𝑖𝑙𝑖𝑡𝑎𝑠_𝑖|

|𝑇𝑜𝑡𝑎𝑙|

𝑛

𝑖−1

∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑓𝑎𝑠𝑖𝑙𝑖𝑡𝑎𝑠_𝑖

= 0,714 − 216 240∗ 0,488 + 0

= 0,714 − 0,439

= 0,275

3. Perhitungan Bangunan

o Bangunan  Tidak Tingkat

Jumlah kasus (S) = 229 Jumlah Tidak Menerima (S1) = 37 Jumlah Menerima (S2) =192

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑡𝑖𝑑𝑎𝑘 𝑡𝑖𝑛𝑔𝑘𝑎𝑡 = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 37 229∗ log 2 37 229 + − 192 229log 2 192 229

= − 0,162 ∗ −2,626 + − 0,838 ∗ −0,255 = 0,425 + 0,214

=0,639

o Bangunan  Tingkat

Jumlah kasus (S) = 11 Jumlah Tidak Menerima (S1) = 10 Jumlah Menerima (S2) =1

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑡𝑖𝑛𝑔𝑘𝑎𝑡 =

− 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 10 11∗ log 2 10 11 + − 1 11log 2 1 11

= − 0,909 ∗ −0,138 + − 0,091 ∗ −3,458 = 0,125 + 0,315

=0,440

𝐺𝑎𝑖𝑛 𝑇𝑜𝑡𝑎𝑙, 𝑏𝑎𝑛𝑔𝑢𝑛𝑎𝑛

= 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑇𝑜𝑡𝑎𝑙 − |𝑏𝑎𝑛𝑔𝑢𝑛𝑎𝑛_𝑖|

|𝑇𝑜𝑡𝑎𝑙|

𝑛

𝑖−1

∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑏𝑎𝑛𝑔𝑢𝑛𝑎𝑛_𝑖

= 0,714 − 229 240∗ 0,639 + 11 240∗ 0,639

= 0,714 − 0,609 + 0,020

= 0,714 − 0,629

= 0,085

4. Perhitungan Kesediaan o Kesediaan  ya

Jumlah kasus (S) = 225 Jumlah Tidak Menerima (S1) = 32 Jumlah Menerima (S2) =193

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑦𝑎 = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 32 225∗ log 2 32 225 + − 193 225 log 2 193 225

= − 0,142 ∗ −2,816 + − 0,858 ∗ −0,221 = 0,399 + 0,189

=0,588

o Kesediaan  tidak

Jumlah kasus (S) = 15 Jumlah Tidak Menerima (S1) = 15 Jumlah Menerima (S2) =0

Berdasarkan komputasi dengan algoritma ID3 maka dapat disajikan tabel perhitungan node 1 sebagai berikut :

Tabel 4. 1: Perhitungan ID3 Node 1

Atribut Jumlah

Fasilitas 0,275 Information Gain terbesar yaitu pada atribut Fasilitas yaitu 0,275. Sehingga atribut Fasilitas menjadi node akar. Pada atribut Fasilitas terdapat 2 nilai atribut yaitu tidak bermobil dan bermobil. Nilai atribut yang pertama yaitu tidak bermobil belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut bermobil sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.

Berdasarkan tabel perhitungan Node 1 dapat dibentuk pohon keputusan sebagai berikut :

Gambar 4. 1: Node 1 Algoritma ID3

Gambar diatas merupakan pohon keputusan yang menjadi node akar yaitu atribut fasilitas yang memiliki 2 cabang yaitu sesuai dengan nilai pada fasilitas, pada nilai

bermobil mengklasifikasikan tidak menerima, sedangkan pada nilai tidak bermobil masih belum diketahui yaitu menjadi Node 1.1.

4.1.1. 2. Perhitungan Node 1.1

Berdasarkan komputasi dengan algoritma ID3 maka dapat disajikan tabel perhitungan Node 1.1 sebagai berikut :

Tabel 4. 2: Perhitungan ID3 Node 1.1

Atribut Jumlah Information Gain terbesar yaitu pada atribut Kesediaan yaitu 0,267. Sehingga atribut Kesediaan menjadi node cabang dari nilai atribut fasilitas tidak bermobil.

Pada atribut Kesediaan terdapat 2 nilai atribut yaitu Ya dan tidak. Nilai atribut yang pertama yaitu nilau Ya yang belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut Tidak sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.

Berdasarkan tabel perhitungan Node 1.1 dapat digambarkan pohon keputusan

Gambar 4. 2: Node 1.1 Algoritma ID3

Gambar diatas merupakan hasil dari pohon keputusan Node 1.1 yang terisi dengan atribut kesediaan yang bercabang sesuai dengan nilai yang dimiliki yaitu Ya dan Tidak. Pada nilai tidak sudah dapat diklasifikasikan pada kelas tidak diterima sedangkan pada nilai Ya masih belum diketahui sehingga masih perlu dilakukan perhitungan lagi pada node 1.1.1.

4.1.1. 3. Perhitungan Node 1.1.1

Berdasarkan hasil komputasi dengan algoritma ID3, maka dapat disajikan tabel perhitungan pada Node 1.1.1 sebagai berikut :

Tabel 4. 3: Perhitungan ID3 Node 1.1.1

Atribut Jumlah

900 77 0 77 0

Tabel diatas merupakan hasil perhitungan pada node 1.1.1, diketahui bahwa nilai Information Gain terbesar yaitu pada atribut Bangunan yaitu 0,217. Sehingga atribut Bangunan menjadi node cabang dari nilai atribut kesediaan Ya. Pada atribut Bangunan terdapat 2 nilai atribut yaitu Tidak Tingkat dan Tingkat. Nilai atribut yang pertama yaitu nilau Tingkat yang belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut Tidak Tingkat sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.

Berikut ini merupakan hasil pohon keputusan pada Node 1.1.1 :

Node 1

Gambar 4. 3: Node 1.1.1 Algoritma ID3

Gambar diatas merupakan lanjutan dari Node 1.1.1 yang menjadi node yaitu atribut bangunan yang masih memiliki cabang dua sesuai dengan nilai yang dimilikinya yaitu tidak tingkat dan tingkat. Pada nilai tidak tingkat sudah terklasifikasi yaitu pada kelas menerima sedangkan pada nilai tingkat masih perlu dilakukan klasifikasi lagi pada Node 1.1.1.1.

4.1.1. 4. Perhitungan Node 1.1.1.1

Berdasarkan komputasi pada Algoritma ID3, maka dapat disajikan tabel perhitungan pada Node 1.1.1.1 sebagai berikut :

Tabel 4. 4: Perhitungan ID3 Node 1.1.1.1

Atribut Jumlah

Tabel diatas merupakan hasil perhitungan pada node 1.1.1.1, yang merupakan atribut terakhir. Pada atribut daya listrik terdapat 4 nilai atribut yaitu 450, 900,1300, pulsa, dan nyalur. Nilai atribut yang pertama yaitu nilai 450, dan nyalur yang sudah tidak dapat diklasifikasikan, sedangkan nilai atribut 900 sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sedangkan untuk nilai 1300 dan pulsa mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima.

Pohon keputusan yang menjadi node terakhir yaitu sebagai berikut :

Node 1

Gambar 4. 4: Node 1.1.1.1 Algoritma ID3

Gambar diatas merupakan hasil dari pohon keputusan yang menjadi node 1.1.1.1 yaitu pada atribut daya listrik yang memiliki cabang tiga yaitu nilai 900, 1300, dan pulsa. Dan ketiga nilai tersebut sudah terklasifikasikan, sehingga atribut daya listrik menjadi node yang terakhir.

4. 1. 2 Perhitungan Algoritma C4.5

Dibawah ini merupakan contoh perhitungan manual penerapan algoritma C4.5 untuk klasifikasi penerima hibah air minum menggunakan 240 data. Pada Algoritma C4.5 sama halnya dengan Algoritma ID3 dengan menentukan pohon keputusan yang

kemudian akan menjadi rule untuk klasifikasi penerima hibah air minum.

4. 1. 2. 1. Perhitungan Node 1 o Total

Jumlah kasus (S) = 240

Jumlah Tidak Menerima (S1) = 47 Jumlah Menerima (S2) =193

Entropy(Total) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 47 240∗ log 2 47 240 + − 193 240log 2 193 240

= − 0,196 ∗ −2,351 + − 0,804 ∗ −0,315 = 0,461 + 0,253

=0,714

1. Perhitungan Daya Listrik o Daya listrik  450

Jumlah kasus (S) = 85 Jumlah Tidak Menerima (S1) = 7 Jumlah Menerima (S2) =78

Entropy(450) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 7 85∗ log 2 7 85 + − 78 85log 2 78 85

= − 0,082 ∗ −3,608 + − 0,918 ∗ −0,123 = 0,296 + 0,113

=0,409

o Daya listrik  900

Jumlah kasus (S) = 86 Jumlah Tidak Menerima (S1) = 9

Jumlah Menerima (S2) =77

Entropy(900) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 9 86∗ log 2 9 86 + − 77 86log 2 77 86

= − 0,105 ∗ −3,252 + − 0,895 ∗ −0,160 = 0,341 + 0,143

=0,484

o Daya listrik  1300

Jumlah kasus (S) = 33 Jumlah Tidak Menerima (S1) = 17 Jumlah Menerima (S2) =16

Entropy(1300) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 17 33∗ log 2 17 33 + − 16 33log 2 16 33

= − 0,515 ∗ −0,957 + − 0,485 ∗ −1,044 = 0,493 + 0,506

=0,999

o Daya listrik  pulsa

Jumlah kasus (S) = 20 Jumlah Tidak Menerima (S1) = 6 Jumlah Menerima (S2) =14

Entropy(pulsa) = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 6 20∗ log 2 6 20 + − 14 20log 2 14 20

= − 0,3 ∗ − 1,737 + − 0,7 ∗ −0,515 = 0,521 + 0,361

=0,882

o Daya listrik  nyalur

Jumlah kasus (S) = 16 Jumlah Tidak Menerima (S1) = 8 Jumlah Menerima (S2) =8

= −0,354 ∗ −1,498 + −0,358 ∗ −1,482 + −0,137 ∗ −2,868 + −0,083 ∗ −3,591 + −0,067 ∗ −3,899

= 0,530 + 0,530 + 0,391 + 0,298 + 0,261

= 2,010

𝐺𝑎𝑖𝑛 𝑅𝑎𝑡𝑖𝑜 𝑡𝑜𝑡𝑎𝑙, 𝑑𝑎𝑦𝑎 𝑙𝑖𝑠𝑡𝑟𝑖𝑘 = 𝐺𝑎𝑖𝑛 𝑡𝑜𝑡𝑎𝑙, 𝑑𝑎𝑦𝑎 𝑙𝑖𝑠𝑡𝑟𝑖𝑘 𝑆𝑝𝑙𝑖𝑡 𝐼𝑛𝑓𝑜 𝑡𝑜𝑡𝑎𝑙, 𝑑𝑎𝑦𝑎 𝑙𝑖𝑠𝑡𝑟𝑖𝑘

= 0,119 2,010

= 0, 059

2. Perhitungan Fasilitas

o Fasilitas  Tidak Bermobil

Jumlah kasus (S) = 216 Jumlah Tidak Menerima (S1) = 23 Jumlah Menerima (S2) =193

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑡𝑖𝑑𝑎𝑘 𝑏𝑒𝑟𝑚𝑜𝑏𝑖𝑙 = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 23 216∗ log 2 23 216 + − 193 216log 2 193 216

= − 0,106 ∗ −3,238 + − 0,894 ∗ −0,162 = 0,343 + 0,145

=0,488

o Fasilitas  Bermobil

Jumlah kasus (S) = 24 Jumlah Tidak Menerima (S1) = 24 Jumlah Menerima (S2) =0

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑏𝑒𝑟𝑚𝑜𝑏𝑖𝑙 = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

= − 24 24∗ log 2 24 24 + 0

= 0 + 0

= 0

𝐺𝑎𝑖𝑛 𝑇𝑜𝑡𝑎𝑙, 𝑓𝑎𝑠𝑖𝑙𝑖𝑡𝑎𝑠 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑇𝑜𝑡𝑎𝑙 − |𝑓𝑎𝑠𝑖𝑙𝑖𝑡𝑎𝑠𝑖|

3. Perhitungan Bangunan

o Bangunan  Tidak Tingkat

Jumlah kasus (S) = 229 Jumlah Tidak Menerima (S1) = 37 Jumlah Menerima (S2) =192

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑡𝑖𝑑𝑎𝑘 𝑡𝑖𝑛𝑔𝑘𝑎𝑡 = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆

Jumlah Tidak Menerima (S1) = 10

4. Perhitungan Kesediaan o Kesediaan  ya

Jumlah kasus (S) = 225 Jumlah Tidak Menerima (S1) = 32 Jumlah Menerima (S2) =193

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑦𝑎 = − 𝑆1 𝑆 ∗ log 2 𝑆1 𝑆 + − 𝑆2 𝑆 log 2 𝑆2 𝑆 Jumlah Tidak Menerima (S1) = 15 Jumlah Menerima (S2) =0

= − 225 240∗ log 2 225 240 + − 15 240∗ log 2 15 240

Berdasarkan komputasi diatas dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1 sebagai berikut :

Tabel 4. 5: Perhitungan C4.5 Node 1

Atribut Jml

Tabel diatas merupakan hasil perhitungan pada node 1, diketahui bahwa nilai Gain Ratio terbesar yaitu pada atribut Fasilitas yaitu 0,586. Sehingga atribut Fasilitas menjadi node akar. Pada atribut Fasilitas terdapat 2 nilai atribut yaitu tidak bermobil dan bermobil. Nilai atribut yang pertama yaitu tidak bermobil belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut bermobil sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.

Berdasarkan tabel perhitungan Node 1 dapat dibentuk pohon keputusan sebagai berikut :

Node 1 Fasilitas

Tidak Menerima Bermobil

Node 1.1 Tidak Bermobil

Gambar 4. 5: Node 1 Algoritma C4.5

Gambar diatas merupakan pohon keputusan yang menjadi node akar yaitu atribut fasilitas yang memiliki 2 cabang yaitu sesuai dengan nilai pada fasilitas, pada nilai bermobil mengklasifikasikan tidak menerima, sedangkan pada nilai tidak bermobil masih belum diketahui yaitu menjadi Node 1.1.

4. 1. 2. 2. Perhitungan Node 1.1

Berdasarkan komputasi dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1.1 sebagai berikut :

Tabel 4. 6: Perhitungan C4.5 Node 1.1 Gain Ratio terbesar yaitu pada atribut Kesediaan yaitu 0,733. Sehingga atribut Kesediaan menjadi node cabang dari nilai atribut fasilitas tidak bermobil. Pada atribut Kesediaan terdapat 2 nilai atribut yaitu Ya dan tidak. Nilai atribut yang pertama yaitu nilau Ya yang belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut Tidak sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.

Berdasarkan tabel perhitungan Node 1.1 dapat dibentuk pohon keputusan sebagai berikut :

Node 1

Gambar 4. 6: Node 1.1 Algoritma C4.5

4. 1. 2. 3. Perhitungan Node 1.1.1

Berdasarkan komputasi dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1.1.1 sebagai berikut :

Tabel 4. 7: Perhitungan C4.5 Node 1.1.1

Atribut Jml

Tingkat

Tingkat 9 8 1 0,502

Tabel diatas merupakan hasil perhitungan pada node 1.1.1, diketahui bahwa nilai Gain Ratio terbesar yaitu pada atribut Bangunan yaitu 0,822. Sehingga atribut Bangunan menjadi node cabang dari nilai atribut kesediaan Ya. Pada atribut Bangunan terdapat 2 nilai atribut yaitu Tidak Tingkat dan Tingkat. Kedua Nilai atribut tersebut sudah mengklasifikasikan kasus menjadi satu keputusan sehingga tidak perlu dilakukan perhitungan lagi.

Berdasarkan tabel perhitungan Node 1.1.1 dapat dibentuk pohon keputusan sebagai berikut :

Node 1 Fasilitas

Tidak Menerima Bermobil

Node 1.1 Kesediaan Tidak Bermobil

Node 1.1.1

Bangunan Tidak Menerima Tidak

Menerima

Tidak Tingkat Tingkat Node 1.1.1.1

Gambar 4. 7: Node 1.1.1 Algoritma C4.5

terklasifikasi yaitu pada kelas menerima sedangkan pada nilai tingkat masih perlu dilakukan klasifikasi lagi pada Node 1.1.1.1.

4. 1. 2. 4. Perhitungan Node 1.1.1.1

Berdasarkan komputasi dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1.1.1.1 sebagai berikut :

Tabel 4. 8: Perhitungan C4.5 Node 1.1.1.1

Atribut Jml

Berdasarkan tabel perhitungan Node 1.1.1.1 dapat dibentuk pohon keputusan sebagai berikut :

Node 1

Gambar 4. 8: Node 1.1.1.1 Algoritma C4.5

Pada gambar diatas merupakan hasil dari pohon keputusan, diketahui bahwa semua kasus sudah masuk dalam kelas. Sehingga akan terbentuk sejumlah aturan dalam pohon keputusan tersebut.

Rule yang dapat terbentuk dari pohon keputusan diatas sebagai berikut :

“JIKA fasilitas = bermobil MAKA class = TIDAK MENERIMA”

“JIKA fasilitas = tidak bermobil DAN kesediaan = tidak MAKA class TIDAK MENERIMA”

“JIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tidak tingkat MAKA class = MENERIMA”

“JIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tingkat DAN daya listrik = 900 MAKA class MENERIMA”

“JIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tingkat DAN daya listrik = 1300 MAKA class TIDAK MENERIMA”

“JIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tingkat DAN daya listrik = pulsa MAKA class TIDAK MENERIMA”

4. 2. Evaluasi dan Validasi

Setelah melewati tahap preprosesing selanjutnya tahap pengujian data yang dilakukan menggunakan RapidMiner 5.3. dengan tujuan untuk melihat nilai akurasi, pohon keputusan, dan rule.

Pada model klasifikasi dapat diketahui hasil evaluasi berdasarkan pada banyaknya dataset record yang diklasifikasi secara benar atau tidak benar pada model klasifikasi tersebut. Pengujian model dapat dilakukan dengan menggunakan confusion matrix.

Dari 1473 akan dilakukan pengujian sebanyak 5 kali. Pembagian pengujian dengan data training dan testing yang berbeda. Pengujian data sebagai berikut :

1 Data training dan testing 50%

2 Data training 60% dan data testing 40%

3 Data training 70% dan data testing 30%

4 Data training 80% dan data testing 20%

5 Data training 90% dan data testing 10%

Data training digunakan untuk membentuk model, sedangkan data testing digunakan untuk menguji ketepatan klasifikasi dari model yang telah dibentuk. Berikut merupakan tampilan proses import data Masyarakat Berpenghasilan Rendah tahun 2015 dalam RapidMiner 5.3 :

Gambar 4. 9: Import Data

Pada proses selanjutnya adalah proses pengujian data dengan menggunakan algoritma ID3 dan C4.5 untuk melihat pohon keputusan yang dihasilkan, rule yang terbentuk dan nilai akurasi dari kedua algoritma tersebut. Berikut adalah pengujian algoritma pada RapidMiner 5.3, dengan model pengujian menggunakan cross validation :

 Model Algoritma ID3

Gambar 4. 10: Model Cross Validation pada Algoritma ID3

Pada gambar diatas dataset Masyarakat Berpenghasilan Rendah tahun 2015 dihubungkan dengan operator cross validation yang didalamnya terdapat proses seperti gambar dibawah ini.

Gambar 4. 11: Pengujian Cross Validation pada Algoritma ID3

Gambar diatas merupakan model dari algoritma ID3 yang diterapkan dalam rapidminer, dimana operator dan parameter yang digunakan akan berpengaruh terhadap akurasi dan model yang terbentuk.

 Model Algoritma C4.5

Gambar 4. 12: Model Cross Validation pada Algoritma C4.5

Pada gambar diatas sama halnya pada Algoritma sebelumnya yaitu algoritma ID3, dimana dataset Masyarakat Berpenghasilan Rendah tahun 2015 dihubungkan dengan operator cross validation yang didalamnya terdapat proses seperti gambar dibawah ini.

Gambar 4. 13: Pengujian Cross Validation pada Algoritma C4.5

Gambar diatas merupakan model dari algoritma C4.5, dimana proses dalam membangun model C4.5 penggunaan operator dan parameter sama dengan algoritma ID3. Model C4.5 juga akan berpengaruh terhadap akurasi yang dihasilkan.

4. 3. Hasil Pengujian

Hasil dalam penelitian ini merupakan pohon keputusan dari kedua algoritma yaitu Algoritma ID3 dan C4.5 serta hasil klasifikasi dari data training sebanyak 300 data berdasarkan waktu proses, tingkat akurasi, serta jumlah data dalam kelas Menerima/ Tidak Menerima.

4. 3. 1. Pohon Keputusan

 Pohon Keputusan Algoritma ID3 :

Gambar 4. 14: Pohon Keputusan ID3

Gambar diatas merupakan pohon keputusan yang dihasilkan dari perhitungan entropy dan gain untuk seluruh atribut. Bahwa atribut fasilitas menjadi simpul akar karena fasilitas mempunyai nilai gain tertinggi. Dari simpul akar splittingnya menjadi dua simpul sesuai dengan nilai yang dimilikinya. Untuk cabang paling kanan merupakan simpul 1.1 yaitu kesediaan, karena atribut tersebut mempunyai nilai gain tertinggi. Dibawahnya ada simpul 1.1.1 yang merupakan atribut bangunan yang memiliki nilai gain tertinggi.

 Pohon Keputusan Algoritma C4.5

Gambar 4. 15: Pohon Keputusan Algoritma C4.5

Gambar diatas merupakan hasil pohon keputusan dari algoritma C4.5, pohon keputusan yang dihasilkan sama dengan pohon keputusan dari algoritma ID3. Yang membedakan kedua algoritma tersebut yaitu dalam hal perhitungan, untuk algoritma C4.5 pohon keputusan yang dihasilkan merupakan hasil dari perhitungan Split Information dan gain ratio seluruh atribut. Bahwa atribut fasilitas menjadi simpul akar karena mempunyai nilai gain ratio tertinggi.

4. 3. 2. Confusion Matrix 4.3.2.1 Pengujian 1

 Model Confusion Matrix Algoritma ID3

Pengujian yang pertama data set sebanyak 50% yaitu 736 dari jumlah data 1473. Berikut ini merupakan hasil dari klasifikasi menggunakan RapidMiner 5.3 :

Gambar 4. 16: Pengujian 50% dari Algoritma ID3

Pada saat menggunakan data pengujian sebanyak 50%

waktu yang dibutuhkan untuk menguji adalah 0 second.

Confusion matrix dapat dilihat dari 736 data, 613 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima.

Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 113 data diprediksikan sesuai yaitu tidak menerima.

 Model Confusion Matrix dari Algoritma C4.5

Pengujian yang pertama data set sebanyak 50% yaitu 736 dari jumlah data 1473. Berikut ini merupakan hasil dari klasifikasi menggunakan RapidMiner 5.3 :

Gambar 4. 17: Pengujian 50% dari Algoritma C4.5

Pada saat menggunakan data pengujian sebanyak 50%

waktu yang dibutuhkan untuk menguji adalah 0 second.

Confusion matrix dapat dilihat dari 736 data, 613

diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima.

Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 115 data diprediksikan sesuai yaitu tidak menerima.

4.3.2.2 Pengujian 2

 Model Confusion Matrix dari Algoritma ID3

Berikut ini merupakan hasil pengujian dari 60% data training. Data keseluruhan 1473, data training sebanyak 884 data :

Gambar 4. 18: Pengujian 60% dari Algoritma ID3

Pada saat menggunakan data pengujian sebanyak 60%

waktu yang dibutuhkan untuk menguji adalah 0 second.

Confusion matrix dapat dilihat dari 884 data, 734 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima.

Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 140 data diprediksikan sesuai yaitu tidak menerima.

Berikut ini merupakan hasil pengujian dari 40% data testing sebanyak 589 data :

Gambar 4. 19: Pengujian 40% dari Algoritma ID3

Pada saat menggunakan data pengujian sebanyak 40%

waktu yang dibutuhkan untuk menguji adalah 0 second.

Confusion matrix dapat dilihat dari 589 data, 497 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima.

Untuk 6 data diklasifikasikan tidak menerima ternyata menerima, serta 83 data diprediksikan sesuai yaitu tidak menerima.

 Model Confusion Matrix dari Algoritma C4.5

Berikut ini merupakan hasil pengujian dari 60% data training. Data keseluruhan 1473, data training sebanyak 884 data :

Gambar 4. 20: Pengujian 60% dari Algoritma C4.5

Pada saat menggunakan data pengujian sebanyak 60%

waktu yang dibutuhkan untuk menguji adalah 0 second.

Confusion matrix dapat dilihat dari 884 data, 734 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima.

Untuk 7 data diklasifikasikan tidak menerima ternyata

menerima, serta 142 data diprediksikan sesuai yaitu tidak menerima.

Berikut ini merupakan hasil pengujian dari 40% data testing sebanyak 589 data :

Gambar 4. 21: Pengujian 40% dari Algoritma C4.5

Pada saat menggunakan data pengujian sebanyak 40% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 589 data, 497 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 6 data diklasifikasikan tidak menerima ternyata menerima, serta 85 data diprediksikan sesuai yaitu tidak menerima.

4.3.2.3 Pengujian 3

 Model Confusion Matrix dari Algoritma ID3

Berikut ini merupakan hasil pengujian dari 70% data training. Data keseluruhan 1473, data training sebanyak 1031 data :

Gambar 4. 22: Pengujian 70% dari Algoritma ID3

Pada saat menggunakan data pengujian sebanyak 70%

waktu yang dibutuhkan untuk menguji adalah 0 second.

Confusion matrix dapat dilihat dari 1031 data, 854 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima.

Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 167 data diprediksikan sesuai yaitu tidak menerima.

Berikut ini merupakan hasil pengujian dari 30% data testing sebanyak 442 data :

Gambar 4. 23: Pengujian 30% dari Algoritma ID3

Pada saat menggunakan data pengujian sebanyak 30%

waktu yang dibutuhkan untuk menguji adalah 0 second.

Confusion matrix dapat dilihat dari 442 data, 380 diklasifikasikan prediksi menerima ternyata menerima, 4 data diprediksikan menerima ternyata tidak menerima.

Untuk 4 data diklasifikasikan tidak menerima ternyata menerima, serta 54 data diprediksikan sesuai yaitu tidak menerima.

 Model Confusion Matrix dari Algoritma C4.5

Berikut ini merupakan hasil pengujian dari 70% data training. Data keseluruhan 1473, data training sebanyak 1031 data :

Gambar 4. 24: Pengujian 70% dari Algoritma C4.5

Pada saat menggunakan data pengujian sebanyak 70%

waktu yang dibutuhkan untuk menguji adalah 0 second.

Confusion matrix dapat dilihat dari 1031 data, 854 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima.

Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 169 data diprediksikan sesuai yaitu tidak menerima.

Berikut ini merupakan hasil pengujian dari 30% data testing sebanyak 442 data :

Gambar 4. 25: Pengujian 30% dari Algoritma C4.5

Pada saat menggunakan data pengujian sebanyak 30% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 442 data, 380 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 4 data diklasifikasikan tidak menerima ternyata

Dalam dokumen SKRIPSI ANALISIS PERBANDINGAN ALGORITMA ID3 DAN C4.5 UNTUK KLASIFIKASI PENERIMA HIBAH PEMASANGAN SAMBUNGAN AIR MINUM PADA PDAM KABUPATEN KENDAL (Halaman 45-114)