Pengujian pada algoritma ID3 dan C4.5 dilakukan dengan confusion matrix untuk mengetahui tingkat Sensitivity (recall), PPV (positive predictive value ) atau precision, dan akurasi dari metode klasifikasi yang dibuat :
Untuk menghitung recall dengan rumus : Recall = ππ
ππ+πΉπ
Recall bertujuan untuk mengukur proporsi true positive (TP) terhadap tupelo positif yang diidentifikasi secara benar.
Untuk perhitungan precision menggunakan rumus : Precision = ππ
ππ+πΉπ
Precision bertujuan untuk mengukur proporsi jumlah kasus yang diprediksi positif yang juga positif benar pada data yang sebenarnya.
Akurasi dihitung dengan rumus : Accuracy = π +π
π+π+π+π = ππ+ππ
ππ+ππ+πΉπ+πΉπ
Akurasi bertujuan untuk menjumlah prediksi penerima hibah pemasangan air minum yang benar.
Sehingga dengan mengetahui Recall, Precision, dan Akurasi dapat mengetahui suatu algoritma dikatakan cepat, presisi dan akurat sebagai nilai perbandingan antara algoritma C4.5 dengan ID3.
Untuk menentukan menerima atau tidak menerima hibah sambungan air minum untuk masyarakat berpenghasilan rendah dengan melihat hasil perbandingan antara algoritma C4.5 dan ID3. Antara kedua algoritma tersebut yang memiliki tingkat akurasi yang lebih tinggi yaitu akan digunakan sebagai klasifikasi penerima hibah sambungan air minum secara objektif dan akurat dengan melihat rule-rule yang terbentuk dari algoritma yang memiliki akurasi yang lebih tinggi. Sehingga data yang diolah saat ini dan yang memiliki tingkat akurasi tinggi akan digunakan dalam pengambilan keputusan selanjutnya.
35
Didalam bab ini penulis akan membahas mengenai data yang akan digunakan dalam penelitian, data tersebut akan dihitung menggunakan algoritma ID3 dan C4.5 yang kemudian akan diuji menggunakan Cross Validation. Pada penelitian ini, data yang digunakan adalah data Masyarakat Berpenghasilan Rendah tahun 2015 pada PDAM Kabupaten Kendal dengan jumlah data 1473(lampiran 1).
4. 1. Perhitungan Algoritma
4. 1. 1 Perhitungan Algoritma ID3
Dibawah ini merupakan contoh perhitungan manual dari penerapan algoritma ID3 untuk klasifikasi penerima hibah air minum dengan menggunakan 240 data training. Pada Algoritma ID3 harus menentukan pohon keputusan yang kemudaian akan menjadi rule untuk mengklasifikasi penerima hibah air minum.
4.1.1. 1. Perhitungan Node 1 o Total
Jumlah kasus (S) = 240
Jumlah Tidak Menerima (S1) = 47 Jumlah Menerima (S2) =193
Entropy(Total) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 47 240β log 2 47 240 + β 193 240log 2 193 240
= β 0,196 β β2,351 + β 0,804 β β0,315 = 0,461 + 0,253
=0,714
1. Perhitungan Daya Listrik o Daya listrik ο 450
Jumlah kasus (S) = 85 Jumlah Tidak Menerima (S1) = 7 Jumlah Menerima (S2) =78
Entropy(450) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 7 85β log 2 7 85 + β 78 85log 2 78 85
= β 0,082 β β3,608 + β 0,918 β β0,123 = 0,296 + 0,113
=0,409
o Daya listrik ο 900
Jumlah kasus (S) = 86 Jumlah Tidak Menerima (S1) = 9 Jumlah Menerima (S2) =77
Entropy(900) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 9 86β log 2 9 86 + β 77 86log 2 77 86
= β 0,105 β β3,252 + β 0,895 β β0,160 = 0,341 + 0,143
=0,484
o Daya listrik ο 1300
Jumlah kasus (S) = 33 Jumlah Tidak Menerima (S1) = 17 Jumlah Menerima (S2) =16
Entropy(1300) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 17 33β log 2 17 33 + β 16 33log 2 16 33
= β 0,515 β β0,957 + β 0,485 β β1,044
= 0,493 + 0,506
=0,999
o Daya listrik ο pulsa
Jumlah kasus (S) = 20 Jumlah Tidak Menerima (S1) = 6 Jumlah Menerima (S2) =14
Entropy(pulsa) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 6 20β log 2 6 20 + β 14 20log 2 14 20
= β 0,3 β β 1,737 + β 0,7 β β0,515 = 0,521 + 0,361
=0,882
o Daya listrik ο nyalur
Jumlah kasus (S) = 16 Jumlah Tidak Menerima (S1) = 8 Jumlah Menerima (S2) =8
Entropy(nyalur) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 8 16β log 2 8 16 + β 8 16log 2 8 16
= β 0,5 β β1 + β 0,5 β β1
= 0,5 + 0,5
= 1
πΊπππ πππ‘ππ, πππ¦π πππ π‘πππ
= πΈππ‘ππππ¦ πππ‘ππ β |πππ¦π πππ π‘ππππ|
|πππ‘ππ|
π
πβ1
β πΈππ‘ππππ¦ πππ¦π πππ π‘ππππ
= 0,714
2. Perhitungan Fasilitas
o Fasilitas ο Tidak Bermobil
Jumlah kasus (S) = 216 Jumlah Tidak Menerima (S1) = 23 Jumlah Menerima (S2) =193
πΈππ‘ππππ¦ π‘ππππ ππππππππ = β π1 π β log 2 π1 π +
o Fasilitas ο Bermobil
Jumlah kasus (S) = 24 Jumlah Tidak Menerima (S1) = 24 Jumlah Menerima (S2) =0 πΈππ‘ππππ¦ ππππππππ =
β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 24 24β log 2 24 24 + 0
= 0 + 0
= 0
πΊπππ πππ‘ππ, πππ ππππ‘ππ
= πΈππ‘ππππ¦ πππ‘ππ β |πππ ππππ‘ππ π|
|πππ‘ππ|
π
πβ1
β πΈππ‘ππππ¦ πππ ππππ‘ππ π
= 0,714 β 216 240β 0,488 + 0
= 0,714 β 0,439
= 0,275
3. Perhitungan Bangunan
o Bangunan ο Tidak Tingkat
Jumlah kasus (S) = 229 Jumlah Tidak Menerima (S1) = 37 Jumlah Menerima (S2) =192
πΈππ‘ππππ¦ π‘ππππ π‘ππππππ‘ = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 37 229β log 2 37 229 + β 192 229log 2 192 229
= β 0,162 β β2,626 + β 0,838 β β0,255 = 0,425 + 0,214
=0,639
o Bangunan ο Tingkat
Jumlah kasus (S) = 11 Jumlah Tidak Menerima (S1) = 10 Jumlah Menerima (S2) =1
πΈππ‘ππππ¦ π‘ππππππ‘ =
β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 10 11β log 2 10 11 + β 1 11log 2 1 11
= β 0,909 β β0,138 + β 0,091 β β3,458 = 0,125 + 0,315
=0,440
πΊπππ πππ‘ππ, πππππ’πππ
= πΈππ‘ππππ¦ πππ‘ππ β |πππππ’ππππ|
|πππ‘ππ|
π
πβ1
β πΈππ‘ππππ¦ πππππ’ππππ
= 0,714 β 229 240β 0,639 + 11 240β 0,639
= 0,714 β 0,609 + 0,020
= 0,714 β 0,629
= 0,085
4. Perhitungan Kesediaan o Kesediaan ο ya
Jumlah kasus (S) = 225 Jumlah Tidak Menerima (S1) = 32 Jumlah Menerima (S2) =193
πΈππ‘ππππ¦ π¦π = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 32 225β log 2 32 225 + β 193 225 log 2 193 225
= β 0,142 β β2,816 + β 0,858 β β0,221 = 0,399 + 0,189
=0,588
o Kesediaan ο tidak
Jumlah kasus (S) = 15 Jumlah Tidak Menerima (S1) = 15 Jumlah Menerima (S2) =0
Berdasarkan komputasi dengan algoritma ID3 maka dapat disajikan tabel perhitungan node 1 sebagai berikut :
Tabel 4. 1: Perhitungan ID3 Node 1
Atribut Jumlah
Fasilitas 0,275 Information Gain terbesar yaitu pada atribut Fasilitas yaitu 0,275. Sehingga atribut Fasilitas menjadi node akar. Pada atribut Fasilitas terdapat 2 nilai atribut yaitu tidak bermobil dan bermobil. Nilai atribut yang pertama yaitu tidak bermobil belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut bermobil sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.
Berdasarkan tabel perhitungan Node 1 dapat dibentuk pohon keputusan sebagai berikut :
Gambar 4. 1: Node 1 Algoritma ID3
Gambar diatas merupakan pohon keputusan yang menjadi node akar yaitu atribut fasilitas yang memiliki 2 cabang yaitu sesuai dengan nilai pada fasilitas, pada nilai
bermobil mengklasifikasikan tidak menerima, sedangkan pada nilai tidak bermobil masih belum diketahui yaitu menjadi Node 1.1.
4.1.1. 2. Perhitungan Node 1.1
Berdasarkan komputasi dengan algoritma ID3 maka dapat disajikan tabel perhitungan Node 1.1 sebagai berikut :
Tabel 4. 2: Perhitungan ID3 Node 1.1
Atribut Jumlah Information Gain terbesar yaitu pada atribut Kesediaan yaitu 0,267. Sehingga atribut Kesediaan menjadi node cabang dari nilai atribut fasilitas tidak bermobil.
Pada atribut Kesediaan terdapat 2 nilai atribut yaitu Ya dan tidak. Nilai atribut yang pertama yaitu nilau Ya yang belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut Tidak sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.
Berdasarkan tabel perhitungan Node 1.1 dapat digambarkan pohon keputusan
Gambar 4. 2: Node 1.1 Algoritma ID3
Gambar diatas merupakan hasil dari pohon keputusan Node 1.1 yang terisi dengan atribut kesediaan yang bercabang sesuai dengan nilai yang dimiliki yaitu Ya dan Tidak. Pada nilai tidak sudah dapat diklasifikasikan pada kelas tidak diterima sedangkan pada nilai Ya masih belum diketahui sehingga masih perlu dilakukan perhitungan lagi pada node 1.1.1.
4.1.1. 3. Perhitungan Node 1.1.1
Berdasarkan hasil komputasi dengan algoritma ID3, maka dapat disajikan tabel perhitungan pada Node 1.1.1 sebagai berikut :
Tabel 4. 3: Perhitungan ID3 Node 1.1.1
Atribut Jumlah
900 77 0 77 0
Tabel diatas merupakan hasil perhitungan pada node 1.1.1, diketahui bahwa nilai Information Gain terbesar yaitu pada atribut Bangunan yaitu 0,217. Sehingga atribut Bangunan menjadi node cabang dari nilai atribut kesediaan Ya. Pada atribut Bangunan terdapat 2 nilai atribut yaitu Tidak Tingkat dan Tingkat. Nilai atribut yang pertama yaitu nilau Tingkat yang belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut Tidak Tingkat sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.
Berikut ini merupakan hasil pohon keputusan pada Node 1.1.1 :
Node 1
Gambar 4. 3: Node 1.1.1 Algoritma ID3
Gambar diatas merupakan lanjutan dari Node 1.1.1 yang menjadi node yaitu atribut bangunan yang masih memiliki cabang dua sesuai dengan nilai yang dimilikinya yaitu tidak tingkat dan tingkat. Pada nilai tidak tingkat sudah terklasifikasi yaitu pada kelas menerima sedangkan pada nilai tingkat masih perlu dilakukan klasifikasi lagi pada Node 1.1.1.1.
4.1.1. 4. Perhitungan Node 1.1.1.1
Berdasarkan komputasi pada Algoritma ID3, maka dapat disajikan tabel perhitungan pada Node 1.1.1.1 sebagai berikut :
Tabel 4. 4: Perhitungan ID3 Node 1.1.1.1
Atribut Jumlah
Tabel diatas merupakan hasil perhitungan pada node 1.1.1.1, yang merupakan atribut terakhir. Pada atribut daya listrik terdapat 4 nilai atribut yaitu 450, 900,1300, pulsa, dan nyalur. Nilai atribut yang pertama yaitu nilai 450, dan nyalur yang sudah tidak dapat diklasifikasikan, sedangkan nilai atribut 900 sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sedangkan untuk nilai 1300 dan pulsa mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima.
Pohon keputusan yang menjadi node terakhir yaitu sebagai berikut :
Node 1
Gambar 4. 4: Node 1.1.1.1 Algoritma ID3
Gambar diatas merupakan hasil dari pohon keputusan yang menjadi node 1.1.1.1 yaitu pada atribut daya listrik yang memiliki cabang tiga yaitu nilai 900, 1300, dan pulsa. Dan ketiga nilai tersebut sudah terklasifikasikan, sehingga atribut daya listrik menjadi node yang terakhir.
4. 1. 2 Perhitungan Algoritma C4.5
Dibawah ini merupakan contoh perhitungan manual penerapan algoritma C4.5 untuk klasifikasi penerima hibah air minum menggunakan 240 data. Pada Algoritma C4.5 sama halnya dengan Algoritma ID3 dengan menentukan pohon keputusan yang
kemudian akan menjadi rule untuk klasifikasi penerima hibah air minum.
4. 1. 2. 1. Perhitungan Node 1 o Total
Jumlah kasus (S) = 240
Jumlah Tidak Menerima (S1) = 47 Jumlah Menerima (S2) =193
Entropy(Total) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 47 240β log 2 47 240 + β 193 240log 2 193 240
= β 0,196 β β2,351 + β 0,804 β β0,315 = 0,461 + 0,253
=0,714
1. Perhitungan Daya Listrik o Daya listrik ο 450
Jumlah kasus (S) = 85 Jumlah Tidak Menerima (S1) = 7 Jumlah Menerima (S2) =78
Entropy(450) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 7 85β log 2 7 85 + β 78 85log 2 78 85
= β 0,082 β β3,608 + β 0,918 β β0,123 = 0,296 + 0,113
=0,409
o Daya listrik ο 900
Jumlah kasus (S) = 86 Jumlah Tidak Menerima (S1) = 9
Jumlah Menerima (S2) =77
Entropy(900) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 9 86β log 2 9 86 + β 77 86log 2 77 86
= β 0,105 β β3,252 + β 0,895 β β0,160 = 0,341 + 0,143
=0,484
o Daya listrik ο 1300
Jumlah kasus (S) = 33 Jumlah Tidak Menerima (S1) = 17 Jumlah Menerima (S2) =16
Entropy(1300) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 17 33β log 2 17 33 + β 16 33log 2 16 33
= β 0,515 β β0,957 + β 0,485 β β1,044 = 0,493 + 0,506
=0,999
o Daya listrik ο pulsa
Jumlah kasus (S) = 20 Jumlah Tidak Menerima (S1) = 6 Jumlah Menerima (S2) =14
Entropy(pulsa) = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 6 20β log 2 6 20 + β 14 20log 2 14 20
= β 0,3 β β 1,737 + β 0,7 β β0,515 = 0,521 + 0,361
=0,882
o Daya listrik ο nyalur
Jumlah kasus (S) = 16 Jumlah Tidak Menerima (S1) = 8 Jumlah Menerima (S2) =8
= β0,354 β β1,498 + β0,358 β β1,482 + β0,137 β β2,868 + β0,083 β β3,591 + β0,067 β β3,899
= 0,530 + 0,530 + 0,391 + 0,298 + 0,261
= 2,010
πΊπππ π ππ‘ππ π‘ππ‘ππ, πππ¦π πππ π‘πππ = πΊπππ π‘ππ‘ππ, πππ¦π πππ π‘πππ πππππ‘ πΌπππ π‘ππ‘ππ, πππ¦π πππ π‘πππ
= 0,119 2,010
= 0, 059
2. Perhitungan Fasilitas
o Fasilitas ο Tidak Bermobil
Jumlah kasus (S) = 216 Jumlah Tidak Menerima (S1) = 23 Jumlah Menerima (S2) =193
πΈππ‘ππππ¦ π‘ππππ ππππππππ = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 23 216β log 2 23 216 + β 193 216log 2 193 216
= β 0,106 β β3,238 + β 0,894 β β0,162 = 0,343 + 0,145
=0,488
o Fasilitas ο Bermobil
Jumlah kasus (S) = 24 Jumlah Tidak Menerima (S1) = 24 Jumlah Menerima (S2) =0
πΈππ‘ππππ¦ ππππππππ = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
= β 24 24β log 2 24 24 + 0
= 0 + 0
= 0
πΊπππ πππ‘ππ, πππ ππππ‘ππ = πΈππ‘ππππ¦ πππ‘ππ β |πππ ππππ‘ππ π|
3. Perhitungan Bangunan
o Bangunan ο Tidak Tingkat
Jumlah kasus (S) = 229 Jumlah Tidak Menerima (S1) = 37 Jumlah Menerima (S2) =192
πΈππ‘ππππ¦ π‘ππππ π‘ππππππ‘ = β π1 π β log 2 π1 π + β π2 π log 2 π2 π
Jumlah Tidak Menerima (S1) = 10
4. Perhitungan Kesediaan o Kesediaan ο ya
Jumlah kasus (S) = 225 Jumlah Tidak Menerima (S1) = 32 Jumlah Menerima (S2) =193
πΈππ‘ππππ¦ π¦π = β π1 π β log 2 π1 π + β π2 π log 2 π2 π Jumlah Tidak Menerima (S1) = 15 Jumlah Menerima (S2) =0
= β 225 240β log 2 225 240 + β 15 240β log 2 15 240
Berdasarkan komputasi diatas dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1 sebagai berikut :
Tabel 4. 5: Perhitungan C4.5 Node 1
Atribut Jml
Tabel diatas merupakan hasil perhitungan pada node 1, diketahui bahwa nilai Gain Ratio terbesar yaitu pada atribut Fasilitas yaitu 0,586. Sehingga atribut Fasilitas menjadi node akar. Pada atribut Fasilitas terdapat 2 nilai atribut yaitu tidak bermobil dan bermobil. Nilai atribut yang pertama yaitu tidak bermobil belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut bermobil sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.
Berdasarkan tabel perhitungan Node 1 dapat dibentuk pohon keputusan sebagai berikut :
Node 1 Fasilitas
Tidak Menerima Bermobil
Node 1.1 Tidak Bermobil
Gambar 4. 5: Node 1 Algoritma C4.5
Gambar diatas merupakan pohon keputusan yang menjadi node akar yaitu atribut fasilitas yang memiliki 2 cabang yaitu sesuai dengan nilai pada fasilitas, pada nilai bermobil mengklasifikasikan tidak menerima, sedangkan pada nilai tidak bermobil masih belum diketahui yaitu menjadi Node 1.1.
4. 1. 2. 2. Perhitungan Node 1.1
Berdasarkan komputasi dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1.1 sebagai berikut :
Tabel 4. 6: Perhitungan C4.5 Node 1.1 Gain Ratio terbesar yaitu pada atribut Kesediaan yaitu 0,733. Sehingga atribut Kesediaan menjadi node cabang dari nilai atribut fasilitas tidak bermobil. Pada atribut Kesediaan terdapat 2 nilai atribut yaitu Ya dan tidak. Nilai atribut yang pertama yaitu nilau Ya yang belum mengklasifikasikan kasus menjadi satu keputusan sehingga perlu dilakukan perhitungan lagi, sedangkan nilai atribut Tidak sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima, sehingga tidak perlu dilakukan perhitungan lebih lanjut.
Berdasarkan tabel perhitungan Node 1.1 dapat dibentuk pohon keputusan sebagai berikut :
Node 1
Gambar 4. 6: Node 1.1 Algoritma C4.5
Gambar diatas merupakan hasil dari pohon keputusan Node 1.1 yang terisi dengan atribut kesediaan yang bercabang sesuai dengan nilai yang dimiliki yaitu Ya dan Tidak. Pada nilai tidak sudah dapat diklasifikasikan pada kelas tidak diterima sedangkan pada nilai Ya masih belum diketahui sehingga masih perlu dilakukan perhitungan lagi pada node 1.1.1.
4. 1. 2. 3. Perhitungan Node 1.1.1
Berdasarkan komputasi dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1.1.1 sebagai berikut :
Tabel 4. 7: Perhitungan C4.5 Node 1.1.1
Atribut Jml
Tingkat
Tingkat 9 8 1 0,502
Tabel diatas merupakan hasil perhitungan pada node 1.1.1, diketahui bahwa nilai Gain Ratio terbesar yaitu pada atribut Bangunan yaitu 0,822. Sehingga atribut Bangunan menjadi node cabang dari nilai atribut kesediaan Ya. Pada atribut Bangunan terdapat 2 nilai atribut yaitu Tidak Tingkat dan Tingkat. Kedua Nilai atribut tersebut sudah mengklasifikasikan kasus menjadi satu keputusan sehingga tidak perlu dilakukan perhitungan lagi.
Berdasarkan tabel perhitungan Node 1.1.1 dapat dibentuk pohon keputusan sebagai berikut :
Node 1 Fasilitas
Tidak Menerima Bermobil
Node 1.1 Kesediaan Tidak Bermobil
Node 1.1.1
Bangunan Tidak Menerima Tidak
Ya
Menerima
Tidak Tingkat Tingkat Node 1.1.1.1
Gambar 4. 7: Node 1.1.1 Algoritma C4.5
Gambar diatas merupakan lanjutan dari Node 1.1.1 yang menjadi node yaitu atribut bangunan yang masih memiliki cabang dua sesuai dengan nilai yang dimilikinya yaitu tidak tingkat dan tingkat. Pada nilai tidak tingkat sudah
terklasifikasi yaitu pada kelas menerima sedangkan pada nilai tingkat masih perlu dilakukan klasifikasi lagi pada Node 1.1.1.1.
4. 1. 2. 4. Perhitungan Node 1.1.1.1
Berdasarkan komputasi dengan algoritma C4.5, maka dapat disajikan tabel perhitungan Node 1.1.1.1 sebagai berikut :
Tabel 4. 8: Perhitungan C4.5 Node 1.1.1.1
Atribut Jml
Tabel diatas merupakan hasil perhitungan pada node 1.1.1.1, yang merupakan atribut terakhir. Pada atribut daya listrik terdapat 4 nilai atribut yaitu 450, 900,1300, pulsa, dan nyalur. Nilai atribut yang pertama yaitu nilai 450, dan nyalur yang sudah tidak dapat diklasifikasikan, sedangkan nilai atribut 900 sudah mengklasifikasikan menjadi 1 yaitu dengan hasil Menerima, sedangkan untuk nilai 1300 dan pulsa mengklasifikasikan menjadi 1 yaitu dengan hasil Tidak Menerima.
Berdasarkan tabel perhitungan Node 1.1.1.1 dapat dibentuk pohon keputusan sebagai berikut :
Node 1
Gambar 4. 8: Node 1.1.1.1 Algoritma C4.5
Pada gambar diatas merupakan hasil dari pohon keputusan, diketahui bahwa semua kasus sudah masuk dalam kelas. Sehingga akan terbentuk sejumlah aturan dalam pohon keputusan tersebut.
Rule yang dapat terbentuk dari pohon keputusan diatas sebagai berikut :
βJIKA fasilitas = bermobil MAKA class = TIDAK MENERIMAβ
βJIKA fasilitas = tidak bermobil DAN kesediaan = tidak MAKA class TIDAK MENERIMAβ
βJIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tidak tingkat MAKA class = MENERIMAβ
βJIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tingkat DAN daya listrik = 900 MAKA class MENERIMAβ
βJIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tingkat DAN daya listrik = 1300 MAKA class TIDAK MENERIMAβ
βJIKA fasilitas = tidak bermobil DAN kesediaan = ya DAN bangunan = tingkat DAN daya listrik = pulsa MAKA class TIDAK MENERIMAβ
4. 2. Evaluasi dan Validasi
Setelah melewati tahap preprosesing selanjutnya tahap pengujian data yang dilakukan menggunakan RapidMiner 5.3. dengan tujuan untuk melihat nilai akurasi, pohon keputusan, dan rule.
Pada model klasifikasi dapat diketahui hasil evaluasi berdasarkan pada banyaknya dataset record yang diklasifikasi secara benar atau tidak benar pada model klasifikasi tersebut. Pengujian model dapat dilakukan dengan menggunakan confusion matrix.
Dari 1473 akan dilakukan pengujian sebanyak 5 kali. Pembagian pengujian dengan data training dan testing yang berbeda. Pengujian data sebagai berikut :
1 Data training dan testing 50%
2 Data training 60% dan data testing 40%
3 Data training 70% dan data testing 30%
4 Data training 80% dan data testing 20%
5 Data training 90% dan data testing 10%
Data training digunakan untuk membentuk model, sedangkan data testing digunakan untuk menguji ketepatan klasifikasi dari model yang telah dibentuk. Berikut merupakan tampilan proses import data Masyarakat Berpenghasilan Rendah tahun 2015 dalam RapidMiner 5.3 :
Gambar 4. 9: Import Data
Pada proses selanjutnya adalah proses pengujian data dengan menggunakan algoritma ID3 dan C4.5 untuk melihat pohon keputusan yang dihasilkan, rule yang terbentuk dan nilai akurasi dari kedua algoritma tersebut. Berikut adalah pengujian algoritma pada RapidMiner 5.3, dengan model pengujian menggunakan cross validation :
ο· Model Algoritma ID3
Gambar 4. 10: Model Cross Validation pada Algoritma ID3
Pada gambar diatas dataset Masyarakat Berpenghasilan Rendah tahun 2015 dihubungkan dengan operator cross validation yang didalamnya terdapat proses seperti gambar dibawah ini.
Gambar 4. 11: Pengujian Cross Validation pada Algoritma ID3
Gambar diatas merupakan model dari algoritma ID3 yang diterapkan dalam rapidminer, dimana operator dan parameter yang digunakan akan berpengaruh terhadap akurasi dan model yang terbentuk.
ο· Model Algoritma C4.5
Gambar 4. 12: Model Cross Validation pada Algoritma C4.5
Pada gambar diatas sama halnya pada Algoritma sebelumnya yaitu algoritma ID3, dimana dataset Masyarakat Berpenghasilan Rendah tahun 2015 dihubungkan dengan operator cross validation yang didalamnya terdapat proses seperti gambar dibawah ini.
Gambar 4. 13: Pengujian Cross Validation pada Algoritma C4.5
Gambar diatas merupakan model dari algoritma C4.5, dimana proses dalam membangun model C4.5 penggunaan operator dan parameter sama dengan algoritma ID3. Model C4.5 juga akan berpengaruh terhadap akurasi yang dihasilkan.
4. 3. Hasil Pengujian
Hasil dalam penelitian ini merupakan pohon keputusan dari kedua algoritma yaitu Algoritma ID3 dan C4.5 serta hasil klasifikasi dari data training sebanyak 300 data berdasarkan waktu proses, tingkat akurasi, serta jumlah data dalam kelas Menerima/ Tidak Menerima.
4. 3. 1. Pohon Keputusan
ο· Pohon Keputusan Algoritma ID3 :
Gambar 4. 14: Pohon Keputusan ID3
Gambar diatas merupakan pohon keputusan yang dihasilkan dari perhitungan entropy dan gain untuk seluruh atribut. Bahwa atribut fasilitas menjadi simpul akar karena fasilitas mempunyai nilai gain tertinggi. Dari simpul akar splittingnya menjadi dua simpul sesuai dengan nilai yang dimilikinya. Untuk cabang paling kanan merupakan simpul 1.1 yaitu kesediaan, karena atribut tersebut mempunyai nilai gain tertinggi. Dibawahnya ada simpul 1.1.1 yang merupakan atribut bangunan yang memiliki nilai gain tertinggi.
ο· Pohon Keputusan Algoritma C4.5
Gambar 4. 15: Pohon Keputusan Algoritma C4.5
Gambar diatas merupakan hasil pohon keputusan dari algoritma C4.5, pohon keputusan yang dihasilkan sama dengan pohon keputusan dari algoritma ID3. Yang membedakan kedua algoritma tersebut yaitu dalam hal perhitungan, untuk algoritma C4.5 pohon keputusan yang dihasilkan merupakan hasil dari perhitungan Split Information dan gain ratio seluruh atribut. Bahwa atribut fasilitas menjadi simpul akar karena mempunyai nilai gain ratio tertinggi.
4. 3. 2. Confusion Matrix 4.3.2.1 Pengujian 1
ο· Model Confusion Matrix Algoritma ID3
Pengujian yang pertama data set sebanyak 50% yaitu 736 dari jumlah data 1473. Berikut ini merupakan hasil dari klasifikasi menggunakan RapidMiner 5.3 :
Gambar 4. 16: Pengujian 50% dari Algoritma ID3
Pada saat menggunakan data pengujian sebanyak 50%
waktu yang dibutuhkan untuk menguji adalah 0 second.
Confusion matrix dapat dilihat dari 736 data, 613 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima.
Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 113 data diprediksikan sesuai yaitu tidak menerima.
ο· Model Confusion Matrix dari Algoritma C4.5
Pengujian yang pertama data set sebanyak 50% yaitu 736 dari jumlah data 1473. Berikut ini merupakan hasil dari klasifikasi menggunakan RapidMiner 5.3 :
Gambar 4. 17: Pengujian 50% dari Algoritma C4.5
Pada saat menggunakan data pengujian sebanyak 50%
waktu yang dibutuhkan untuk menguji adalah 0 second.
Confusion matrix dapat dilihat dari 736 data, 613
diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima.
Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 115 data diprediksikan sesuai yaitu tidak menerima.
4.3.2.2 Pengujian 2
ο· Model Confusion Matrix dari Algoritma ID3
Berikut ini merupakan hasil pengujian dari 60% data training. Data keseluruhan 1473, data training sebanyak 884 data :
Gambar 4. 18: Pengujian 60% dari Algoritma ID3
Pada saat menggunakan data pengujian sebanyak 60%
waktu yang dibutuhkan untuk menguji adalah 0 second.
Confusion matrix dapat dilihat dari 884 data, 734 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima.
Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 140 data diprediksikan sesuai yaitu tidak menerima.
Berikut ini merupakan hasil pengujian dari 40% data testing sebanyak 589 data :
Gambar 4. 19: Pengujian 40% dari Algoritma ID3
Pada saat menggunakan data pengujian sebanyak 40%
waktu yang dibutuhkan untuk menguji adalah 0 second.
Confusion matrix dapat dilihat dari 589 data, 497 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima.
Untuk 6 data diklasifikasikan tidak menerima ternyata menerima, serta 83 data diprediksikan sesuai yaitu tidak menerima.
ο· Model Confusion Matrix dari Algoritma C4.5
Berikut ini merupakan hasil pengujian dari 60% data training. Data keseluruhan 1473, data training sebanyak 884 data :
Gambar 4. 20: Pengujian 60% dari Algoritma C4.5
Pada saat menggunakan data pengujian sebanyak 60%
waktu yang dibutuhkan untuk menguji adalah 0 second.
Confusion matrix dapat dilihat dari 884 data, 734 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima.
Untuk 7 data diklasifikasikan tidak menerima ternyata
menerima, serta 142 data diprediksikan sesuai yaitu tidak menerima.
Berikut ini merupakan hasil pengujian dari 40% data testing sebanyak 589 data :
Gambar 4. 21: Pengujian 40% dari Algoritma C4.5
Pada saat menggunakan data pengujian sebanyak 40% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 589 data, 497 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 6 data diklasifikasikan tidak menerima ternyata menerima, serta 85 data diprediksikan sesuai yaitu tidak menerima.
4.3.2.3 Pengujian 3
ο· Model Confusion Matrix dari Algoritma ID3
Berikut ini merupakan hasil pengujian dari 70% data training. Data keseluruhan 1473, data training sebanyak 1031 data :
Gambar 4. 22: Pengujian 70% dari Algoritma ID3
Pada saat menggunakan data pengujian sebanyak 70%
waktu yang dibutuhkan untuk menguji adalah 0 second.
Confusion matrix dapat dilihat dari 1031 data, 854 diklasifikasikan prediksi menerima ternyata menerima, 3 data diprediksikan menerima ternyata tidak menerima.
Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 167 data diprediksikan sesuai yaitu tidak menerima.
Berikut ini merupakan hasil pengujian dari 30% data testing sebanyak 442 data :
Gambar 4. 23: Pengujian 30% dari Algoritma ID3
Pada saat menggunakan data pengujian sebanyak 30%
waktu yang dibutuhkan untuk menguji adalah 0 second.
Confusion matrix dapat dilihat dari 442 data, 380 diklasifikasikan prediksi menerima ternyata menerima, 4 data diprediksikan menerima ternyata tidak menerima.
Untuk 4 data diklasifikasikan tidak menerima ternyata menerima, serta 54 data diprediksikan sesuai yaitu tidak menerima.
ο· Model Confusion Matrix dari Algoritma C4.5
Berikut ini merupakan hasil pengujian dari 70% data training. Data keseluruhan 1473, data training sebanyak 1031 data :
Gambar 4. 24: Pengujian 70% dari Algoritma C4.5
Pada saat menggunakan data pengujian sebanyak 70%
waktu yang dibutuhkan untuk menguji adalah 0 second.
Confusion matrix dapat dilihat dari 1031 data, 854 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima.
Untuk 7 data diklasifikasikan tidak menerima ternyata menerima, serta 169 data diprediksikan sesuai yaitu tidak menerima.
Berikut ini merupakan hasil pengujian dari 30% data testing sebanyak 442 data :
Gambar 4. 25: Pengujian 30% dari Algoritma C4.5
Pada saat menggunakan data pengujian sebanyak 30% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 442 data, 380 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 4 data diklasifikasikan tidak menerima ternyata
Pada saat menggunakan data pengujian sebanyak 30% waktu yang dibutuhkan untuk menguji adalah 0 second. Confusion matrix dapat dilihat dari 442 data, 380 diklasifikasikan prediksi menerima ternyata menerima, 1 data diprediksikan menerima ternyata tidak menerima. Untuk 4 data diklasifikasikan tidak menerima ternyata