4.1. Pembahasan 4.1.1 Transform Data
Dalam proses pengekstasian membutuhkan data siswa yang di berikan oleh sekolahan. Data yang di peroleh berjumlah 218 data yang memiliki 11 atribut.
Berikut ini adalah data asli yang sudah di transformasikan:
Gambar 4.1 Data Transfom
Sumber : Screenshot (Microsoft Exel, 2019)
Pada Gambar 4.1 menerangkan bahwa yang menjadi attribute keputusan adalah variable class, sedangkan yang menjadi attribute kondisi yaitu nama, jenis kelamin, orangtua, penghasilan orangtua, pekerjaan orangtua, tunggakan, jarak rumah, saudara, ekstra kulikuler, prestasi dan predikat nilai rata-rata.
41 4.1.2 Perhitungan Entropy
1. Perhitungan mencari entropy total Entropy (S) = (-(
) (
) (
) (
)
Entropy (149.69) = (-(
) (
) (
) (
)
= (-0,6835 * 0.5490) + (-0,3165 * 1,6597) = (-0,3752) + (-0,5253)
= 0,9005
2. Perhitungan mencari entropy jenis kelamin Entropy (S) = (-(
) (
) (
) (
)
Entropy (80.38) = (-(
) (
) (
) (
)
= (-0,6896 * 0.5361) + (-0,3103 * 1,6881) = (-0,3697) + (-0,5239)
= 0,8936
Entropy (69.33) = (-(
) (
) (
) (
)
= (-0,6765 * 0.5632) + (-0,3235 * 1,6280) = (-0,3815) + (-0,5267)
= 0,9082
3. Perhitungan mencari entropy orangtua Entropy (S) = (-(
) (
) (
) (
)
42 Entropy (129.61) = (-(
) (
) (
) (
)
= (-0,6789 * 0.5586) + (-0,3210 * 1,6391) = (-0,3794) + (-0,5261)
= 0,9055
Entropy (20.8) = (-(
) (
) (
) (
)
= (-0,7143 * 0.4854) + (-0,2857 * 1,8074) = (-0,3467) + (-0,5154)
= 0,8631
4. Perhitungan mencari entropy penghasilan orangtua Entropy (S) = (-(
) (
) (
) (
)
Entropy (77.2) = (-(
) (
) (
) (
)
= (-0,9747 * 0.0370) + (-0,0253 * 5,3038) = (-0,0360) + (-0,1343)
= 0,1703
Entropy (4.25) = (-(
) (
) (
) (
)
= (-0,1379 * 2,8580) + (-0,8621 * 0,2141) = (-0,3942) + (-0,1846)
= 0,5788
Entropy (68.42) = (-(
) (
) (
) (
)
= (-0,6182 * 0,6939) + (-0,3818 * 1,3890) = (-0,4290) + (-0,5303)
= 0,9593
43
5. Perhitungan mencari entropy pekerjaan orangtua Entropy (S) = (-(
) (
) (
) (
)
Entropy (112.55) = (-(
) (
) (
) (
)
= (-0,6706 * 0.5763) + (-0,3934 * 1,6023) = (-0,3865) + (-0,5277)
= 0,9142
Entropy (37.14) = (-(
) (
) (
) (
)
= (-0,7255 * 0,4630) + (-0,2745 * 1,8651) = (-0,3359) + (-0,5120)
= 0,8479
6. Perhitungan mencari entropy tunggakan Entropy (S) = (-(
) (
) (
) (
)
Entropy (28.10) = (-(
) (
) (
) (
)
= (-0,7368 * 0.4406) + (-0,2631 * 1,9260) = (-0,3246) + (-0,5068)
= 0,8315
Entropy (121.59) = (-(
) (
) (
) (
)
= (-0,6722 * 0,5730) + (-0,3278 * 1,6092) = (-0,3852) + (-0,5274)
= 0,9126
44 7. Perhitungan mencari entropy jarak
Entropy (S) = (-(
) (
) (
) (
)
Entropy (104.49) = (-(
) (
) (
) (
)
= (-0,6797 * 0.5569) + (-0,3203 * 1,6427) = (-0,3785) + (-0,5261)
= 0,9046
Entropy (45.20) = (-(
) (
) (
) (
)
= (-0,6923 * 0,5305) + (-0,3077 * 1,7004) = (-0,3673) + (-0,5232)
= 0,8905
8. Perhitungan mencari entropy saudara Entropy (S) = (-(
) (
) (
) (
)
Entropy (104.46) = (-(
) (
) (
) (
)
= (-0,6933 * 0.5284) + (-0,3067 * 1,7053) = (-0,3663) + (-0,5230)
= 0,8893
Entropy (45.23) = (-(
) (
) (
) (
)
= (-0,6618 * 0,5956) + (-0,3382 * 1,5639) = (-0,3941) + (-0,5290)
= 0,9231
45
9. Perhitungan mencari entropy ekstra kulikuler Entropy (S) = (-(
) (
) (
) (
)
Entropy (51.28) = (-(
) (
) (
) (
)
= (-0,6456 * 0.6314) + (-0,3544 * 1,4964) = (-0,4076) + (-0,5304)
= 0,9380
Entropy (45.23) = (-(
) (
) (
) (
)
= (-0,7050 * 0,5042) + (-0,2949 * 1,7614) = (-0,3555) + (-0,5195)
= 0,8750
10. Perhitungan mencari entropy prestasi Entropy (S) = (-(
) (
) (
) (
)
Entropy (52.16) = (-(
) (
) (
) (
)
= (-0,7647 * 0.3870) + (-0,2353 * 2,0875) = (-0,2959) + (-0,4912)
= 0,7871
Entropy (97.53) = (-(
) (
) (
) (
)
= (-0,6467 * 0,6289) + (-0,3533 * 1,5009) = (-0,4067) + (-0,5301)
= 0,9370
46
11. Perhitungan mencari entropy predikat nilai rata-rata Entropy (S) = (-(
) (
) (
) (
)
Entropy (76.0) = (-(
) (
) (
) (
)
= (-1 * 0) + (-1 * 0) = (-0) + (-0)
= 0
Entropy (0.13) = (-(
) (
) (
) (
)
= (-0 * 0) + (-1 * 0,) = (-0) + (-0)
= 0
Entropy (73.56) = (-(
) (
) (
) (
)
= (-0,5659 * 0,8214) + (-0,4341 * 1,2039) = (-0,4648) + (-0,5226)
= 0,9874
47
Tabel 4.1 Perhitungan Entropy
4.1.3 Perhitungan Gain
1. Perhitungan gain jenis kelamin Gain = Entropytotal - (
) (
)..
Gain = 0,9005 - (
) (
) = 0,9005 – (0,4755 + 0,4249)
= 0,0001
Jumlah (S) SMA (Si) SMK (Si) Entrophy
Total 218 149 69 0,9005
Jenis Kelamin
Perempuan 116 80 36 0,8936
Laki-laki 102 69 33 0,9082
Orangtua
Orangtua 190 129 61 0,9055
Wali 28 20 8 0,8631
Penghasilan Orangtua
Tinggi 79 77 2 0,1703
Rendah 29 4 25 0,5788
Sedang 110 68 42 0,9593
Pekerjaan Orangtua
Tetap 167 112 55 0,9142
Tidak Tetap 51 37 14 0,8479
Tunggakan
Ada 38 28 10 0,8315
Tidak Ada 180 121 59 0,9126
Jarak Rumah
Dekat 153 104 49 0,9046
Jauh 65 45 20 0,8905
Saudara
Ada 150 104 46 0,8893
Tidak Ada 68 45 23 0,9231
Ekstra Kulikuler
Ada 79 51 28 0,9380
Tidak Ada 139 98 41 0,8750
Prestasi
Ada 68 52 16 0,7871
Tidak Ada 150 97 53 0,9370
Prediksi Nilai Rata-rata
Tinggi 76 76 0 0,0000
Rendah 13 0 13 0,0000
Sedang 129 73 56 0,9874
48 2. Perhitungan gain orangtua
Gain = Entropytotal - (
) (
)..
Gain = 0,9005 - (
) (
) = 0,9005 – (0,7892 + 0,1108)
= 0,0005
3. Perhitungan gain penghasilan orangtua Gain = Entropytotal - (
) (
)..
Gain = 0,9005 - (
) (
) + (
) = 0,9005 – (0,0617 + 0,0770 + 0,4840 )
= 0,2778
4. Perhitungan gain pekerjaan orangtua Gain = Entropytotal - (
) (
)..
Gain = 0,9005 - (
) (
) = 0,9005 – (0,7002 + 0,1984)
= 0,0019
5. Perhitungan gain tunggakan Gain = Entropytotal - (
) (
)..
Gain = 0,9005 - (
) (
) = 0,9005 – (0,1449 + 0,4521)
= 0,0021
49 6. Perhitungan gain jarak rumah
Gain = Entropytotal - (
) (
)..
Gain = 0,9005 - (
) (
) = 0,9005 – (0,6349 + 0,2655)
= 0,0002
7. Perhitungan gain saudara Gain = Entropytotal - (
) (
)..
Gain = 0,9005 - (
) (
) = 0,9005 – (0,6119 + 0,2879)
= 0,0007
8. Perhitungan gain ekstra kulikuler Gain = Entropytotal - (
) (
)..
Gain = 0,9005 - (
) (
) = 0,9005 – (0,3399 + 0,5550)
= 0,0027
9. Perhitungan gain prestasi Gain = Entropytotal - (
) (
)..
Gain = 0,9005 - (
) (
) = 0,9005 – (0,2455 + 0,6447)
= 0,0103
50 10. Perhitungan gain penghasilan orangtua
Gain = Entropytotal - (
) (
)..
Gain = 0,9005 - (
) (
) + (
) = 0,9005 – (0 + 0 + 0,5843)
= 0,3162
Tabel 4.2 Perhitungan Gain
4.1.4 Proses RapidMiner
Setelah melewati tahap transformasi data, selanjutnya tahap pengolahan data dengan algoritma C4.5 dan genetika, tools yang digunakan untuk melakukan olah data adalah RapidMiner Studio Version 9.1, dengan tujuan untuk melihat nilai
Jumlah (S) SMA (Si) SMK (Si) Entrophy Gain
Total 218 149 69 0,9005
Jenis Kelamin 0,0001
Perempuan 116 80 36 0,8936
Laki-laki 102 69 33 0,9082
Orangtua 0,0005
Orangtua 190 129 61 0,9055
Wali 28 20 8 0,8631
Penghasilan Orangtua 0,2778
Tinggi 79 77 2 0,1703
Rendah 29 4 25 0,5788
Sedang 110 68 42 0,9593
Pekerjaan Orangtua 0,0019
Tetap 167 112 55 0,9142
Tidak Tetap 51 37 14 0,8479
Tunggakan 0,0021
Ada 38 28 10 0,8315
Tidak Ada 180 121 59 0,9126
Jarak Rumah 0,0002
Dekat 153 104 49 0,9046
Jauh 65 45 20 0,8905
Saudara 0,0007
Ada 150 104 46 0,8893
Tidak Ada 68 45 23 0,9231
Ekstra Kulikuler 0,0027
Ada 79 51 28 0,9380
Tidak Ada 139 98 41 0,8750
Prestasi 0,0103
Ada 68 52 16 0,7871
Tidak Ada 150 97 53 0,9370
Prediksi Nilai Rata-rata 0,3162
Tinggi 76 76 0 0,0000
Rendah 13 0 13 0,0000
Sedang 129 73 56 0,9874
51
akurasi, pohon keputusan, dan rule. Berikut adalah tahap dalam penggunaan RapidMiner:
Gambar 4.2 Tools RapidMiner Studio Version 9.1 Sumber : Screenshot (RapidMiner, 2019)
Pada Gambar 4.2 adalah langkah awal membuka Aplikasi RapidMiner, untuk memulai menjalankan projek langkah pertama yang harus di lakukan adalah dengan membuat halaman kerja yang baru, untuk membuat halaman kerja baru pilih blank project pada desktop, seperti pada gambar di bawah ini:
Gambar 4.3 Start Project
52
Setelah blank project terbuka selanjutnya di lakukan proses proses pengujian menggunakan Algoritma C4.5 dan Algoritma Genetika dari mulai proses input data, metode algoritma data mining, output (pola/model) hingga evaluation (akurasi, AUC). Berikut adalah proses pengujiannya:
4.1.2.1 Pengujian Algoritma C4.5 / Decision Tree
Langkah pertama yang di lakukan untuk membuat Decision Tree yaitu dengan mencari Read Excel dan Cross Validation pada search box operators di kiri bawah itu lalu drag and drop pada whitespace pada layar, lalu di hubungkan seperti pada gambar di bawah ini
Gambar 4.4 Main Process Cross-Validation (CV)
Read Excel atau database siswa yang telah dibuat dihubungkan dengan operators cross validation (CV) yang berfungsi untuk mengevaluasi dan membandingkan algoritma pembelajaran dengan membagi data menjadi dua bagian yaitu data testing dan data training.
Pada cross validation harus diberi tahapan dalam menerapan algoritma decision tree, dengan cara mencari Decision Tree pada search box operators lalu drag and drop pada whitespace training pada layar kemudian Applay Model dan Performance letakkan pada whitespace testing pada layar, dan hubungkan seperti pada gambar berikut:
53
Gambar 4.5 Main Process Dacision Tree
Pada Gambar 4.5 terlihat view process terbagi menjadi dua yaitu training dan testiang, di dalam view process traning penulis gunakan operators yang bertujuan untuk melihat hasil pohon keputusan dari data traning, sedangkan pada view process testing terdapat apply model dan performance. Apply model berfungsi untuk mengubah model dari model sebelumnya ke model yang diinginkan, disini apply model merubah model dari decision tree menjadi performance pada data training.
Selanjutnya yaitu impor data dengan menggunakan model yang telah di buat, pada parameters Read Exel pilih import configuration wizard, pilih file yang telah dibuat dengan nama (DT.xslx), next lalu pilih sheet Fix untuk memilih di sheet mana data tersimpan next kemudian finist. Seperti pada gambar berikut:
54
Gambar 4.6 Import Data
Gambar 4.7 Edit Sheet
Edit format columns pada parameter Read Exel dengan cara pilih edit list pada parameter Read Exel lalu ganti format columns nama menjadi text, penghasilan orangtua menjadi polynominal, predikat nilai rata-rata menjadi polynomonal, class menjadi binominal dan pada class change role (label). Seperti pada gambar berikut:
55
Gambar 4.8 Edit List Data
Format Columns memiliki fungsi membaca type data dari setiap columns, disini penulis menggunakan empat type data. Adapun fungsi dari type data yang digunakan adalah sebagai berikut:
Tabel 4.3 Fungsi Format Columns
No Type Fungsi
1 Text Teks bebas tanpa struktur 2 Polynominal Nominal lebih dari dua nilai 3 Binominal Nominal dua nilai
4 Integer Bilangan bulat
5 Label Atribut target (atribut keputusan)
Ketika sudah di set jalankan program dengan menekan tombol run atau klik pada gambar panah biru besar dibagian atas. Setelah itu akan mendapat hasil sebagai berikut:
56 1. Pohon Keputusan
Gambar 4.9 Rule Desicion Tree Sumber : Screenshot (RapidMiner, 2019)
Berdasarkan hasil pohon keputusan dapat diketahui bahwa predikat nilai rata-rata memiliki pengaruh paling tinggi dalam menentukan sekolah lanjutan siswa.
Hal ini ditunjukkan dengan atribut predikat nilai rata-rata sebagai root node.
Kemudian untuk penghasilan orangtua sebagai internal node pertama. Dari pohon keputusan yang terbentuk dapat terlihat juga discription tree sebagai berikut:
57
Tree
PREDIKAT NILAI RATA-RATA = RENDAH: SMK {SMK=13, SMA=0}
PREDIKAT NILAI RATA-RATA = SEDANG
| PENGHASILAN ORTU = 1: SMK {SMK=21, SMA=2}
| PENGHASILAN ORTU = 2
| | PRESTASI > 1.500
| | | EKSTRA KULIKULER > 1.500: SMK {SMK=12, SMA=6}
| | | EKSTRA KULIKULER ≤ 1.500
| | | | JENKEL > 1.500
| | | | | TUNGGAKAN > 1.500: SMA {SMK=1, SMA=3}
| | | | | TUNGGAKAN ≤ 1.500
| | | | | | JARAK RUMAH > 1.500
| | | | | | | SAUDARA > 1.500: SMA {SMK=1, SMA=2}
| | | | | | | SAUDARA ≤ 1.500: SMK {SMK=2, SMA=0}
| | | | | | JARAK RUMAH ≤ 1.500: SMA {SMK=1, SMA=2}
| | | | JENKEL ≤ 1.500: SMK {SMK=9, SMA=5}
| | PRESTASI ≤ 1.500
| | | SAUDARA > 1.500: SMA {SMK=0, SMA=6}
| | | SAUDARA ≤ 1.500
| | | | ORANG TUA > 1.500
| | | | | EKSTRA KULIKULER > 1.500
| | | | | | TUNGGAKAN > 1.500: SMK {SMK=2, SMA=1}
| | | | | | TUNGGAKAN ≤ 1.500: SMA {SMK=0, SMA=3}
| | | | | EKSTRA KULIKULER ≤ 1.500: SMK {SMK=5, SMA=3}
| | | | ORANG TUA ≤ 1.500: SMA {SMK=0, SMA=2}
| PENGHASILAN ORTU = 3
| | SAUDARA > 1.500
| | | JENKEL > 1.500
| | | | EKSTRA KULIKULER > 1.500: SMK {SMK=1, SMA=1}
| | | | EKSTRA KULIKULER ≤ 1.500: SMA {SMK=1, SMA=3}
| | | JENKEL ≤ 1.500: SMA {SMK=0, SMA=6}
| | SAUDARA ≤ 1.500: SMA {SMK=0, SMA=28}
PREDIKAT NILAI RATA-RATA = TINGGI: SMA {SMK=0, SMA=76}
58
Dari pohon keputusan yang terbentuk dapat terlihat juga performance vaktor (performance) sebagai berikut:
PerformanceVector
PerformanceVector:
accuracy: 81.21% +/- 7.74% (micro average: 81.19%) ConfusionMatrix:
True: SMK SMA
SMK: 55 27
SMA: 14 122
precision: 89.80% +/- 5.52% (micro average: 89.71%) (positive class: SMA) ConfusionMatrix:
True: SMK SMA
SMK: 55 27
SMA: 14 122
recall: 81.95% +/- 8.91% (micro average: 81.88%) (positive class: SMA) ConfusionMatrix:
True: SMK SMA
SMK: 55 27
SMA: 14 122
AUC (optimistic): 0.928 +/- 0.047 (micro average: 0.928) (positive class: SMA) AUC: 0.842 +/- 0.094 (micro average: 0.842) (positive class: SMA)
AUC (pessimistic): 0.828 +/- 0.090 (micro average: 0.828) (positive class: SMA)
2. Accuracy
Accuracy didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai aktual. Dari data yang tersedia, analisis menggunakan aplikasi Rapid Miner dengan pengukuran Decission Tree didapatkan hasil dengan tingkat akurasi 81.21%. seperti terlihat pada gambar di bawah ini
59
Gambar 4.10 Hasil Accuracy Decission Tree
Class precission didapat dengan hasil prediksi SMK sebesar 67.07% dan prediksi SMA sebesar 89.71%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 67.07% dan kecocokan dengan prediksi SMA adalah 89.71%.
Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 79.71% dan True SMA sebesar 81.88%.
3. Precision
Precision adalah tingkat ketepatan antara informasi yang diminta oleh pengguna dengan jawaban yang diberikan oleh sistem. Dari data yang ada didapat hasil dengan tingkat pracision sebesar 89.80%. Seperti terlihat pada gambar di bawah ini
Gambar 4.11 Hasil Precision Decission Tree
Class precission didapat dengan hasil prediksi SMK sebesar 67.07% dan prediksi SMA sebesar 89.71%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 67.07% dan kecocokan dengan prediksi SMA adalah 89.71%.
60
Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 79.71% dan True SMA sebesar 81.88%.
4. Recall
Recall bertujuan untuk mengukur proporsi true positive (TP) terhadap tupelo positif yang diidentifikasi secara benar. Dari data yang ada didapat hasil dengan tingkat pracision sebesar 81.95%. Seperti terlihat pada gambar di bawah ini
Gambar 4.12 Hasil Recall Decission Tree
Class precission didapat dengan hasil prediksi SMK sebesar 67.07% dan prediksi SMA sebesar 89.71%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 67.07% dan kecocokan dengan prediksi SMA adalah 89.71%.
Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 79.71% dan True SMA sebesar 81.88%.
5. AUC
AUC merupakan area di bawah kurva (Area Under Curve,) ROC (Receiver Operating Characteristic), suatu kurva yang menggambarkan probabilitas dengan variabel sensitivitas dan kekhususan (specificity) dengan nilai batas antara 0 hingga 1. Area di bawah kurva memberikan gambaran tentang keseluruhan pengukuran atas kesesuaian dari model yang digunakan. Pada gambar adalah hasil AUC yang terbentuk dari data yang ada, berikut ini:
61
Gambar 4.13 Hasil AUC Decission Tree
AUC (the area under curve) dihitung untuk mengukur perbedaan performansi. Kurva ROC menunjukkan akurasi dan membandingkan klasifikasi secara visual dengan false positive sebagai garis horizontal dan true positive sebagai garis vertikal. Dari data diatas analisis menggunakan aplikasi RapidMiner dengan pengukuran Decission Tree didapatkan hasil AUC 0.842 yang termasuk dalam kategori baik (Good Classification) dilihat dari kategori dibawah ini :
1. 90 – 1.00 : Excellent Classification 2. 80 – 0.90 : Good Classification 3. 70 – 0.80 : Fair Classification 4. 60 – 0.70 : Poor Classification 5. 50 – 0.60 = Failure
4.1.2.2 Pengujian Decision Tree optimasi Genetika (GA)
Langkah pertama yang di lakukan untuk membuat Decision Tree dengan optimasi genetika yaitu dengan mencari Read Excel dan Set Role dan Generate
62
pada search box operators di kiri bawah itu lalu drag and drop pada whitespace pada layar, lalu di hubungkan seperti pada gambar di bawah ini
Gambar 4.14 Main Process Dacision Tree optimasi Genetika
Read Excel atau database siswa yang telah dibuat dihubungkan dengan operators Set Role adalah operator yang mengklasifikasikan sebuah atribut sebagai atribut khusus atau atribut standar. Set Role berfungsi untuk membedakan baris penamaan atribut koordinat dan prediksi posisi yang akan di masukan kedalam kategori „label‟. Agar pada saat pengkategorian data „label‟ tidak ikut serta terhitung dan merubah hasil.
Pada generate harus diberi tahapan cross validation dengan cara klik dua kali pada generate lalu cari cross validation pada search box operators lalu drag and drop pada whitespace pada layar, dan hubungkan seperti pada gambar berikut.
Gambar 4.15 Main Process Cross-Validation (CV) optimasi Genetika Set Role kemudian dengan Generate yang di dalamnya terdapat operators cross validation (CV) yang berfungsi untuk mengevaluasi dan membandingkan algoritma pembelajaran dengan membagi data menjadi dua bagian yaitu data testing dan data training.
Pada cross validation operators decision tree, dengan cara mencari Decision Tree pada search box operators lalu drag and drop pada whitespace training pada
63
layar kemudian Applay Model dan Performance letakkan pada whitespace testing pada layar, pada tahap ini di gunakan untuk melihat hasil performancenya, kemudian hubungkan seperti pada gambar berikut.
Gambar 4.16 Main Process Dacision Tree optimasi Genetika
Selanjutnya impor data dengan menggunakan model yang telah di buat, pada parameters Read Exel pilih import configuration wizard, pilih file yang telah dibuat dengan nama (DT.xslx), next lalu pilih sheet Fix untuk memilih di sheet mana data tersimpan next kemudian finist. Seperti pada gambar berikut:
Gambar 4.17 Import Data
64
Gambar 4.18 Edit Sheet
Edit format columns pada parameter Read Exel dengan cara pilih edit list pada parameter Read Exel lalu ganti format columns nama menjadi text, penghasilan orangtua menjadi polynominal, predikat nilai rata-rata menjadi polynomonal, class menjadi binominal dan pada class change role (label). Seperti pada gambar berikut:
Gambar 4.19 Edit List Data
65
Ketika sudah di set jalankan program dengan menekan tombol run atau klik pada gambar panah biru besar dibagian atas. Setelah itu akan mendapat hasil sebagai berikut:
1. Performance Vector
Performance Vector di gunakan untuk mengetahui performance terhadap vactore, berikut adalah Performance Vector yang terbentuk:
PerformanceVector
PerformanceVector:
accuracy: 88.57% +/- 7.08% (micro average: 88.53%) ConfusionMatrix:
True: SMK SMA
SMK: 61 17
SMA: 8 132
precision: 94.79% +/- 6.43% (micro average: 94.29%) (positive class: SMA) ConfusionMatrix:
True: SMK SMA
SMK: 61 17
SMA: 8 132
recall: 88.52% +/- 8.61% (micro average: 88.59%) (positive class: SMA) ConfusionMatrix:
True: SMK SMA
SMK: 61 17
SMA: 8 132
AUC (optimistic): 0.961 +/- 0.046 (micro average: 0.961) (positive class: SMA) AUC: 0.927 +/- 0.074 (micro average: 0.927) (positive class: SMA)
AUC (pessimistic): 0.901 +/- 0.083 (micro average: 0.901) (positive class: SMA)
66 2. Accuracy
Accuracy didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai aktual. Dari data yang tersedia, analisis menggunakan aplikasi Rapid Miner dengan pengukuran Decission Tree didapatkan hasil dengan tingkat akurasi 88.57%. seperti terlihat pada gambar di bawah ini
Gambar 4.20 Hasil Accuracy Decission Tree Optimasi Genetika
Class precission didapat dengan hasil prediksi SMK sebesar 78.21% dan prediksi SMA sebesar 94.29%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 78.21% dan kecocokan dengan prediksi SMA adalah 94.29%.
Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 88.41% dan True SMA sebesar 88.59%.
3. Precision
Precision adalah tingkat ketepatan antara informasi yang diminta oleh pengguna dengan jawaban yang diberikan oleh sistem. Dari data yang ada didapat hasil dengan tingkat pracision sebesar 94.79%. Seperti terlihat pada gambar di bawah ini
67
Gambar 4.21 Hasil Precision Decission Tree Optimasi Genetika
Class precission didapat dengan hasil prediksi SMK sebesar 78.21% dan prediksi SMA sebesar 94.29%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 78.21% dan kecocokan dengan prediksi SMA adalah 94.29%.
Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 88.41% dan True SMA sebesar 88.59%.
4. Recall
Recall bertujuan untuk mengukur proporsi true positive (TP) terhadap tupelo positif yang diidentifikasi secara benar. Dari data yang ada didapat hasil dengan tingkat pracision sebesar 88.52%. Seperti terlihat pada gambar di bawah ini
Gambar 4.22 Hasil Recall Decission Tree Optimasi Genetika
Class precission didapat dengan hasil prediksi SMK sebesar 78.21% dan prediksi SMA sebesar 94.29%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 78.21% dan kecocokan dengan prediksi SMA adalah 94.29%.
68
Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 88.41% dan True SMA sebesar 88.59%.
5. AUC
AUC merupakan area di bawah kurva (Area Under Curve,) ROC (Receiver Operating Characteristic), suatu kurva yang menggambarkan probabilitas dengan variabel sensitivitas dan kekhususan (specificity) dengan nilai batas antara 0 hingga 1. Area di bawah kurva memberikan gambaran tentang keseluruhan pengukuran atas kesesuaian dari model yang digunakan. Pada Gambar 4.13 adalah hasil AUC yang terbentuk dari data yang ada, berikut ini:
Gambar 4.23 Hasil AUC Decission Tree Optimasi Genetika
AUC (the area under curve) dihitung untuk mengukur perbedaan performansi. Kurva ROC menunjukkan akurasi dan membandingkan klasifikasi secara visual dengan false positive sebagai garis horizontal dan true positive sebagai garis vertikal. Dari data diatas analisis menggunakan aplikasi RapidMiner dengan pengukuran Decission Tree didapatkan hasil AUC 0.927 yang termasuk
69
dalam kategori sangat baik (Excellent Classification) dilihat dari kategori dibawah ini :
1. 90 – 1.00 : Excellent Classification 2. 80 – 0.90 : Good Classification 3. 70 – 0.80 : Fair Classification 4. 60 – 0.70 : Poor Classification 5. 50 – 0.60 = Failure
4.2. Hasil
4.2.1 Hasil Perbandingan Dua Algoritma
Berdasarkan pengujian yang telah dilakukan. Berikut ini adalah hasil perbandingan antara kedua algoritma beserta grafiknya:
Tabel 4.2 Hasil Perbandingan
Metode Accuracy Precision Recall AUC
C4.5 81,21 89,8 81,95 0,842
GA 88,57 94,79 88,52 0,927
70
Grafik 4.1 Perbandingan Hasil
Pengujian dilakukan berdasarkan jumlah data yang diuji yaitu 218 data.
Dari setiap pengujian data terjadi perbedaan nilai ketika menggunakan dua algoritma yang berbeda. Berikut ini merupakan grafik hasil nilai accurasy dari algoritma C4.5 dan Genetika (GA) :
4.2.2 Hasil Pengujian Algoritma C4.5 dan Algoritma GA
81,21
89,8
81,95
0,842 88,57
94,79
88,52
0,927
0 10 20 30 40 50 60 70 80 90 100
Accurasy Precision Recall AUC