• Tidak ada hasil yang ditemukan

4.1. Pembahasan 4.1.1 Transform Data

Dalam proses pengekstasian membutuhkan data siswa yang di berikan oleh sekolahan. Data yang di peroleh berjumlah 218 data yang memiliki 11 atribut.

Berikut ini adalah data asli yang sudah di transformasikan:

Gambar 4.1 Data Transfom

Sumber : Screenshot (Microsoft Exel, 2019)

Pada Gambar 4.1 menerangkan bahwa yang menjadi attribute keputusan adalah variable class, sedangkan yang menjadi attribute kondisi yaitu nama, jenis kelamin, orangtua, penghasilan orangtua, pekerjaan orangtua, tunggakan, jarak rumah, saudara, ekstra kulikuler, prestasi dan predikat nilai rata-rata.

41 4.1.2 Perhitungan Entropy

1. Perhitungan mencari entropy total Entropy (S) = (-(

) (

) (

) (

)

Entropy (149.69) = (-(

) (

) (

) (

)

= (-0,6835 * 0.5490) + (-0,3165 * 1,6597) = (-0,3752) + (-0,5253)

= 0,9005

2. Perhitungan mencari entropy jenis kelamin Entropy (S) = (-(

) (

) (

) (

)

Entropy (80.38) = (-(

) (

) (

) (

)

= (-0,6896 * 0.5361) + (-0,3103 * 1,6881) = (-0,3697) + (-0,5239)

= 0,8936

Entropy (69.33) = (-(

) (

) (

) (

)

= (-0,6765 * 0.5632) + (-0,3235 * 1,6280) = (-0,3815) + (-0,5267)

= 0,9082

3. Perhitungan mencari entropy orangtua Entropy (S) = (-(

) (

) (

) (

)

42 Entropy (129.61) = (-(

) (

) (

) (

)

= (-0,6789 * 0.5586) + (-0,3210 * 1,6391) = (-0,3794) + (-0,5261)

= 0,9055

Entropy (20.8) = (-(

) (

) (

) (

)

= (-0,7143 * 0.4854) + (-0,2857 * 1,8074) = (-0,3467) + (-0,5154)

= 0,8631

4. Perhitungan mencari entropy penghasilan orangtua Entropy (S) = (-(

) (

) (

) (

)

Entropy (77.2) = (-(

) (

) (

) (

)

= (-0,9747 * 0.0370) + (-0,0253 * 5,3038) = (-0,0360) + (-0,1343)

= 0,1703

Entropy (4.25) = (-(

) (

) (

) (

)

= (-0,1379 * 2,8580) + (-0,8621 * 0,2141) = (-0,3942) + (-0,1846)

= 0,5788

Entropy (68.42) = (-(

) (

) (

) (

)

= (-0,6182 * 0,6939) + (-0,3818 * 1,3890) = (-0,4290) + (-0,5303)

= 0,9593

43

5. Perhitungan mencari entropy pekerjaan orangtua Entropy (S) = (-(

) (

) (

) (

)

Entropy (112.55) = (-(

) (

) (

) (

)

= (-0,6706 * 0.5763) + (-0,3934 * 1,6023) = (-0,3865) + (-0,5277)

= 0,9142

Entropy (37.14) = (-(

) (

) (

) (

)

= (-0,7255 * 0,4630) + (-0,2745 * 1,8651) = (-0,3359) + (-0,5120)

= 0,8479

6. Perhitungan mencari entropy tunggakan Entropy (S) = (-(

) (

) (

) (

)

Entropy (28.10) = (-(

) (

) (

) (

)

= (-0,7368 * 0.4406) + (-0,2631 * 1,9260) = (-0,3246) + (-0,5068)

= 0,8315

Entropy (121.59) = (-(

) (

) (

) (

)

= (-0,6722 * 0,5730) + (-0,3278 * 1,6092) = (-0,3852) + (-0,5274)

= 0,9126

44 7. Perhitungan mencari entropy jarak

Entropy (S) = (-(

) (

) (

) (

)

Entropy (104.49) = (-(

) (

) (

) (

)

= (-0,6797 * 0.5569) + (-0,3203 * 1,6427) = (-0,3785) + (-0,5261)

= 0,9046

Entropy (45.20) = (-(

) (

) (

) (

)

= (-0,6923 * 0,5305) + (-0,3077 * 1,7004) = (-0,3673) + (-0,5232)

= 0,8905

8. Perhitungan mencari entropy saudara Entropy (S) = (-(

) (

) (

) (

)

Entropy (104.46) = (-(

) (

) (

) (

)

= (-0,6933 * 0.5284) + (-0,3067 * 1,7053) = (-0,3663) + (-0,5230)

= 0,8893

Entropy (45.23) = (-(

) (

) (

) (

)

= (-0,6618 * 0,5956) + (-0,3382 * 1,5639) = (-0,3941) + (-0,5290)

= 0,9231

45

9. Perhitungan mencari entropy ekstra kulikuler Entropy (S) = (-(

) (

) (

) (

)

Entropy (51.28) = (-(

) (

) (

) (

)

= (-0,6456 * 0.6314) + (-0,3544 * 1,4964) = (-0,4076) + (-0,5304)

= 0,9380

Entropy (45.23) = (-(

) (

) (

) (

)

= (-0,7050 * 0,5042) + (-0,2949 * 1,7614) = (-0,3555) + (-0,5195)

= 0,8750

10. Perhitungan mencari entropy prestasi Entropy (S) = (-(

) (

) (

) (

)

Entropy (52.16) = (-(

) (

) (

) (

)

= (-0,7647 * 0.3870) + (-0,2353 * 2,0875) = (-0,2959) + (-0,4912)

= 0,7871

Entropy (97.53) = (-(

) (

) (

) (

)

= (-0,6467 * 0,6289) + (-0,3533 * 1,5009) = (-0,4067) + (-0,5301)

= 0,9370

46

11. Perhitungan mencari entropy predikat nilai rata-rata Entropy (S) = (-(

) (

) (

) (

)

Entropy (76.0) = (-(

) (

) (

) (

)

= (-1 * 0) + (-1 * 0) = (-0) + (-0)

= 0

Entropy (0.13) = (-(

) (

) (

) (

)

= (-0 * 0) + (-1 * 0,) = (-0) + (-0)

= 0

Entropy (73.56) = (-(

) (

) (

) (

)

= (-0,5659 * 0,8214) + (-0,4341 * 1,2039) = (-0,4648) + (-0,5226)

= 0,9874

47

Tabel 4.1 Perhitungan Entropy

4.1.3 Perhitungan Gain

1. Perhitungan gain jenis kelamin Gain = Entropytotal - (

) (

)..

Gain = 0,9005 - (

) (

) = 0,9005 – (0,4755 + 0,4249)

= 0,0001

Jumlah (S) SMA (Si) SMK (Si) Entrophy

Total 218 149 69 0,9005

Jenis Kelamin

Perempuan 116 80 36 0,8936

Laki-laki 102 69 33 0,9082

Orangtua

Orangtua 190 129 61 0,9055

Wali 28 20 8 0,8631

Penghasilan Orangtua

Tinggi 79 77 2 0,1703

Rendah 29 4 25 0,5788

Sedang 110 68 42 0,9593

Pekerjaan Orangtua

Tetap 167 112 55 0,9142

Tidak Tetap 51 37 14 0,8479

Tunggakan

Ada 38 28 10 0,8315

Tidak Ada 180 121 59 0,9126

Jarak Rumah

Dekat 153 104 49 0,9046

Jauh 65 45 20 0,8905

Saudara

Ada 150 104 46 0,8893

Tidak Ada 68 45 23 0,9231

Ekstra Kulikuler

Ada 79 51 28 0,9380

Tidak Ada 139 98 41 0,8750

Prestasi

Ada 68 52 16 0,7871

Tidak Ada 150 97 53 0,9370

Prediksi Nilai Rata-rata

Tinggi 76 76 0 0,0000

Rendah 13 0 13 0,0000

Sedang 129 73 56 0,9874

48 2. Perhitungan gain orangtua

Gain = Entropytotal - (

) (

)..

Gain = 0,9005 - (

) (

) = 0,9005 – (0,7892 + 0,1108)

= 0,0005

3. Perhitungan gain penghasilan orangtua Gain = Entropytotal - (

) (

)..

Gain = 0,9005 - (

) (

) + (

) = 0,9005 – (0,0617 + 0,0770 + 0,4840 )

= 0,2778

4. Perhitungan gain pekerjaan orangtua Gain = Entropytotal - (

) (

)..

Gain = 0,9005 - (

) (

) = 0,9005 – (0,7002 + 0,1984)

= 0,0019

5. Perhitungan gain tunggakan Gain = Entropytotal - (

) (

)..

Gain = 0,9005 - (

) (

) = 0,9005 – (0,1449 + 0,4521)

= 0,0021

49 6. Perhitungan gain jarak rumah

Gain = Entropytotal - (

) (

)..

Gain = 0,9005 - (

) (

) = 0,9005 – (0,6349 + 0,2655)

= 0,0002

7. Perhitungan gain saudara Gain = Entropytotal - (

) (

)..

Gain = 0,9005 - (

) (

) = 0,9005 – (0,6119 + 0,2879)

= 0,0007

8. Perhitungan gain ekstra kulikuler Gain = Entropytotal - (

) (

)..

Gain = 0,9005 - (

) (

) = 0,9005 – (0,3399 + 0,5550)

= 0,0027

9. Perhitungan gain prestasi Gain = Entropytotal - (

) (

)..

Gain = 0,9005 - (

) (

) = 0,9005 – (0,2455 + 0,6447)

= 0,0103

50 10. Perhitungan gain penghasilan orangtua

Gain = Entropytotal - (

) (

)..

Gain = 0,9005 - (

) (

) + (

) = 0,9005 – (0 + 0 + 0,5843)

= 0,3162

Tabel 4.2 Perhitungan Gain

4.1.4 Proses RapidMiner

Setelah melewati tahap transformasi data, selanjutnya tahap pengolahan data dengan algoritma C4.5 dan genetika, tools yang digunakan untuk melakukan olah data adalah RapidMiner Studio Version 9.1, dengan tujuan untuk melihat nilai

Jumlah (S) SMA (Si) SMK (Si) Entrophy Gain

Total 218 149 69 0,9005

Jenis Kelamin 0,0001

Perempuan 116 80 36 0,8936

Laki-laki 102 69 33 0,9082

Orangtua 0,0005

Orangtua 190 129 61 0,9055

Wali 28 20 8 0,8631

Penghasilan Orangtua 0,2778

Tinggi 79 77 2 0,1703

Rendah 29 4 25 0,5788

Sedang 110 68 42 0,9593

Pekerjaan Orangtua 0,0019

Tetap 167 112 55 0,9142

Tidak Tetap 51 37 14 0,8479

Tunggakan 0,0021

Ada 38 28 10 0,8315

Tidak Ada 180 121 59 0,9126

Jarak Rumah 0,0002

Dekat 153 104 49 0,9046

Jauh 65 45 20 0,8905

Saudara 0,0007

Ada 150 104 46 0,8893

Tidak Ada 68 45 23 0,9231

Ekstra Kulikuler 0,0027

Ada 79 51 28 0,9380

Tidak Ada 139 98 41 0,8750

Prestasi 0,0103

Ada 68 52 16 0,7871

Tidak Ada 150 97 53 0,9370

Prediksi Nilai Rata-rata 0,3162

Tinggi 76 76 0 0,0000

Rendah 13 0 13 0,0000

Sedang 129 73 56 0,9874

51

akurasi, pohon keputusan, dan rule. Berikut adalah tahap dalam penggunaan RapidMiner:

Gambar 4.2 Tools RapidMiner Studio Version 9.1 Sumber : Screenshot (RapidMiner, 2019)

Pada Gambar 4.2 adalah langkah awal membuka Aplikasi RapidMiner, untuk memulai menjalankan projek langkah pertama yang harus di lakukan adalah dengan membuat halaman kerja yang baru, untuk membuat halaman kerja baru pilih blank project pada desktop, seperti pada gambar di bawah ini:

Gambar 4.3 Start Project

52

Setelah blank project terbuka selanjutnya di lakukan proses proses pengujian menggunakan Algoritma C4.5 dan Algoritma Genetika dari mulai proses input data, metode algoritma data mining, output (pola/model) hingga evaluation (akurasi, AUC). Berikut adalah proses pengujiannya:

4.1.2.1 Pengujian Algoritma C4.5 / Decision Tree

Langkah pertama yang di lakukan untuk membuat Decision Tree yaitu dengan mencari Read Excel dan Cross Validation pada search box operators di kiri bawah itu lalu drag and drop pada whitespace pada layar, lalu di hubungkan seperti pada gambar di bawah ini

Gambar 4.4 Main Process Cross-Validation (CV)

Read Excel atau database siswa yang telah dibuat dihubungkan dengan operators cross validation (CV) yang berfungsi untuk mengevaluasi dan membandingkan algoritma pembelajaran dengan membagi data menjadi dua bagian yaitu data testing dan data training.

Pada cross validation harus diberi tahapan dalam menerapan algoritma decision tree, dengan cara mencari Decision Tree pada search box operators lalu drag and drop pada whitespace training pada layar kemudian Applay Model dan Performance letakkan pada whitespace testing pada layar, dan hubungkan seperti pada gambar berikut:

53

Gambar 4.5 Main Process Dacision Tree

Pada Gambar 4.5 terlihat view process terbagi menjadi dua yaitu training dan testiang, di dalam view process traning penulis gunakan operators yang bertujuan untuk melihat hasil pohon keputusan dari data traning, sedangkan pada view process testing terdapat apply model dan performance. Apply model berfungsi untuk mengubah model dari model sebelumnya ke model yang diinginkan, disini apply model merubah model dari decision tree menjadi performance pada data training.

Selanjutnya yaitu impor data dengan menggunakan model yang telah di buat, pada parameters Read Exel pilih import configuration wizard, pilih file yang telah dibuat dengan nama (DT.xslx), next lalu pilih sheet Fix untuk memilih di sheet mana data tersimpan next kemudian finist. Seperti pada gambar berikut:

54

Gambar 4.6 Import Data

Gambar 4.7 Edit Sheet

Edit format columns pada parameter Read Exel dengan cara pilih edit list pada parameter Read Exel lalu ganti format columns nama menjadi text, penghasilan orangtua menjadi polynominal, predikat nilai rata-rata menjadi polynomonal, class menjadi binominal dan pada class change role (label). Seperti pada gambar berikut:

55

Gambar 4.8 Edit List Data

Format Columns memiliki fungsi membaca type data dari setiap columns, disini penulis menggunakan empat type data. Adapun fungsi dari type data yang digunakan adalah sebagai berikut:

Tabel 4.3 Fungsi Format Columns

No Type Fungsi

1 Text Teks bebas tanpa struktur 2 Polynominal Nominal lebih dari dua nilai 3 Binominal Nominal dua nilai

4 Integer Bilangan bulat

5 Label Atribut target (atribut keputusan)

Ketika sudah di set jalankan program dengan menekan tombol run atau klik pada gambar panah biru besar dibagian atas. Setelah itu akan mendapat hasil sebagai berikut:

56 1. Pohon Keputusan

Gambar 4.9 Rule Desicion Tree Sumber : Screenshot (RapidMiner, 2019)

Berdasarkan hasil pohon keputusan dapat diketahui bahwa predikat nilai rata-rata memiliki pengaruh paling tinggi dalam menentukan sekolah lanjutan siswa.

Hal ini ditunjukkan dengan atribut predikat nilai rata-rata sebagai root node.

Kemudian untuk penghasilan orangtua sebagai internal node pertama. Dari pohon keputusan yang terbentuk dapat terlihat juga discription tree sebagai berikut:

57

Tree

PREDIKAT NILAI RATA-RATA = RENDAH: SMK {SMK=13, SMA=0}

PREDIKAT NILAI RATA-RATA = SEDANG

| PENGHASILAN ORTU = 1: SMK {SMK=21, SMA=2}

| PENGHASILAN ORTU = 2

| | PRESTASI > 1.500

| | | EKSTRA KULIKULER > 1.500: SMK {SMK=12, SMA=6}

| | | EKSTRA KULIKULER ≤ 1.500

| | | | JENKEL > 1.500

| | | | | TUNGGAKAN > 1.500: SMA {SMK=1, SMA=3}

| | | | | TUNGGAKAN ≤ 1.500

| | | | | | JARAK RUMAH > 1.500

| | | | | | | SAUDARA > 1.500: SMA {SMK=1, SMA=2}

| | | | | | | SAUDARA ≤ 1.500: SMK {SMK=2, SMA=0}

| | | | | | JARAK RUMAH ≤ 1.500: SMA {SMK=1, SMA=2}

| | | | JENKEL ≤ 1.500: SMK {SMK=9, SMA=5}

| | PRESTASI ≤ 1.500

| | | SAUDARA > 1.500: SMA {SMK=0, SMA=6}

| | | SAUDARA ≤ 1.500

| | | | ORANG TUA > 1.500

| | | | | EKSTRA KULIKULER > 1.500

| | | | | | TUNGGAKAN > 1.500: SMK {SMK=2, SMA=1}

| | | | | | TUNGGAKAN ≤ 1.500: SMA {SMK=0, SMA=3}

| | | | | EKSTRA KULIKULER ≤ 1.500: SMK {SMK=5, SMA=3}

| | | | ORANG TUA ≤ 1.500: SMA {SMK=0, SMA=2}

| PENGHASILAN ORTU = 3

| | SAUDARA > 1.500

| | | JENKEL > 1.500

| | | | EKSTRA KULIKULER > 1.500: SMK {SMK=1, SMA=1}

| | | | EKSTRA KULIKULER ≤ 1.500: SMA {SMK=1, SMA=3}

| | | JENKEL ≤ 1.500: SMA {SMK=0, SMA=6}

| | SAUDARA ≤ 1.500: SMA {SMK=0, SMA=28}

PREDIKAT NILAI RATA-RATA = TINGGI: SMA {SMK=0, SMA=76}

58

Dari pohon keputusan yang terbentuk dapat terlihat juga performance vaktor (performance) sebagai berikut:

PerformanceVector

PerformanceVector:

accuracy: 81.21% +/- 7.74% (micro average: 81.19%) ConfusionMatrix:

True: SMK SMA

SMK: 55 27

SMA: 14 122

precision: 89.80% +/- 5.52% (micro average: 89.71%) (positive class: SMA) ConfusionMatrix:

True: SMK SMA

SMK: 55 27

SMA: 14 122

recall: 81.95% +/- 8.91% (micro average: 81.88%) (positive class: SMA) ConfusionMatrix:

True: SMK SMA

SMK: 55 27

SMA: 14 122

AUC (optimistic): 0.928 +/- 0.047 (micro average: 0.928) (positive class: SMA) AUC: 0.842 +/- 0.094 (micro average: 0.842) (positive class: SMA)

AUC (pessimistic): 0.828 +/- 0.090 (micro average: 0.828) (positive class: SMA)

2. Accuracy

Accuracy didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai aktual. Dari data yang tersedia, analisis menggunakan aplikasi Rapid Miner dengan pengukuran Decission Tree didapatkan hasil dengan tingkat akurasi 81.21%. seperti terlihat pada gambar di bawah ini

59

Gambar 4.10 Hasil Accuracy Decission Tree

Class precission didapat dengan hasil prediksi SMK sebesar 67.07% dan prediksi SMA sebesar 89.71%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 67.07% dan kecocokan dengan prediksi SMA adalah 89.71%.

Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 79.71% dan True SMA sebesar 81.88%.

3. Precision

Precision adalah tingkat ketepatan antara informasi yang diminta oleh pengguna dengan jawaban yang diberikan oleh sistem. Dari data yang ada didapat hasil dengan tingkat pracision sebesar 89.80%. Seperti terlihat pada gambar di bawah ini

Gambar 4.11 Hasil Precision Decission Tree

Class precission didapat dengan hasil prediksi SMK sebesar 67.07% dan prediksi SMA sebesar 89.71%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 67.07% dan kecocokan dengan prediksi SMA adalah 89.71%.

60

Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 79.71% dan True SMA sebesar 81.88%.

4. Recall

Recall bertujuan untuk mengukur proporsi true positive (TP) terhadap tupelo positif yang diidentifikasi secara benar. Dari data yang ada didapat hasil dengan tingkat pracision sebesar 81.95%. Seperti terlihat pada gambar di bawah ini

Gambar 4.12 Hasil Recall Decission Tree

Class precission didapat dengan hasil prediksi SMK sebesar 67.07% dan prediksi SMA sebesar 89.71%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 67.07% dan kecocokan dengan prediksi SMA adalah 89.71%.

Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 79.71% dan True SMA sebesar 81.88%.

5. AUC

AUC merupakan area di bawah kurva (Area Under Curve,) ROC (Receiver Operating Characteristic), suatu kurva yang menggambarkan probabilitas dengan variabel sensitivitas dan kekhususan (specificity) dengan nilai batas antara 0 hingga 1. Area di bawah kurva memberikan gambaran tentang keseluruhan pengukuran atas kesesuaian dari model yang digunakan. Pada gambar adalah hasil AUC yang terbentuk dari data yang ada, berikut ini:

61

Gambar 4.13 Hasil AUC Decission Tree

AUC (the area under curve) dihitung untuk mengukur perbedaan performansi. Kurva ROC menunjukkan akurasi dan membandingkan klasifikasi secara visual dengan false positive sebagai garis horizontal dan true positive sebagai garis vertikal. Dari data diatas analisis menggunakan aplikasi RapidMiner dengan pengukuran Decission Tree didapatkan hasil AUC 0.842 yang termasuk dalam kategori baik (Good Classification) dilihat dari kategori dibawah ini :

1. 90 – 1.00 : Excellent Classification 2. 80 – 0.90 : Good Classification 3. 70 – 0.80 : Fair Classification 4. 60 – 0.70 : Poor Classification 5. 50 – 0.60 = Failure

4.1.2.2 Pengujian Decision Tree optimasi Genetika (GA)

Langkah pertama yang di lakukan untuk membuat Decision Tree dengan optimasi genetika yaitu dengan mencari Read Excel dan Set Role dan Generate

62

pada search box operators di kiri bawah itu lalu drag and drop pada whitespace pada layar, lalu di hubungkan seperti pada gambar di bawah ini

Gambar 4.14 Main Process Dacision Tree optimasi Genetika

Read Excel atau database siswa yang telah dibuat dihubungkan dengan operators Set Role adalah operator yang mengklasifikasikan sebuah atribut sebagai atribut khusus atau atribut standar. Set Role berfungsi untuk membedakan baris penamaan atribut koordinat dan prediksi posisi yang akan di masukan kedalam kategori „label‟. Agar pada saat pengkategorian data „label‟ tidak ikut serta terhitung dan merubah hasil.

Pada generate harus diberi tahapan cross validation dengan cara klik dua kali pada generate lalu cari cross validation pada search box operators lalu drag and drop pada whitespace pada layar, dan hubungkan seperti pada gambar berikut.

Gambar 4.15 Main Process Cross-Validation (CV) optimasi Genetika Set Role kemudian dengan Generate yang di dalamnya terdapat operators cross validation (CV) yang berfungsi untuk mengevaluasi dan membandingkan algoritma pembelajaran dengan membagi data menjadi dua bagian yaitu data testing dan data training.

Pada cross validation operators decision tree, dengan cara mencari Decision Tree pada search box operators lalu drag and drop pada whitespace training pada

63

layar kemudian Applay Model dan Performance letakkan pada whitespace testing pada layar, pada tahap ini di gunakan untuk melihat hasil performancenya, kemudian hubungkan seperti pada gambar berikut.

Gambar 4.16 Main Process Dacision Tree optimasi Genetika

Selanjutnya impor data dengan menggunakan model yang telah di buat, pada parameters Read Exel pilih import configuration wizard, pilih file yang telah dibuat dengan nama (DT.xslx), next lalu pilih sheet Fix untuk memilih di sheet mana data tersimpan next kemudian finist. Seperti pada gambar berikut:

Gambar 4.17 Import Data

64

Gambar 4.18 Edit Sheet

Edit format columns pada parameter Read Exel dengan cara pilih edit list pada parameter Read Exel lalu ganti format columns nama menjadi text, penghasilan orangtua menjadi polynominal, predikat nilai rata-rata menjadi polynomonal, class menjadi binominal dan pada class change role (label). Seperti pada gambar berikut:

Gambar 4.19 Edit List Data

65

Ketika sudah di set jalankan program dengan menekan tombol run atau klik pada gambar panah biru besar dibagian atas. Setelah itu akan mendapat hasil sebagai berikut:

1. Performance Vector

Performance Vector di gunakan untuk mengetahui performance terhadap vactore, berikut adalah Performance Vector yang terbentuk:

PerformanceVector

PerformanceVector:

accuracy: 88.57% +/- 7.08% (micro average: 88.53%) ConfusionMatrix:

True: SMK SMA

SMK: 61 17

SMA: 8 132

precision: 94.79% +/- 6.43% (micro average: 94.29%) (positive class: SMA) ConfusionMatrix:

True: SMK SMA

SMK: 61 17

SMA: 8 132

recall: 88.52% +/- 8.61% (micro average: 88.59%) (positive class: SMA) ConfusionMatrix:

True: SMK SMA

SMK: 61 17

SMA: 8 132

AUC (optimistic): 0.961 +/- 0.046 (micro average: 0.961) (positive class: SMA) AUC: 0.927 +/- 0.074 (micro average: 0.927) (positive class: SMA)

AUC (pessimistic): 0.901 +/- 0.083 (micro average: 0.901) (positive class: SMA)

66 2. Accuracy

Accuracy didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai aktual. Dari data yang tersedia, analisis menggunakan aplikasi Rapid Miner dengan pengukuran Decission Tree didapatkan hasil dengan tingkat akurasi 88.57%. seperti terlihat pada gambar di bawah ini

Gambar 4.20 Hasil Accuracy Decission Tree Optimasi Genetika

Class precission didapat dengan hasil prediksi SMK sebesar 78.21% dan prediksi SMA sebesar 94.29%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 78.21% dan kecocokan dengan prediksi SMA adalah 94.29%.

Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 88.41% dan True SMA sebesar 88.59%.

3. Precision

Precision adalah tingkat ketepatan antara informasi yang diminta oleh pengguna dengan jawaban yang diberikan oleh sistem. Dari data yang ada didapat hasil dengan tingkat pracision sebesar 94.79%. Seperti terlihat pada gambar di bawah ini

67

Gambar 4.21 Hasil Precision Decission Tree Optimasi Genetika

Class precission didapat dengan hasil prediksi SMK sebesar 78.21% dan prediksi SMA sebesar 94.29%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 78.21% dan kecocokan dengan prediksi SMA adalah 94.29%.

Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 88.41% dan True SMA sebesar 88.59%.

4. Recall

Recall bertujuan untuk mengukur proporsi true positive (TP) terhadap tupelo positif yang diidentifikasi secara benar. Dari data yang ada didapat hasil dengan tingkat pracision sebesar 88.52%. Seperti terlihat pada gambar di bawah ini

Gambar 4.22 Hasil Recall Decission Tree Optimasi Genetika

Class precission didapat dengan hasil prediksi SMK sebesar 78.21% dan prediksi SMA sebesar 94.29%. Presisi dapat diartikan sebagai kecocokan antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi SMK adalah 78.21% dan kecocokan dengan prediksi SMA adalah 94.29%.

68

Recall didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersedia dapat disimpulkan bahwa tingkat relevan True SMK sebesar 88.41% dan True SMA sebesar 88.59%.

5. AUC

AUC merupakan area di bawah kurva (Area Under Curve,) ROC (Receiver Operating Characteristic), suatu kurva yang menggambarkan probabilitas dengan variabel sensitivitas dan kekhususan (specificity) dengan nilai batas antara 0 hingga 1. Area di bawah kurva memberikan gambaran tentang keseluruhan pengukuran atas kesesuaian dari model yang digunakan. Pada Gambar 4.13 adalah hasil AUC yang terbentuk dari data yang ada, berikut ini:

Gambar 4.23 Hasil AUC Decission Tree Optimasi Genetika

AUC (the area under curve) dihitung untuk mengukur perbedaan performansi. Kurva ROC menunjukkan akurasi dan membandingkan klasifikasi secara visual dengan false positive sebagai garis horizontal dan true positive sebagai garis vertikal. Dari data diatas analisis menggunakan aplikasi RapidMiner dengan pengukuran Decission Tree didapatkan hasil AUC 0.927 yang termasuk

69

dalam kategori sangat baik (Excellent Classification) dilihat dari kategori dibawah ini :

1. 90 – 1.00 : Excellent Classification 2. 80 – 0.90 : Good Classification 3. 70 – 0.80 : Fair Classification 4. 60 – 0.70 : Poor Classification 5. 50 – 0.60 = Failure

4.2. Hasil

4.2.1 Hasil Perbandingan Dua Algoritma

Berdasarkan pengujian yang telah dilakukan. Berikut ini adalah hasil perbandingan antara kedua algoritma beserta grafiknya:

Tabel 4.2 Hasil Perbandingan

Metode Accuracy Precision Recall AUC

C4.5 81,21 89,8 81,95 0,842

GA 88,57 94,79 88,52 0,927

70

Grafik 4.1 Perbandingan Hasil

Pengujian dilakukan berdasarkan jumlah data yang diuji yaitu 218 data.

Dari setiap pengujian data terjadi perbedaan nilai ketika menggunakan dua algoritma yang berbeda. Berikut ini merupakan grafik hasil nilai accurasy dari algoritma C4.5 dan Genetika (GA) :

4.2.2 Hasil Pengujian Algoritma C4.5 dan Algoritma GA

81,21

89,8

81,95

0,842 88,57

94,79

88,52

0,927

0 10 20 30 40 50 60 70 80 90 100

Accurasy Precision Recall AUC

Dokumen terkait