HASIL DAN PEMBAHASAN - Optimasi Fuzzy Decision Tree Menggunakan Algoritme Genetika pada Data Di

Pemilihan Training Set dan Testing Set Pembagian data menggunakan 10-fold cross validation menghasilkan sepuluh training sets dan 10 testing sets. Untuk percobaan mencari parameter algoritme genetika yang optimal digunakan hanya satu training set saja. Pemilihan training set ini berdasarkan hasil eksekusi program G-DT dengan menggunakan sepuluh training sets dan sepuluh testing sets serta persebaran data pada masing-masing training set dan testing set. Parameter algoritme genetika yang digunakan dalam pemilihan training set yaitu: fitness threshold = 0.05, ukuran populasi = 10, maksimum generasi = 50, tingkat rekombinasi = 50%, dan tingkat mutasi = 1%. Hasil eksekusi program G-DT menggunakan sepuluh training sets dan sepuluh testing sets dapat dilihat pada Tabel 3.

Tabel 3 Hasil eksekusi program G-DT menggunakan 10 training sets dan 10 testing sets

Dari total data sebanyak 290 record, terdapat data negatif diabetes sebanyak 273

record dan data positif diabetes sebanyak 17 record. Dengan 10-fold cross validation, data sebanyak 290 record dibagi menjadi training set dan testing set. Training set berjumlah 261 record dan testing set berjumlah 29 record. Persebaran data negatif dan positif diabetes pada setiap training set dan testing set dapat dilihat pada Tabel 4.

Tabel 4 Persebaran data negatif dan positif diabetes pada setiap training set dan testing set

Dari hasil eksekusi program G-DT menggunakan sepuluh training sets dan sepuluh testing sets terlihat bahwa hanya training set 2 dan 3 yang belum memperoleh akurasi 100%. Dengan menggunakan parameter algoritme genetika yang optimal diharapkan akurasi pada training set 2 dan 3 meningkat. Sehingga, training set 2 dan 3 menjadi calon training set yang akan digunakan dalam percobaan mencari parameter algoritme genetika yang optimal.

Untuk menentukan satu training set yang akan digunakan dalam percobaan, persebaran data pada training set dan testing set 2 dan 3 dilihat. Pada Tabel 4, dapat dilihat bahwa 13 record data positif diabetes dari total 17 record positif diabetes ada pada testing set 2. Hanya 4 record data positif diabetes yang ada pada training set 2. Sedangkan pada training set 3 terdapat 13 record data positif diabetes dan pada testing set 3 terdapat 4 record data positif diabetes. Hal ini menunjukkan bahwa persebaran data pada training set dan testing set 3 lebih baik daripada training set dan testing set 2. Sehingga, percobaan mencari parameter algoritme genetika yang optimal dilakukan dengan menggunakan training set dan testing set 3.

Set Akurasi Jumlah

Aturan Waktu Total (detik) Jumlah Iterasi 1 100.00% 20 14,906 1 2 58.62% 17 209,562 50 3 89.66% 25 320,938 50 4 100.00% 20 15,031 1 5 100.00% 21 15,109 1 6 100.00% 21 14,937 1 7 100.00% 22 14,578 1 8 100.00% 19 14,985 1 9 100.00% 22 14,938 1 10 100.00% 21 15,344 1 Rataan 94.83% 20.8

Training Set Testing Set Set

Negatif Positif Negatif Positif

1 244 17 29 0 2 257 4 16 13 3 248 13 25 4 4 244 17 29 0 5 244 17 29 0 6 244 17 29 0 7 244 17 29 0 8 244 17 29 0 9 244 17 29 0 10 244 17 29 0 Total 261 29

Percobaan untuk Mencari Parameter Algoritme Genetika yang Optimal

Setelah memilih training set yang akan digunakan untuk percobaan, percobaan untuk mencari parameter algoritme genetika yang optimal dapat dilakukan. Pertama, percobaan dengan ukuran populasi sebesar 10 dilakukan. Selanjutnya, percobaan dengan ukuran populasi sebesar 30 dan 50 dilakukan. Parameter algoritme genetika yang optimal ditentukan berdasarkan hasil percobaan.

• Ukuran populasi sebesar 10

Pada percobaan dengan ukuran populasi sebesar 10, dilakukan dengan variasi tingkat rekombinasi (50%, 60%, 70%, 80%, 90%, dan 100%), tingkat mutasi (1%, 5%, dan 10%), dan maksimum generasi (50, 100, 150, 200, 250). Total percobaan yang dilakukan adalah 90 percobaan. Hasil dari 90 percobaan ini dapat dilihat pada Lampiran 1. Alur pemilihan parameter yang optimal bagi ukuran populasi sebesar 10 dapat dilihat pada Gambar 10.

Gambar 10 Alur pemilihan parameter yang optimal bagi ukuran populasi sebesar 10.

Dari 90 percobaan, diperoleh 58 kombinasi parameter dengan nilai fitness yang terbaik sebesar 0.0690. Dari 58 kombinasi parameter, hanya 12 kombinasi parameter yang memiliki waktu eksekusi kurang dari 360 detik. Dua belas kombinasi parameter tersebut adalah nilai yang dicetak tebal pada Lampiran 1.

Dua belas kombinasi parameter tersebut merupakan parameter algoritme genetika yang baik. Dua belas kombinasi parameter ini dapat digunakan sebagai parameter algoritme genetika untuk training G-DT. Untuk mencari parameter algoritme genetika yang paling optimal diantara 12 kombinasi parameter tersebut, dilakukan percobaan sebanyak 10 kali untuk masing-masing 12 kombinasi parameter. Total percobaan yang dilakukan

adalah 120 percobaan. Hasil percobaan untuk 12 kombinasi parameter dapat dilihat pada Lampiran 2.

Dari 12 kombinasi parameter dan masing- masing dilakukan 10 iterasi, hanya tiga kombinasi parameter yang menghasilkan nilai fitness relatif lebih stabil dengan menghasilkan nilai fitness sebesar 0.0690 sebanyak sembilan buah dan nilai fitness sebesar 0.1034 sebanyak satu buah. Tiga kombinasi parameter tersebut yaitu:

a. tingkat rekombinasi = 80%, tingkat mutasi = 10%, dan maksimum generasi = 50, b. tingkat rekombinasi = 90%, tingkat mutasi

= 10%, dan maksimum generasi = 50, dan c. tingkat rekombinasi = 100%, tingkat

mutasi = 1%, dan maksimum generasi = 50.

Tiga kombinasi parameter di atas merupakan kombinasi parameter yang terbaik bagi training set dan testing set 3. Untuk memperoleh parameter yang lebih optimal lagi, dilakukan percobaan untuk masing- masing tiga kombinasi parameter itu dengan menggunakan training set dan testing set 2. Training set 2 digunakan karena training set 2 merupakan training set yang memiliki akurasi masih di bawah 100% selain training set 3. Percobaan untuk tiga kombinasi parameter ini juga dilakukan masing-masing 10 kali percobaan. Total percobaan yang dilakukan adalah 30 percobaan. Hasil dari 30 kali percobaan ini dapat dilihat pada Lampiran 3.

Dari 30 percobaan, kombinasi parameter yang terdiri dari tingkat rekombinasi sebesar 90%, tingkat mutasi sebesar 10%, dan maksimum generasi sebesar 50 generasi merupakan kombinasi parameter yang terbaik bagi training set dan testing set 2. Parameter ini menghasilkan nilai fitness yang stabil dengan menghasilkan nilai fitness sebesar 0.3793 pada 10 percobaan yang dilakukan. Sehingga, parameter algoritme yang optimal dengan ukuran populasi sebesar 10 yaitu: a tingkat rekombinasi: 90%,

b tingkat mutasi: 10%, dan c maksimum generasi: 50.

• Ukuran populasi sebesar 30 dan 50

Pada percobaan dengan ukuran populasi sebesar 30 dan 50, juga dilakukan dengan variasi tingkat rekombinasi (50%, 60%, 70%, 80%, 90%, dan 100%), tingkat mutasi (1%, 5%, dan 10%), dan maksimum generasi (50, 100, 150, 200, 250). Total percobaan untuk 58 kombinasi parameter

dengan nilai fitness terbaik

12 kombinasi parameter dengan nilai fitness terbaik dan waktu eksekusi < 360 detik

3 kombinasi parameter yang terbaik untuk training set 3 (pengulangan 10 kali)

1 kombinasi parameter yang terbaik untuk training set 3 dan 2 Æ parameter AG

masing-masing ukuran populasi adalah 90 percobaan.

Waktu eksekusi dengan ukuran populasi sebesar 30 dan 50 relatif lama (lebih dari 900 detik), sehingga percobaan dengan ukuran populasi sebesar 30 dan 50 ini tidak dilakukan untuk semua kombinasi parameter. Percobaan dilakukan hanya dengan kombinasi parameter yang optimal pada ukuran populasi sebesar 10 yaitu kombinasi parameter yang terdiri dari tingkat rekombinasi sebesar 90% dan tingkat mutasi sebesar 10%. Percobaan dilakukan dengan variasi nilai maksimum generasi (50, 100, 150, 200, dan 250). Total percobaan yang dilakukan adalah 10 percobaan. Hasil percobaan ini dapat dilihat pada Lampiran 4.

Dari hasil percobaan tersebut, besar nilai fitness dengan maksimum generasi sebesar 250 sama dengan nilai fitness dengan maksimum generasi sebesar 50 yaitu sebesar 0.0690. Sehingga, maksimum generasi sebesar 50 merupakan maksimum generasi yang baik bagi ukuran populasi sebesar 30 dan 50.

• Penentuan parameter yang optimal

Total percobaan yang dilakukan adalah 250 percobaan. Dari 250 percobaan, dapat disimpulkan hasil percobaan ke dalam dua kelompok yaitu:

a percobaan dengan variasi tingkat rekombinasi dan tingkat mutasi, dan

b percobaan dengan variasi ukuran populasi dan maksimum generasi.

Hasil percobaan dengan variasi tingkat rekombinasi dan tingkat mutasi dapat dilihat pada Tabel 5. Percobaan ini dilakukan pada ukuran populasi sebesar 10 dan maksimum generasi sebesar 50 generasi.

Tabel 5 Hasil percobaan dengan variasi tingkat rekombinasi dan tingkat mutasi

Tabel 5 Lanjutan

Dari Tabel 5, ada 12 kombinasi parameter yang baik yaitu kombinasi parameter yang memiliki nilai fitness sebesar 0.0690. Dari 12 kombinasi parameter ini, telah disimpulkan parameter yang optimal yaitu:

a tingkat rekombinasi: 90%, dan b tingkat mutasi: 10%.

Hasil percobaan dengan variasi ukuran populasi dan maksimum generasi dapat dilihat pada Tabel 6. Percobaan ini dilakukan dengan tingkat rekombinasi sebesar 90% dan tingkat mutasi sebesar 10%.

Tabel 6 Hasil percobaan dengan variasi ukuran populasi dan maksimum generasi

Dari Tabel 6, besar nilai fitness terbaik pada ukuran populasi sebesar 30 dan 50 tidak lebih rendah daripada nilai fitness terbaik pada ukuran populasi sebesar 10. Waktu eksekusi percobaan dengan ukuran populasi sebesar 30 dan 50 lebih lama daripada ukuran populasi sebesar 10. Pada ukuran populasi sebesar 10, 30, dan 50, besar nilai fitness terbaik pada maksimum generasi sebesar 250 tidak lebih

Tingkat Rekombinasi Tingkat Mutasi Akurasi Fitness Terbaik 1% 89.66% 0.1034 5% 93.10% 0.0690 50% 10% 89.66% 0.1034 1% 93.10% 0.0690 5% 93.10% 0.0690 60% 10% 93.10% 0.0690 1% 89.66% 0.1034 5% 93.10% 0.0690 70% 10% 86.21% 0.1379 1% 93.10% 0.0690 5% 89.66% 0.1034 80% 10% 93.10% 0.0690 Tingkat Rekombinasi Tingkat Mutasi Akurasi Fitness Terbaik 1% 93.10% 0.0690 5% 93.10% 0.0690 90% 10% 93.10% 0.0690 1% 93.10% 0.0690 5% 93.10% 0.0690 100% 10% 89.66% 0.1034 Ukuran Popu lasi Maks. Gene Rasi Akurasi Fitness Terbaik Waktu (detik) 50 93.10% 0.0690 331,344 100 93.10% 0.0690 621,937 150 93.10% 0.0690 989,718 200 93.10% 0.0690 1168,190 10 250 93.10% 0.0690 1453,800 50 93.10% 0.0690 1014,110 100 93.10% 0.0690 2406,530 150 93.10% 0.0690 3140,270 200 93.10% 0.0690 4502,950 30 250 93.10% 0.0690 5732,880 50 93.10% 0.0690 1809,130 100 93.10% 0.0690 3866,530 150 93.10% 0.0690 5677,980 200 93.10% 0.0690 7172,590 50 250 93.10% 0.0690 7865,800

rendah daripada nilai fitness terbaik pada maksimum generasi sebesar 50. Waktu eksekusi percobaan dengan maksimum generasi sebesar 250 lebih lama daripada maksimum generasi sebesar 50.

Peningkatan ukuran populasi dan maksimum generasi tidak menghasilkan nilai fitness yang lebih rendah dari 0.0690 dan akurasi lebih tinggi dari 93.10%. Berdasarkan hasil percobaan tersebut ditetapkan bahwa ukuran populasi yang baik adalah 10 dan maksimum generasi yang baik adalah 50 generasi.

Setelah menganalisis hasil percobaan, diperoleh parameter algoritme genetika yang optimal bagi kasus ini. Parameter algoritme genetika yang optimal bagi kasus ini yaitu: a tingkat rekombinasi: 90%,

b tingkat mutasi: 10%, c ukuran populasi: 10, dan d maksimum generasi: 50. Training G-DT

Setelah parameter algoritme genetika yang optimal diperoleh, proses training G-DT dapat dilakukan. Proses training ini menggunakan sepuluh training sets yang sebelumnya telah dibagi dengan metode 10-fold cross validation. Untuk setiap training set dilakukan 10 kali iterasi. Satu hasil training yang mewakili 10 hasil training dari suatu training set ditentukan dengan kriteria berikut yang diurutkan berdasarkan prioritas:

1 nilai akurasi yang paling tinggi,

2 jumlah aturan yang dihasil yang paling sering muncul (modus), dan

3 waktu eksekusi yang paling cepat.

Hasil training untuk training set 2 dapat dilihat pada Tabel 7. Hasil training set 3 dapat dilihat pada Tabel 8.

Tabel 7 Hasil training untuk training set 2

Tabel 8 Hasil training untuk training set 3

Hasil training dari training set 2 yaitu dari 10 iterasi yang dilakukan diperoleh nilai akurasi yang sama yaitu 62.07%. Jumlah aturan yang paling sering dihasilkan adalah 17 aturan dan 18 aturan. Empat iterasi dari 10 iterasi yang dilakukan menghasilkan aturan yang berjumlah 17 aturan. Empat iterasi menghasilkan aturan yang berjumlah 18 aturan. Tujuh belas dan delapan belas aturan yang dihasilkan ini masing-masing memiliki 1 aturan mengandung kelas target positif diabetes. Dari delapan iterasi ini, yang memiliki waktu eksekusi paling cepat adalah iterasi ke-5 yaitu 200,547 detik. Sehingga, hasil training yang mewakili hasil training dari training set 2 adalah hasil training pada iterasi ke-5.

Hasil training dari training set 3 yaitu dari 10 iterasi yang dilakukan diperoleh nilai akurasi sebesar 93.10% sebanyak 9 iterasi dan nilai akurasi sebesar 89.66% sebanyak 1 iterasi. Jumlah aturan yang paling sering dihasilkan adalah 21 aturan. Tiga iterasi dari 10 iterasi yang dilakukan menghasilkan aturan yang berjumlah 21 aturan. Dua puluh satu aturan yang dihasilkan ini terdiri dari 20 aturan mengandung kelas target negatif diabetes dan 1 aturan mengandung kelas target positif diabetes. Dari tiga iterasi yang menghasilkan 21 aturan ini, yang memiliki waktu eksekusi paling cepat adalah iterasi ke- 9 yaitu 264,859detik. Sehingga, hasil training yang mewakili hasil training dari training set 3 adalah hasil training pada iterasi ke-9.

Hasil training set 1, training set 4, training set 5, training set 6, training set 7, training set 8, training set 9, dan training set 10 dapat dilihat pada Lampiran 5. Pemilihan satu hasil training untuk mewakili 10 hasil training suatu training set ini juga dilakukan

Set Akurasi Waktu

(detik) Jumlah Aturan 1 62.07% 231,344 18 (17 negatif, 1 positif) 2 62.07% 216,141 17 (16 negatif, 1 positif) 3 62.07% 220,281 17 (16 negatif, 1 positif) 4 62.07% 199,360 16 (15 negatif, 1 positif) 5 62.07% 200,547 17 (16 negatif, 1 positif) 6 62.07% 213,359 18 (17 negatif, 1 positif) 7 62.07% 227,078 18 (17 negatif, 1 positif) 8 62.07% 204,969 17 (16 negatif, 1 positif) 9 62.07% 240,250 19 (18 negatif, 1 positif) 10 62.07% 223,735 18 (17 negatif, 1 positif)

Set Akurasi Waktu

(detik) Jumlah Aturan 1 93.10% 324,594 28 (26 negatif, 2 positif) 2 93.10% 328,766 26 (25 negatif, 1 positif) 3 93.10% 310,985 21 (20 negatif, 1 positif) 4 93.10% 321,031 25 (23 negatif, 2 positif) 5 89.66% 302,500 20 (19 negatif, 1 positif) 6 93.10% 306,156 22 (20 negatif, 2 positif) 7 93.10% 317,187 25 (24 negatif, 1 positif) 8 93.10% 306,375 21 (20 negatif, 1 positif) 9 93.10% 264,859 21 (20 negatif, 1 positif) 10 93.10% 319,531 24 (23 negatif, 1 positif)

untuk 8 training sets ini. Record yang dicetak tebal pada Lampiran 5 merupakan wakil hasil training dari training set tersebut. Hasil training untuk setiap training set dapat dilihat pada Tabel 9.

Tabel 9 Hasil training G-DT untuk setiap training set

Dari Tabel 9, terlihat bahwa nilai akurasi pada training set 2 dan training set 3 mengalami peningkatan dengan menggunakan parameter algoritme genetika yang optimal. Hasil dari training set menggunakan parameter algoritme genetika yang tidak optimal dapat dilihat pada Tabel 3. Dengan menggunakan parameter yang tidak optimal, untuk training set 2 diperoleh nilai akurasi sebesar 58.62% dan training set 3 diperoleh nilai akurasi sebesar 89.66%. Setelah menggunakan parameter yang optimal, nilai akurasi training set 2 dari 58.62% naik menjadi 62.07%. Pada training set 3, nilai akurasi dari 89.66% naik menjadi 93.10%.

Rata-rata akurasi yang diperoleh dengan menggunakan parameter yang tidak optimal adalah sebesar 94.83%. Rata-rata akurasi yang diperoleh dengan menggunakan parameter yang optimal adalah sebesar 95.52%. Hal ini menunjukkan bahwa terjadi peningkatan rata- rata akurasi dengan menggunakan parameter yang optimal sebesar 0.69%.

Sebagian besar jumlah aturan yang dihasilkan dengan menggunakan parameter

yang optimal mengalami peningkatan dari jumlah aturan yang dihasilkan dengan menggunakan parameter yang tidak optimal. Tujuh dari sepuluh aturan yang dihasilkan mengalami peningkatan dalam hal jumlah. Tiga aturan dihasilkan dengan jumlah yang sama. Hal ini disebabkan perbedaan bilangan acak yang dibangkitkan untuk membentuk populasi awal dan penggunaan parameter yang berbeda. Kedua hal ini menyebabkan solusi yang dihasilkan akan berbeda sehingga tree yang dihasilkan akan berbeda. Parameter yang menghasilkan nilai akurasi tertinggi merupakan parameter yang terbaik.

Rata-rata jumlah aturan yang dihasilkan dengan menggunakan parameter yang tidak optimal adalah 20.8. Rata-rata aturan yang dihasilkan dengan menggunakan parameter yang optimal adalah 22.6. Hal ini menunjukkan bahwa terjadi peningkatan rata- rata jumlah aturan yang dihasilkan dengan menggunakan parameter yang optimal.

Representasi Pengetahuan

Model yang dihasilkan dari proses training digunakan untuk mengetahui label kelas pada data yang baru. Model tersebut dipilih berdasarkan tiga kriteria berikut yang diurutkan berdasarkan prioritas:

1 Model yang mencakup semua kelas target yang mungkin muncul dalam testing set, dalam penelitian ini kelas target yang mungkin muncul yaitu kelas target 1 (negatif diabetes) dan kelas target 2 (positif diabetes).

2 Model dengan akurasi yang paling tinggi, semakin tinggi akurasinya maka semakin baik model tersebut.

3 Model dengan jumlah aturan yang paling banyak.

Berdasarkan kriteria tersebut maka model yang dipilih adalah hasil training dari pasangan training set dan testing set keenam dengan jumlah aturan sebanyak 27 aturan. Dari 27 aturan tersebut hanya 2 aturan yang mengandung kelas target positif diabetes. Model yang dihasilkan adalah sebagai berikut: 1 IF GPOST rendah THEN Negatif

Diabetes

2 IF GPOST sedang AND GLUN rendah AND TG rendah AND HDL rendah THEN Negatif Diabetes

3 IF GPOST sedang AND GLUN rendah AND TG rendah AND HDL sedang THEN Negatif Diabetes

Set Akurasi Jumlah

Aturan Waktu Total (detik) 1 100.00% 26 (24 negatif, 2 positif) 15,031 2 62.07% 17 (16 negatif, 1 positif) 207,204 3 93.10% 21 (20 negatif, 1 positif) 271,484 4 100.00% 25 (24 negatif, 1 positif) 15,563 5 100.00% 23 (20 negatif, 3 positif) 15,188 6 100.00% 27 (25 negatif, 2 positif) 15,063 7 100.00% 22 (22 negatif, 0 positif) 14,797 8 100.00% 20 (19 negatif, 1 positif) 14,625 9 100.00% 22 (22 negatif, 0 positif) 15,016 10 100.00% 23 (21 negatif, 2 positif) 15,485 Rataan 95.52% 22.6

4 IF GPOST sedang AND GLUN rendah AND TG rendah AND HDL tinggi THEN Negatif Diabetes

5 IF GPOST sedang AND GLUN rendah AND TG sedang AND HDL rendah THEN Negatif Diabetes

6 IF GPOST sedang AND GLUN rendah AND TG sedang AND HDL sedang THEN Negatif Diabetes

7 IF GPOST sedang AND GLUN rendah AND TG tinggi THEN Negatif Diabetes 8 IF GPOST sedang AND GLUN sedang

AND TG rendah AND HDL rendah THEN Negatif Diabetes

9 IF GPOST sedang AND GLUN sedang AND TG rendah AND HDL sedang THEN Negatif Diabetes

10 IF GPOST sedang AND GLUN sedang AND TG rendah AND HDL tinggi THEN Negatif Diabetes

11 IF GPOST sedang AND GLUN sedang AND TG sedang AND HDL rendah THEN Negatif Diabetes

12 IF GPOST sedang AND GLUN sedang AND TG sedang AND HDL sedang THEN Negatif Diabetes

13 IF GPOST sedang AND GLUN sedang AND TG tinggi AND HDL rendah THEN Negatif Diabetes

14 IF GPOST sedang AND GLUN sedang AND TG tinggi AND HDL sedang THEN Negatif Diabetes

15 IF GPOST sedang AND GLUN tinggi AND TG rendah AND HDL rendah THEN Negatif Diabetes

16 IF GPOST sedang AND GLUN tinggi AND TG rendah AND HDL sedang THEN Negatif Diabetes

17 IF GPOST sedang AND GLUN tinggi AND TG sedang AND HDL rendah THEN Negatif Diabetes

18 IF GPOST sedang AND GLUN tinggi AND TG sedang AND HDL sedang THEN Positif Diabetes

19 IF GPOST sedang AND GLUN tinggi AND TG tinggi THEN Negatif Diabetes 20 IF GPOST tinggi AND TG rendah AND

GLUN sedang THEN Negatif Diabetes 21 IF GPOST tinggi AND TG rendah AND

GLUN tinggi THEN Negatif Diabetes 22 IF GPOST tinggi AND TG sedang AND

HDL rendah AND GLUN rendah THEN Negatif Diabetes

23 IF GPOST tinggi AND TG sedang AND HDL rendah AND GLUN sedang THEN Negatif Diabetes

24 IF GPOST tinggi AND TG sedang AND HDL rendah AND GLUN tinggi THEN Negatif Diabetes

25 IF GPOST tinggi AND TG sedang AND HDL sedang AND GLUN rendah THEN Negatif Diabetes

26 IF GPOST tinggi AND TG sedang AND HDL sedang AND GLUN sedang THEN Negatif Diabetes

27 IF GPOST tinggi AND TG sedang AND HDL sedang AND GLUN tinggi THEN Positif Diabetes

Perbandingan G-DT dan FDT • Proses pembentukan tree

Proses pembentukan G-DT berbeda dengan FDT. Sehingga, tree dan aturan yang dihasilkan G-DT berbeda dengan FDT. Untuk melihat tree dan aturan yang dihasilkan oleh FDT dan G-DT, dilakukan pembentukan FDT dan G-DT menggunakan data training set dan testing set 1. Contoh sebagian data training set dan testing set 1 dapat dilihat pada Lampiran 6. Contoh sebagian data training set 1 hasil fuzzikasi untuk membentuk FDT dapat dilihat pada Lampiran 7. Contoh sebagian data training set 1 hasil fuzzikasi untuk membentuk G-DT dapat dilihat pada Lampiran 8.

Pembentukan FDT menggunakan algoritme FID3. Langkah-langkah dalam pembentukan FDT yaitu:

1 Membuat root node dari semua data training yang ada.

2 Menghitung fuzzy entropy dari training set yang ada. Nilai fuzzy entropy ini akan digunakan untuk menghitung nilai information gain dari masing-masing atribut.

3 Menghitung information gain dari atribut- atribut. Atribut yang memiliki nilai information gain paling tinggi akan dipilih untuk digunakan dalam mengekspansi tree atau menjadi root node, tetapi pada sub- node selanjutnya atribut ini tidak dapat digunakan untuk mengekspansi tree. 4 Ekspansi data training berdasarkan atribut

terpilih. Nilai derajat keanggotaan yang baru masing-masing record pada sub-node diperoleh dari hasil perkalian antara derajat keanggotaan pada root node dan derajat keanggotaan atribut yang digunakan untuk mengekspansi tree.

5 Menghitung proporsi dari setiap kelas yang ada pada setiap node.

6 Periksa threshold. Jika proporsi himpunan data dari kelas Ck lebih besar atau sama

dengan nilai fuzziness control threshold (FCT / θr), maka ekspansi tree dihentikan.

Jika banyaknya anggota himpunan data pada suatu node lebih kecil dari leaf decision threshold (LDT / θn), maka

ekspansi tree dihentikan.

7 Ekspansi sub-node terus dilakukan sampai tidak ada lagi data yang dapat diekspansi atau tidak ada lagi atribut yang dapat digunakan untuk mengekspansi tree yaitu ketika tree yang terbentuk sudah mencapai kedalaman maksimum atau sub-node tidak memenuhi syarat dari threshold yang diberikan. Jika sub-node sudah tidak dapat diekspansi maka nilai proporsi kelas terbesar merupakan kesimpulan dari sekumpulan aturan yang diperoleh dengan menghubungkan setiap node yang dilewati dari root node hingga leaf node.

Berdasarkan langkah-langkah algoritme FID3 di atas, diperoleh fuzzy decision tree seperti Lampiran 9 dan sebuah model yang terdiri dari 29 buah aturan dengan menggunakan training set 1. Model atau aturan klasifikasi yang diperoleh dapat dilihat pada Lampiran 10.

Pembentukan G-DT menggunakan algoritme genetika dan algoritme FID3. Langkah-langkah dalam pembentukan G-DT yaitu:

1 Membangkitkan populasi awal berdasarkan data training.

2 Menghitung nilai fitness dengan langkah- langkah berikut:

a Bentuk fungsi keanggotaan fuzzy untuk setiap atribut dan hitung derajat keanggotaan setiap data masing- masing atribut. Nilai derajat keanggotaan fuzzy setiap data akan digunakan untuk membentuk tree. b Bentuk tree dengan menggunakan

algoritme fuzzy ID3, sehingga diperoleh aturan-aturan. Aturan-aturan dan fungsi keanggotaan fuzzy setiap atribut digunakan untuk membentuk FIS Mamdani.

c Melakukan testing dengan menggunakan FIS Mamdani, sehingga diperoleh nilai galat (error). Nilai galat ini merupakan nilai fitness.

3 Mengevaluasi fitness dengan cara memeriksa fitness dengan fitness threshold. Jika fitness lebih kecil daripada fitness threshold, maka parameter fungsi keanggotaan yang terbaik telah diperoleh dan dapat dibentuk tree dengan cara: a Bentuk fungsi keanggotaan fuzzy

untuk setiap atribut dan hitung derajat keanggotaan setiap data masing- masing atribut. Nilai derajat keanggotaan fuzzy setiap data akan digunakan untuk membentuk tree. b Bentuk tree dengan menggunakan

algoritme fuzzy ID3, sehingga diperoleh model.

Jika fitness lebih besar daripada fitness threshold, maka lakukan elitisme, seleksi, rekombinasi, dan mutasi untuk membentuk populasi baru.

4 Melakukan elitisme, seleksi, rekombinasi, dan mutasi sehingga terbentuk populasi baru.

5 Menghitung nilai fitness populasi baru. 6 Evaluasi nilai fitness populasi baru.

7 Iterasi akan terus dilakukan hingga diperoleh solusi yang memenuhi nilai fitness threshold atau telah mencapai maksimum generasi. Jika parameter fungsi keanggotaan yang terbaik telah diperoleh, maka tree dapat dibentuk. Tree yang dihasilkan ini merupakan genetically optimized fuzzy decision tree (G-DT).

Berdasarkan langkah-langkah dalam pembentukan G-DT di atas, diperoleh genetically optimized fuzzy decision tree seperti Lampiran 11 dan sebuah model yang terdiri dari 26 buah aturan dengan menggunakan training set 1. Model atau

Dalam dokumen Optimasi Fuzzy Decision Tree Menggunakan Algoritme Genetika pada Data Diabetes (Halaman 70-81)