3 METODE PENELITIAN - Genetic programming for medicinal plant family identification system

Tahapan pada proses penelitian ini terdiri atas akuisisi data, booleanize, pembagian data (latih dan uji), Genetic Programming, hasil aturan klasifikasi dan evaluasi, seperti ditunjukkan pada Gambar 16.

Akuisisi data Booleanize Evaluasi fitness Pembagian data Generate rule Apakah stop condition terpenuhi Operasi genetika Ya Tidak Evaluasi Genetic Programming Data uji Data latih Hasil Akuisisi Data

Data yang digunakan berbentuk dokumen teks berbahasa Indonesia. Dokumen berisi informasi mengenai jenis tumbuhan obat, dokumen tersebut dimiliki oleh bagian Konservasi Keanekaragaman Tumbuhan, Departemen Konservasi Sumber Daya Hutan dan Ekowisata, Fakultas Kehutanan IPB. Dokumen tersebut berbentuk buku dengan judul “Acuan Umum Tumbuhan Obat Indonesia” jilid I sampai dengan jilid X yang disusun oleh Fakultas Kehutanan IPB bekerja sama dengan Fakultas Kehutanan UGM. Data yang diambil terdiri atas tiga famili tumbuhan obat yaitu famili Lamiaceae sebanyak 26 spesies, Famili Apiaceae sebanyak 24 spesies dan famili Euphorbiaceae sebanyak 31 spesies.

Famili yang digunakan memiliki kemiripan atau kesamaan yang cukup dekat yaitu memiliki kesamaan sifat morfologi (tumbuhan berbunga). Selain itu, berdasarkan jumlah spesies pada dokumen yang dimiliki, tiga famili ini memiliki banyak spesies. Spesies yang digunakan pada famili Lamiaceae adalah Coleus amboinicus, Leonurus sibiricus, Hyptis suaveolens, Coleus scutellarioides, Coleus tuberosus, Leucas lavandulifolia, Rosmarinus officianalis, Salvia coccinea, Salvia

splendens, Orthosiphon aristatus, Ajuga reptans, Ocimum basilicum, Hyptis brevipes, Ocimum sanctum, Pogostemon cabin, Menthe arvensis, Thymus serpylum, Thymus vulgaris, Mesona palustris, Clerodendrum paniculatum, Lavandula officinalis, Gomphostemma javanicum, Mentha arvensis, Mentha pulegium, Pogostemon Heyneanus, Pogostemon hortensis. Spesies famili Apiaceae adalah Centella asiatica, Apium graveolens, Foeniculum vulgare, Eryngium foetidum, Hydrocotyle sibthorpioides, Daucus carota, Coriandrum sativum, Pimpinella alpine, Trachyspermum ammi, Petrosolinum crispum, Carum roxburghianum, Pimpinella anisum, Carum copticum, Eryngium bromeliaefolium, eryngium foetidum, cuminum cyminum, Pimpinella saxifrage, Aegopodium podagraria, Angelica sylvestris, Anthriscus sylvestris, Chaerophyllum temulentum, Heracleum sphondylium, Meum athamanticum, Torilis japonica. Spesies famili Euphorbiaceae adalah Acalypha australis, Jatropha podagrica, Jatropha gossypifolia, Euphorbia pulcherrima, Codiacum variegatum, Excoecaria cochinchinensis, Euphorbia plumerioides, Acalypha wilkesiana, Antidesma bunius, Croton tiglium, Bridelia ovate, Glochidion rubrum, Acalypha hispida, Richinus communis, Baccaurea racemosa, Acalypha indiaca, Euphorbia tiraculli, Acalypha microphylla, Phyllanthus acidus, Jatropha curcas, Aleurites moluccana, Euphorbia milli, Pedilanthus tithymaloides, Euphorbia antiquorum, Sauropus androgynous, Phyllanthus emblica, Manihot utilissima, Phyllanthus reticulatus, Phyllanthus niruri, Euphorbia prostate, Euphorbia hirta.

Proses Booleanize

Prosesbooleanize merupakan proses pengkodean atribut. Atribut ini didapat dari proses pemilihan penciri berdasarkan ciri morfologi dalam dokumen tumbuhan obat. Berdasarkan 8 aspek fisik seperti habitus, daun, batang, bunga, buah, akar, aromatik dan habitat, maka terpilih 63 atribut penciri yang akan dikodekan menjadi X0, X1 sampai dengan X62. Informasi setiap spesies akan diubah ke nilai biner berupa angka 0 dan 1 berdasarkan atribut penciri yang digunakan. Angka 0 menunjukkan tidak adanya ciri tersebut pada suatu spesies, sebaliknya 1 menunjukkan suatu spesies memiliki ciri tersebut di dalam dokumen.

Pembagian Data

Dokumen hasil booleanize dibagi berdasarkan famili menjadi data latih dan data uji dengan proporsi masing-masing adalah 80% dan 20%. Pembagian data tersebut menggunakan metode k-fold cross validation dengan . Data dipisah menjadi lima bagian. Empat subset data latih digunakan sebagai input pelatihan dalam pengidentifikasian dan satu subset data uji digunakan untuk menguji model hasil pelatihan. Skenario pembagian data seperti ditunjukkan pada Tabel 3 dan 4.

Tabel 3 Skenario pembagian data Fold Data Subset

Fold 1 ^{Data latih}

Data uji

S1, S 2, S 3, S 4

Fold 2 ^{Data latih}

Data uji

S 1, S2, S3, S5

Fold 3 ^{Data latih}

Data uji

S1, S2, S4, S5

Fold 4 ^{Data latih}

Data uji

S1, S3, S4, S5

Fold 5 ^{Data latih}

Data uji

S2, S3, S4, S5

Tabel 4 Pembagian data tiap famili

Famili S1 S2 S3 S4 S5 Total

Lamiaceae 5 5 5 5 6 26

Apiaceae 5 5 5 5 4 24

Euphorbiaceae 6 6 6 6 7 31

Total 16 16 16 16 17 81

Proses Genetic Programming

Bentuk primitif Genetic Programming adalah himpunan fungsi (function set) yaitu AND, OR, NOR dan himpunan argumen (terminal set) yaitu atribut hasil booleanize. Proses yang dilakukan adalah sebagai berikut:

a. Generate rule

Tahapan generate rule atau inisialisasi generasi yaitu menciptakan sejumlah individu. Individu terdiri atas function set dan terminal set yang dibangkitkan secara acak, dengan ketentuan kedalaman dan jumlah node yang dibatasi. Satu individu menggambarkan satu bentuk model atau aturan yang akan dicari. Contoh model atau aturan seperti ditunjukkan Gambar 17.

XOR XOR X4 OR _X45 AND X6 OR OR _X61 X27 X44 X9

Gambar 17 Contoh model atau aturan identifikasi b. Evaluasi fitness

Proses evaluasi fitness adalah menghitung jumlah kesalahan individu dalam memprediksi, yaitu memprediksi dua kelas (kelas benar dan kelas salah). Kelas dicari bernilai 1 (benar) dan 0 (salah) untuk kelas yang lainnya. Semakin kecil

nilai fitness maka semakin sedikit jumlah kesalahan dalam suatu individu atau semakin baik individu yang terbentuk. Dalam penelitian ini nilai fitness diperoleh dari pengujian data booleanize ke dalam aturan atau individu yang terbentuk.

c. Operasi genetika

Proses operasi genetika diawali dengan seleksi terhadap aturan menggunakan metode tournament. Pemenang tournament adalah individu yang memiliki nilai fitness terkecil, selanjutnya dilakukan operasi elitisme, crossover dan mutasi. Operasi elitisme yaitu menyalin individu pemenang tournament ke dalam populasi baru atau generasi baru. Operasi crossover adalah pertukaran sebagian struktur pohon (gen) dari dua buah individu (parent) dengan titik potong yang dipilih secara acak. Ilustrasi operasi crossover seperti ditunjukkan pada Gambar 18. Operasi mutasi memilih secara acak satu bagian dari struktur pohon (kromosom) dalam satu individu dan mengganti bagian tersebut dengan function set atau terminal set sesuai pada bagian yang terpilih. Proses mutasi seperti ditunjukkan pada Gambar 19.

AND AND X10 X3 X4 _X8 OR OR AND X3 X4 X19 X6 AND AND AND X10 X3 X4 _X8 OR OR AND X3 X4 X19 _X6 AND AND AND AND X1 X2 x15 X4 AND AND AND X1 X2 x8 _X4 x8 d. Stop condition

Stop condition dalam proses GP adalah generasi maksimum. Proses terus berulang ke tahap evaluasi fitness, operasi genetika hingga generasi maksimum terpenuhi.

Model atau aturan klasifikasi yang dihasilkan dari proses GP adalah individu dengan jumlah kesalahan terkecil atau individu dengan nilai fitness terkecil dari generasi terakhir (Stop condition terpenuhi). Satu model atau aturan hanya digunakan untuk satu kelas.

Gambar 18 Contoh operasi crossover

Evaluasi

Evaluasi dilakukan untuk menentukan tingakat kaurasi atau kinerja dari setiap model klasifikasi yang dihasilkan. Tingkat akurasi didapat dari jumlah benar hasil prediksi dibandingkan dengan jumlah data uji untuk masing-masing fold. Satu fold terdiri atas tiga kelas. Proses evaluasi ini menggunakan confusion matrix.

Spesifikasi Perangkat Keras dan Perangkat Lunak

Alat yang digunakan dalam penelitian ini terdiri dari perangkat keras dan perangkat lunak dengan spesifikasi sebagai berikut:

a. Software yang digunakan:

Sistem Operas: Sistem Operasi Windows 7 Ultimate 32-bit. Tools dan pemrograman : Notepad++, C# dan Library Small GP. b. Hardware yang digunakan:

Dalam dokumen Genetic programming for medicinal plant family identification system (Halaman 31-36)