IDENTIFIKASI SINGLE NUCLEOTIDE POLYMORPHISM PADA GENOM KEDELAI MENGGUNAKAN METODE GENETIC PROGRAMMING MUHAMMAD ABRAR ISTIADI

(1)

MUHAMMAD ABRAR ISTIADI

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

BOGOR 2015

IDENTIFIKASI SINGLE NUCLEOTIDE POLYMORPHISM

PADA GENOM KEDELAI MENGGUNAKAN

(2)

(3)

PERNYATAAN MENGENAI TESIS DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa tesis berjudul Identifikasi Single

Nucleotide Polymorphism pada Genom Kedelai Menggunakan Metode Genetic Programming adalah benar karya saya dengan arahan dari komisi pembimbing

dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, Januari 2015

Muhammad Abrar Istiadi

(4)

RINGKASAN

MUHAMMAD ABRAR ISTIADI. Identifikasi Single Nucleotide Polymorphism pada Genom Kedelai Menggunakan Metode Genetic Programming. Dibimbing oleh WISNU ANANTA KUSUMA dan I MADE TASMA.

Salah satu usaha peningkatan produksi kedelai (Glycine max) adalah melalui pemuliaan tanaman untuk memaksimalkan potensi genetik yang ada pada tanaman kedelai. Pemuliaan tanaman mutakhir berbasis marka molekuler atau marka DNA mampu membuat proses pemuliaan menjadi lebih efisien dibandingkan pemuliaan tanaman konvensional yang berbasis fenotipe. Salah satu marka molekuler mutakhir yang mulai banyak diteliti adalah Single Nucleotide Polymorphism (SNP) yang berupa perubahan atau variasi satu basa nukleotida pada sekuens DNA. Penelitian ini bertujuan mengidentifikasi SNP yang ada pada genom tanaman kedelai dengan menerapkan teknik Genetic Programming (GP) yang merupakan metode evolutionary untuk membangun classifier berbasis rule.

Data yang digunakan pada penelitian ini merupakan sekuens DNA genom kedelai dari beberapa aksesi kedelai budidaya. Data tersebut dijajarkan (alignment) dengan sekuens DNA rujukan, kemudian dilakukan perhitungan sejumlah fitur statistik, antara lain kualitas basa dan kedalaman penjajaran. Hasil ekstraksi fitur tersebut diolah dengan GP sehingga dihasilkan rule klasifikasi yang optimal untuk membedakan true SNP (variasi basa yang benar ada dalam genom) dan false SNP (variasi basa yang timbul akibat kesalahan data sekuens).

Hasil percobaan menunjukkan bahwa classifier berbasis rule yang dihasilkan oleh GP mampu mengklasifikasikan true dan false SNP dengan

sensitivity rata-rata di atas 90% dan specificity rata-rata di atas 80%. Hal ini

menandakan bahwa true SNP dapat teridentifikasi dengan baik. Namun demikian, nilai precision hanya sekitar 30% yang berarti banyak terdapat false positive. Hal ini berimplikasi bahwa banyak false SNP yang teridentifikasi sebagai true. Banyaknya false positive ini disebabkan oleh distribusi kelas yang tidak seimbang, yaitu perbandingan kelas true:false sekitar 1:9.

Dari sisi rule yang dihasilkan, GP dapat membentuk rule yang sederhana dan dapat diinterpretasi dengan mudah. Salah satu pengetahuan hasil interpretasi yang dapat diambil dari rule yang dihasilkan adalah bahwa faktor atau fitur yang paling berperan dalam membedakan true dan false SNP adalah kualitas basa dari sekuens DNA. Jika kualitas basa tinggi, maka cenderung merupakan true SNP karena berarti kemungkinan kesalahan pada data sekuensnya kecil.

Kinerja dari classifier berbasis rule yang dihasilkan oleh GP juga dibandingkan dengan algoritme klasifikasi C4.5 dan SVM dengan dataset yang sama. Hasil perbandingan menunjukkan bahwa classifier GP secara umum memiliki kinerja yang setara dengan C4.5 dan SVM, namun dengan keunggulan bahwa classifier GP berupa rule yang sederhana dan dapat diinterpretasi dibandingkan dengan decision tree hasil C4.5 yang cenderung kompleks dan model SVM yang bersifat black box.

(5)

SUMMARY

MUHAMMAD ABRAR ISTIADI. Single Nucleotide Polymorphism Discovery from Soybean Genome using Genetic Programming. Supervised by WISNU ANANTA KUSUMA and I MADE TASMA.

Plant breeding is a way to improve soybean (Glycine max) crop production by maximizing the genetic potentials of the soybean plant. Modern plant breeding method is based on molecular genetic markers found in the DNA. This genetic marker-based breeding is proven to be more efficient than traditional phenotype-based breeding. The current popular genetic marker is Single Nucleotide Polymorphism (SNP), which is defined as single base substitution or variation found in the DNA sequence. The purpose of this study was to identify SNPs from soybean genome using Genetic Programming (GP) method. GP is an evolutionary computation technique to build and optimize a rule-based classifier.

The data used in this study were DNA sequences of soybean genome from some cultivated soybean accessions. The data were aligned with a reference sequence, and then some statistical features were computed, for example base quality score and alignment depth, among others. The feature extraction results were then processed by GP which generated an optimal rule-based classifier. This classifier was used to distinguish true SNPs (the true variations in the genome) and false SNPs (the variations caused by errors in the sequence).

Experiment showed that the rule-based classifier built by GP was able to classify true and false SNP with average sensitivity over 90% and average specificity over 80%. These values mean that most of the true SNPs could be identified. However, the precision value was just about 30% which implied that there were many false positives. The high rate of false positives means that there were many false SNPs identified as true. This condition occurred because of the imbalance in the class distribution of the data (the ratio of true:false is about 1:9).

Looking at the classification rules generated by GP, it could be seen that GP was able to generate simple and comprehensible rules. One of the knowledge that could be extracted from the generated rules was that the most important factor to determine true or false SNPs were the base quality of the DNA sequence. A high base quality tended to be a true SNP, which mean that the probability of error was low.

The performance of rule-based classifier generated by GP was also compared with C4.5 and SVM classification algorithm with the same dataset. The comparison result showed that the GP-generated classifier was able to achieve similar performance with C4.5 and SVM. Moreover, GP-generated classifier had advantages of being a set of simple and understandable rules, compared to the complex C4.5 decision tree and the black-box model of SVM.

(6)

© Hak Cipta Milik IPB, Tahun 2015

Hak Cipta Dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB

Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apa pun tanpa izin IPB

(7)

MUHAMMAD ABRAR ISTIADI

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

BOGOR 2015

IDENTIFIKASI SINGLE NUCLEOTIDE POLYMORPHISM

PADA GENOM KEDELAI MENGGUNAKAN

METODE GENETIC PROGRAMMING

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Ilmu Komputer

pada

(8)

(9)

Judul Tesis : Identifikasi Single Nucleotide Polymorphism pada Genom Kedelai Menggunakan Metode Genetic Programming Nama : Muhammad Abrar Istiadi

NIM : G651120401

Disetujui oleh Komisi Pembimbing

Dr Eng Wisnu Ananta Kusuma, ST, MT Ketua

Dr Ir I Made Tasma, MSc Anggota

Diketahui oleh

Ketua Program Studi Ilmu Komputer

Dekan Sekolah Pascasarjana

Dr Eng Wisnu Ananta Kusuma, ST, MT

Tanggal Ujian:

Dr Ir Dahrul Syah, MScAgr

(10)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga tesis berjudul Identifikasi Single Nucleotide

Polymorphism pada Genom Kedelai Menggunakan Metode Genetic Programming

ini dapat diselesaikan.

Terima kasih penulis ucapkan kepada Dr Eng Wisnu Ananta Kusuma, ST, MT serta Dr Ir I Made Tasma, MSc yang telah memberi saran dan masukan selaku Komisi Pembimbing. Terima kasih pula kepada Bapak Habib Rijzaani, MSi dan Bapak Dani Satyawan, MSi dari Balai Besar Litbang Bioteknologi dan Sumberdaya Genetik Pertanian (BB-Biogen) Kementan yang telah memberi arahan terkait topik yang diangkat dalam penelitian ini. Ucapan terima kasih juga penulis sampaikan kepada Direktorat Jenderal Pendidikan Tinggi yang telah membiayai penulis melalui program Beasiswa Unggulan, serta Kementan RI yang telah membiayai penelitian dalam rangka Kerjasama Kemitraan Penelitian dan Pengembangan Pertanian Nasional (KKP3N) 2014. Ungkapan terima kasih juga disampaikan kepada ayah, ibu, serta istri dan putri tercinta, atas segala doa dan kasih sayangnya selama penulis menyusun karya ilmiah ini.

Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2015

(11)

DAFTAR ISI

DAFTAR TABEL vi DAFTAR GAMBAR vi GLOSARIUM vii PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 3 Tujuan Penelitian 3 Manfaat Penelitian 4

Ruang Lingkup Penelitian 4

TINJAUAN PUSTAKA 4

Genomika Kedelai 4

Sequencing DNA 4

Marka Molekuler 6

Single Nucleotide Polymorphism 6

SNP Calling 7

Genetic Programming 8

METODE PENELITIAN 10

Alur Metode Penelitian 10

Data Sekuens Rujukan 11

Data Sekuens Reads 11

Data SNP Pelatihan 11

Penjajaran Sekuens 12

Ekstraksi Fitur 12

Optimasi Genetic Programming 14

Lingkungan Implementasi 17

HASIL DAN PEMBAHASAN 18

Ketidakseimbangan Distribusi Kelas 18

Pembangkitan Rule dengan GP 18

Klasifikasi dengan Rule Hasil Optimasi GP 23

Modifikasi Fungsi Fitness 28

Visualisasi dan Interpretasi Rule Set 33

Perbandingan dengan Penelitian Sebelumnya 36

KESIMPULAN DAN SARAN 38

Kesimpulan 38

Saran 38

DAFTAR PUSTAKA 39

(12)

DAFTAR TABEL

1 Fitur-fitur SNP yang digunakan 13

2 Perbandingan algoritme optimasi GP 15

3 Parameter percobaan dengan GP 16

4 Kombinasi percobaan dengan GP 17

5 Rule set hasil optimasi masing-masing algoritme 21 6 Hasil klasifikasi dengan algoritme Bojarczuk 25 7 Hasil klasifikasi dengan algoritme De Falco 26

8 Hasil klasifikasi dengan algoritme Tan 27

9 Kombinasi percobaan dengan fungsi fitness modifikasi 28 10 Rule set algoritme De Falco dengan fungsi fitness modifikasi 30 11 Hasil klasifikasi dengan fungsi fitness Fss 31

12 Hasil klasifikasi dengan fungsi fitness Fpr 32

DAFTAR GAMBAR

1 Workflow umum metode NGS (Shendure dan Ji 2008) 5

2 Transition dan transversion 6

3 Ilustrasi SNP dari beberapa sekuens 7

4 Alur umum SNP calling 8

5 Contoh individu GP dalam bentuk rule (Espejo et al. 2010) 9

6 Ilustrasi operator crossover 9

7 Ilustrasi operator mutation 9

8 Metode penelitian 10

9 Alur optimasi dengan GP 16

10 Distribusi kelas pada setiap kromosom 18

11 Grafik fitness algoritme Bojarczuk 19

12 Grafik fitness algoritme De Falco 20

13 Grafik fitness algoritme Tan 20

14 Perbandingan waktu eksekusi algoritme 23

15 Confusion matrix untuk klasifikasi dua kelas 23 16 Plot sensitivity dan specificity dari seluruh percobaan 28 17 Grafik nilai fitness algoritme De Falco dengan fungsi fitness

sensitivity dan specificity 29

18 Grafik nilai fitness algoritme De Falco dengan fungsi fitness

sensitivity dan precision 30

19 Plot perbandingan hasil evaluasi algoritme De Falco dengan fungsi

fitness modifikasi 32

20 Visualisasi rule set dalam bentuk tree 34

21 Bagian pada hasil penjajaran dengan kedalaman tinggi 35

22 Perbandingan kinerja dengan metode C4.5 36

(13)

GLOSARIUM

Aksesi Satuan dari koleksi plasma nutfah atau variasi dalam satu spesies yang

dapat disepadankan dengan genotipe, varietas, atau strain.

Alel Bentuk-bentuk alternatif dari gen pada suatu lokasi tertentu di dalam

kromosom. Contohnya, individu pertama memiliki alel T pada lokasi tertentu, sedangkan individu kedua memiliki alel G pada lokasi yang sama.

Alignment Proses penjajaran dari sekuens-sekuens DNA untuk dicari

kemiripannya.

Basa Nukleotida Komponen penyusun bahan genetik yang pada DNA terdiri atas

empat jenis: A (adenin), G (guanin), T (timin), dan C (sitosin).

Base Pairs Satuan panjang sekuens yang dihitung berdasarkan jumlah basa

nukleotida yang menyusun sekuens tersebut.

DNA Bahan genetik makhluk hidup yang terdiri atas deretan basa nukleotida yang

menentukan sifat-sifat makhluk hidup tersebut.

Exome Bagian dari genom yang hanya terdiri atas exon, yaitu bagian genom yang

menyandikan protein.

Fenotipe Hasil dari ekspresi gen berupa sifat-sifat yang tampak dari makhluk

hidup, seperti warna kulit pada manusia atau ukuran buah pada tanaman.

Gen Unit pewarisan sifat makhluk hidup berupa segmen DNA yang fungsional

untuk mengkodekan protein tertentu.

Genom Seluruh bahan genetik (DNA) dari makhluk hidup yang juga mencakup

seluruh gen.

Genotipe Keadaan genetik dari individu berupa sifat yang ditentukan oleh gen.

Contohnya, individu dengan genotipe “AA” memiliki sifat warna bunga ungu, sedangkan genotipe “aa” memiliki sifat warna bunga putih.

Indel Insertion dan deletion, variasi genetik yang berupa penambahan atau

pengurangan basa pada sekuens DNA.

Kedalaman Penjajaran Jumlah sekuens yang dijajarkan dengan sekuens rujukan

pada posisi tertentu.

Kromosom Struktur di dalam inti sel makhluk hidup yang terdiri atas molekul

(14)

Reads Sekuens hasil pembacaan DNA makhluk hidup tertentu oleh mesin

pembaca DNA (sequencer) yang pada umumnya berukuran pendek.

Resequencing Proses mensekuens kembali bahan genetik makhluk hidup tertentu

yang sebelumnya sudah pernah disekuens, dengan tujuan mencari variasi genetik.

Scaffold Bagian dari genom yang telah direkonstruksi dari reads yang berukuran

pendek sehingga menjadi sekuens yang lebih panjang.

Sequencing Proses pembacaan bahan genetik makhluk hidup dengan

menggunakan mesin pembaca DNA.

SNP Single Nucleotide Polymorphism, perbedaan satu basa pada sekuens DNA

antar-individu.

STS Sequence Tagged Sites, sekuens DNA pendek yang telah diketahui susunan

(15)

1

PENDAHULUAN

Latar Belakang

Kedelai (Glycine max (L.) Merr) merupakan salah satu komoditas pertanian penting di pasar internasional. Tanaman yang pertama kali dilaporkan berasal dari Cina ini telah dibudidayakan selama lebih dari 5000 tahun (Mishra dan Verma 2010). Kedelai kaya akan protein dan minyak (sekitar 70% protein dan 30% minyak) yang membuatnya termasuk tanaman yang memiliki banyak manfaat. Selain itu, kemampuan simbiosis kedelai dalam hal fiksasi nitrogen menjadikan kedelai elemen penting dalam pertanian yang berkelanjutan (Chan et al. 2012).

Indonesia termasuk salah satu produsen kedelai di pasar internasional (Mishra dan Verma 2010). Di Indonesia, produksi kedelai pernah mencapai puncaknya pada tahun 1992 sebanyak 1.87 juta ton. Namun, produksi terus mengalami penurunan hingga pada tahun 2013 hanya sebanyak 0.78 juta ton (BPS 2014). Sebaliknya, konsumsi kedelai cenderung meningkat dari tahun ke tahun. Kebutuhan konsumsi ini tidak dapat dipenuhi oleh produksi lokal yang menurun sehingga impor kedelai harus terus dilakukan dan mengalami peningkatan. Impor ini dapat berdampak pada hilangnya devisa negara (Atman 2009).

Untuk memperbaiki keadaan tersebut, produksi kedelai di tingkat petani perlu ditingkatkan. Selain dengan memperbaiki harga jual dan memanfaatkan potensi lahan, produksi dapat ditingkatkan dengan strategi peningkatan proses produksi. Salah satu hal yang dapat ditingkatkan dalam proses produksi ialah penyediaan benih bermutu dari varietas unggul dalam jumlah yang cukup dan mudah dijangkau oleh petani. Kultivar unggul baru dapat diperoleh melalui pemuliaan tanaman yang mengeksploitasi potensi genetik tanaman untuk memaksimumkan ekspresi genetik tanaman pada suatu kondisi lingkungan tertentu (Azrai 2005). Untuk tanaman kedelai, peningkatan produktivitas, kualitas, dan ketahanan terhadap stres merupakan tujuan utama dalam pemuliaan (Chan et al. 2012).

Teknologi pemuliaan tanaman telah terbukti berhasil meningkatkan produksi tanaman. Pemuliaan tanaman dengan metode konvensional bergantung pada seleksi fenotipe tanaman serta dipengaruhi oleh keadaan lingkungan dan interaksi dengan lingkungan. Adanya pengaruh lingkungan tersebut terkadang membuat fenotipe yang sesungguhnya sulit diamati jika keadaan lingkungannya tidak sesuai. Kendala lain yaitu sebagian fenotipe yang perlu waktu yang lama untuk bisa diamati, misalnya harus menunggu sampai tanaman berbunga. Hal tersebut membuat proses pemuliaan tanaman secara konvensional membutuhkan waktu yang lama dan biaya yang besar (Moose dan Mumm 2008).

Kendala-kendala dari pemuliaan tanaman dengan metode konvensional tersebut mulai teratasi dengan ditemukannya marka molekuler atau marka DNA. Seleksi dengan memanfaatkan marka DNA (marker assisted selection) hanya didasarkan pada sifat genetik tanaman dan tidak dipengaruhi faktor lingkungan sehingga kegiatan pemuliaan menjadi lebih tepat, cepat, hemat biaya, serta hemat waktu (Azrai 2005). Genotipe yang dihasilkan melalui marka molekuler dapat dikombinasikan dengan informasi fenotipe untuk meningkatkan perolehan seleksi. Pemanfaatan marka molekuler dapat meningkatkan efisiensi pemuliaan sebanyak

(16)

2

dua kali lipat dibandingkan seleksi berdasarkan fenotipe saja (Moose dan Mumm 2008). Contoh pemanfaatan marker assisted selection pada pemuliaan kedelai ialah identifikasi SNP yang berhubungan dengan gen sifat ketahanan dari hama tertentu (Mammadov et al. 2012) dan ketahanan terhadap kondisi kekeringan (Vidal et al. 2012).

Pengembangan marka DNA secara komprehensif untuk pemuliaan kedelai memerlukan adanya data sekuens DNA untuk dianalisis. Kebutuhan ini didukung dengan berkembangnya teknologi next-generation sequencing (NGS) untuk membaca data sekuens DNA dari tanaman kedelai yang diteliti. Teknologi NGS membuat proses sequencing DNA genom menjadi lebih efisien, lebih murah, dan menghasilkan data genomik dengan kuantitas yang sangat besar dalam waktu yang singkat untuk dianalisis dibandingkan dengan teknologi sequencing DNA konvensional (Metzker 2010).

Pemuliaan kedelai berbasis genetika juga memerlukan informasi terkait genetika dan genomika kedelai. Terkait hal tersebut, penelitian genetika dan genomika kedelai telah banyak dilakukan. Salah satu terobosan penting ialah sekuens genom rujukan yang telah berhasil disusun dari kedelai budidaya varietas Williams 82 pada tahun 2010 (Schmutz et al. 2010). Genom kedelai yang telah disusun ini dijadikan sebagai sekuens genom rujukan (reference genome) untuk penelitian-penelitian selanjutnya (Chan et al. 2012). Selain itu, telah dilakukan

resequencing genom 31 aksesi kedelai liar dan budidaya untuk mengidentifikasi

pola keragaman genetik (Lam et al. 2010). Resequencing genom tersebut telah berhasil mengidentifikasi variasi genetik dalam jumlah besar antara kedelai liar dan kedelai budidaya. Li et al. (2013) juga melakukan resequencing terhadap 25 aksesi kedelai yang terdiri atas kedelai liar, ras lokal Cina, dan kedelai budidaya modern. Penelitian tersebut juga mengidentifikasi variasi genetik dan hubungan kekerabatan antar-aksesi kedelai yang diteliti. Untuk kedelai Indonesia, Balai Besar Litbang Bioteknologi dan Sumber Daya Genetik Pertanian (BB Biogen) Kementerian Pertanian telah melakukan resequencing aksesi-aksesi kedelai lokal untuk melakukan karakterisasi variasi genom dengan tujuan penemuan gen (gene

discovery) dan marka DNA berbasis sekuens genom (Satyawan et al. 2014).

Terdapat beberapa jenis marka DNA yang dapat mendukung proses pemuliaan tanaman (Azrai 2005). Salah satu marka yang mutakhir dan mulai banyak diteliti ialah Single Nucleotide Polymorphism (SNP). SNP merupakan perbedaan satu basa nukleotida antar-sekuens DNA dari individu-individu yang dibandingkan. SNP dapat mencakup lebih dari 90% dari variasi genetik, sehingga mampu menjadi penanda pada perbedaan antar-varietas dari suatu spesies. Selain itu, SNP juga jauh lebih melimpah jumlahnya dibandingkan dengan marka DNA lain (Matukumalli et al. 2006). Studi analisis SNP pada kedelai telah mengidentifikasi banyak SNP yang memiliki efek signifikan terhadap sifat tanaman (Zhu et al. 2003; Chan et al. 2012).

Identifikasi SNP dilakukan secara komputasional dengan program komputer (Oeveren dan Janssen 2009). Terdapat beberapa program yang telah tersedia dengan spesifikasi yang berbeda-beda, antara lain Samtools, GATK, dan SOAPsnp, yang dirancang untuk data berukuran besar yang dihasilkan dari

sequencing DNA genom total dengan teknologi NGS (Nielsen et al. 2011;

O‟Fallon et al. 2013). Program-program tersebut berbasis model probabilistik dan memiliki peluang untuk ditingkatkan akurasinya dengan menggunakan fitur atau

(17)

3 ciri dari sekuens yang belum tercakup oleh model probabilistik. Teknik klasifikasi dengan machine learning telah diterapkan untuk tujuan peningkatan akurasi tersebut.

Matukumalli et al. (2006) menggunakan metode decision tree untuk mengelompokkan SNP menjadi true SNP dan false SNP berdasarkan sejumlah fitur dari data sekuens DNA. Penelitian tersebut menggunakan data STS (Sequence-Tagged Sites) kedelai dari 6 kultivar, namun belum menggunakan teknologi NGS untuk sequencing DNA-nya. Hasil klasifikasi menunjukkan akurasi sebesar 84.8%, yaitu peningkatan hampir 5 kali lipat jika dibandingkan dengan identifikasi SNP dengan program PolyBayes (tanpa menggunakan

machine learning).

O‟Fallon et al. (2013) menggunakan metode support vector machine (SVM) untuk tujuan yang sama, yakni membedakan SNP yang sesungguhnya dengan SNP yang teridentifikasi karena adanya error pada sekuens DNA. Penelitian tersebut menggunakan sejumlah fitur dari sekuens DNA yang berupa ukuran statistik, misalnya rata-rata kualitas basa, ragam posisi basa, dan peluang binomial. Data sekuens yang digunakan adalah data exome dari genom manusia yang disekuens dengan teknologi NGS, dan didapatkan nilai sensitivity sebesar 96.9%.

Kong (2007) menggunakan metode yang sama (SVM) pada data genom manusia yang berasal dari Japan SNP Database (JSNP). Data pada JSNP adalah data whole genome manusia dari populasi negara Jepang. Fitur yang digunakan pada penelitian tersebut adalah fitur sekuens DNA dari aspek termofisika, misalnya entalpi, entropi, energi bebas, dan suhu leleh. Penelitian tersebut memberikan akurasi sebesar 75.9%.

Selain metode-metode tersebut, dapat diterapkan juga metode machine

learning yang berbasis evolutionary computation, yaitu genetic programming

(GP). GP merupakan salah satu varian dari algoritme genetika (GA) yang dapat digunakan untuk masalah klasifikasi. GP merupakan metode yang fleksibel dan efektif untuk mengoptimalisasi suatu classifier yang dapat dimodelkan dalam bentuk rule atau decision tree. Salah satu kelebihan GP adalah rule yang jelas dan dapat diinterpretasi dengan mudah oleh pakar dibandingkan dengan metode black

box seperti SVM (Espejo et al. 2010). Penelitian ini menggunakan GP untuk

membangun suatu classifier dalam mengidentifikasi SNP dari genom kedelai.

Perumusan Masalah

Masalah yang diteliti dalam penelitian ini yaitu cara merepresentasikan fitur dari data SNP agar dapat diukur oleh classifier. Setelah fitur didapatkan, perlu dirancang rule yang dioptimasi oleh GP beserta representasi rule-nya. Dengan demikian, akan didapatkan suatu model classifier yang optimal dan dapat memberikan hasil identifikasi SNP dengan akurasi tinggi.

Tujuan Penelitian

Tujuan penelitian ini yaitu:

1 Mengoptimalisasi rule untuk identifikasi SNP dengan metode GP.

2 Menerapkan rule hasil dari GP dalam identifikasi SNP pada tanaman kedelai. 3 Mengukur kinerja GP dalam melakukan identifikasi SNP.

(18)

4

Manfaat Penelitian

Hasil identifikasi SNP dan implementasi dalam bentuk program dari penelitian ini diharapkan dapat memberikan informasi bagi peneliti dalam pemuliaan tanaman kedelai dengan bantuan marka SNP. Selain itu, rule hasil optimalisasi GP dapat menjadi rujukan bagi pakar dalam identifikasi SNP.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini mencakup data sekuens aksesi kedelai budidaya yang diambil dari penelitian Lam et al. (2010). Identifikasi SNP dilakukan dalam lingkup seluruh genom (whole genome) dan tidak mencakup identifikasi indel (insertion dan deletion). Selain itu, proses identifikasi menggunakan GP dibatasi sampai SNP putatif tanpa dilakukan validasi secara biologi.

TINJAUAN PUSTAKA

Genomika Kedelai

Genom kedelai, yaitu keseluruhan bahan genetik dari kedelai terdiri atas 20 kromosom (Chan et al. 2012). Ukuran genom kedelai ini diperkirakan sebesar 1115 Mb (Mega base pair, juta pasang basa). Dari ukuran total genom tersebut, sekitar 950 Mb telah berhasil disekuens dari kedelai varietas Williams 82 dan dirakit menjadi sekuens rujukan (reference sequence) (Schmutz et al. 2010).

Kedelai adalah organisme palaeopolyploid, artinya nenek moyang dari kedelai dipercaya merupakan organisme polyploid atau memiliki kromosom yang terduplikasi sebanyak dua, tiga, atau empat. Namun demikian, kedelai tergolong organisme diploid, yakni setiap kromosom memiliki satu pasangan (Chan et al. 2012). Selain itu, pada genom kedelai terdapat banyak perulangan dan duplikasi. Sekitar 59% dari genom adalah elemen repetitif (berulang), dan sekitar 75% dari gen terduplikasi di lebih dari satu lokasi (Schmutz et al. 2010).

Sequencing DNA

Sequencing (pengurutan) DNA adalah proses pembacaan atau penentuan

urutan basa nukleotida (A, adenin; T, timin; G, guanin; atau C, sitosin) dari DNA. Selain menentukan urutan atau sekuens basa dari suatu DNA, proses sequencing juga memberikan nilai kualitas pada setiap basa yang dibaca tersebut. Nilai kualitas menunjukkan tingkat kepercayaan bahwa basa dari DNA dibaca dengan benar oleh alat yang digunakan untuk sequencing (Altmann et al. 2012).

Metode sequencing pertama kali diperkenalkan oleh Sanger yang populer dan terus berkembang sejak dua dekade terakhir. Metode Sanger menggunakan teknologi berbasis kapiler, elektroforesis, dan deteksi fluorescence yang berjalan secara otomatis. Metode ini disebut juga metode konvensional atau metode

(19)

5 Teknologi sequencing baru yang berkembang saat ini disebut

next-generation sequencing (NGS), high-throughput sequencing (HTS), atau metode sequencing generasi kedua. NGS merupakan suatu kelompok metode sequencing

baru yang berbeda dengan metode Sanger. Teknik yang diterapkan di dalam NGS beragam tergantung pada teknologi yang digunakan oleh perusahaan pembuat

platform. Beberapa platform NGS yang tersedia di pasaran antara lain Roche/454,

Illumina/Solexa, dan Helicos/HeliScope (Shendure dan Ji 2008).

Meskipun platform-platform NGS tersebut beragam dalam hal teknik biokimia yang diterapkan, terdapat kemiripan dalam hal konsep dan workflow seperti yang diilustrasikan pada Gambar 1 (Shendure dan Ji 2008). Workflow tersebut meliputi pemotongan DNA secara acak, pelekatan adapter untuk menyusun pustaka, amplifikasi misalnya dengan PCR (polymerase chain

reaction) serta pembentukan cluster, dan pembacaan basa misalnya dengan

deteksi fluorescence untuk mendapatkan data sekuens.

Gambar 1 Workflow umum metode NGS (Shendure dan Ji 2008)

Pemotongan DNA

Pelekatan adapter

Amplifikasi dan pembentukan cluster

(20)

6

Metode sequencing generasi pertama dan NGS memiliki kelebihan dan kekurangan masing-masing. Metode Sanger mampu menghasilkan reads (hasil pembacaan basa) berukuran panjang dan akurat, namun memerlukan waktu lama, biaya mahal, serta kuantitas data yang rendah. Sebaliknya, metode NGS mampu menghasilkan kuantitas data yang jauh lebih besar dengan waktu yang lebih singkat dan biaya lebih murah, namun hanya mampu menghasilkan reads berukuran pendek dan tidak seakurat metode Sanger (Shendure dan Ji 2008). Oleh karena itu, pada penelitian yang menggunakan NGS untuk sequencing, metode Sanger umumnya masih digunakan untuk memvalidasi hasil analisis dari data tersebut karena akurasinya yang lebih baik (Lam et al. 2010; O‟Fallon et al. 2013).

Marka Molekuler

Marka molekuler (molecular marker) didefinisikan sebagai bagian tertentu dari DNA yang mampu merepresentasikan perbedaan genetik dalam tingkat genom yang dapat berkorelasi dengan fenotipe (Agarwal et al. 2008). Beberapa marka molekuler yang dikenal yaitu RFLP (restriction fragment length

polymorphism), AFLP (amplified fragment length polymorphism), RAPD

(random amplified polymorphic DNA), SSR (simple sequence repeat), STS (sequence tagged site), dan SNP (single nucleotide polymorphism).

Single Nucleotide Polymorphism

Single Nucleotide Polymorphism (SNP) merupakan marka molekuler yang

merepresentasikan perbedaan atau perubahan pada satu basa nukleotida DNA antara dua individu pada lokasi tertentu di dalam genom. Satu basa nukleotida (A, T, G, atau C) dapat berubah menjadi basa lain. Perubahan basa dapat berupa

transition atau transversion yang diilustrasikan pada Gambar 2. Transition adalah

perubahan C menjadi T atau G menjadi A dan sebaliknya. Sementara itu,

transversion adalah perubahan C menjadi G, A menjadi T, C menjadi A, atau T

menjadi G dan sebaliknya. Selain perubahan basa, terdapat juga variasi yang disebut indel (insertion dan deletion) yang berupa penambahan atau pengurangan basa. SNP pada umumnya bersifat bialel, yakni hanya terdapat dua jenis alel (satu basa berubah menjadi satu basa yang lain), namun tidak menutup kemungkinan adanya SNP yang memiliki lebih dari dua alel meskipun jarang ditemukan (Duran

et al. 2009).

Gambar 2 Transition dan transversion

Transition Transversion

A

T

G

C

(21)

7

Gambar 3 Ilustrasi SNP dari beberapa sekuens

Ilustrasi adanya SNP ditunjukkan pada Gambar 3. SNP dapat ditemukan dengan menjajarkan (alignment) sekuens-sekuens genom suatu individu dengan sekuens rujukan (Bafna et al. 2013). Insertion atau deletion pada Gambar 3 ditunjukkan dengan adanya posisi kosong pada Sekuens 1 (karakter “-“).

Marka SNP sangat berguna dalam biologi molekuler dan pemuliaan tanaman karena jumlahnya yang melimpah dan sesuai dengan teknologi NGS. Aplikasi SNP dalam genomika tanaman antara lain dalam pembuatan peta genetik, analisis pemetaan asosiasi seluruh genom (genome-wide association analysis), serta studi evolusi (Kumar et al. 2012). Namun demikian, terdapat tantangan tersendiri dalam analisis marka SNP untuk tanaman dengan genom yang kompleks seperti kedelai. Sifat bialel pada SNP harus didukung dengan frekuensi SNP yang tinggi untuk menyamai informasi polimorfisme dari jenis marka lain. Selain itu, sifat polyploid memiliki konsekuensi bahwa jumlah SNP yang benar-benar berguna hanya sebagian kecil dari keseluruhan polimorfisme. Tantangan lain yaitu banyaknya elemen repetitif dan duplikasi sekuens yang ditemukan pada genom tanaman pangan termasuk kedelai (Mammadov et al. 2012). Satyawan et

al. (2014) melaporkan bahwa pada genom kedelai terdapat rata-rata satu SNP atau indel per 308 basa.

SNP Calling

Identifikasi SNP, atau lebih umum disebut SNP calling, adalah proses ekstraksi SNP dari data sekuens (Altmann et al. 2012). Diberikan data penjajaran

reads dari individu-individu dengan sekuens rujukan, SNP calling melakukan

identifikasi lokasi yang memiliki variasi. SNP calling berbeda dengan genotype

calling yang mengidentifikasi genotipe dari setiap individu pada lokasi tertentu

(Nielsen et al. 2011).

Pendekatan umum untuk SNP calling yang menggunakan sekuens rujukan digambarkan dalam Gambar 4. Pertama, sekuens DNA rujukan dan sekuens reads setiap individu dijajarkan (alignment). Kemudian, dari hasil penjajaran tersebut, variasi sekuens diidentifikasi dan diklasifikasikan menjadi SNP putatif (potensial) (Oeveren dan Janssen 2009). Alur umum seperti ini berlaku bagi teknologi

sequencing terdahulu maupun teknologi high-throughput sequencing.

Rujukan

ACCGTACACTAC

Sekuens 1

CCT-AC

Sekuens 2

GTAGACT

Sekuens 3

GTACAC

Sekuens 4

TAGACTCA

Sekuens 5

TAGACTCAC

SNP

(22)

8

Gambar 4 Alur umum SNP calling

Genetic Programming

Genetic Programming (GP) merupakan varian dari algoritme genetika (GA),

yaitu algoritme pencarian probabilistik yang mengambil basis dari teori evolusi. GP pada asalnya digunakan untuk evolusi program komputer. GP berbeda dengan GA dalam hal representasi individu, yakni menggunakan representasi yang kompleks untuk mengkodekan individu. Representasi individu pada GP biasanya menggunakan skema tree. Namun, pemodelan GP berkembang untuk skema yang lain, misalnya ekspresi matematis maupun sistem berbasis rule (Espejo et al. 2010).

GP dapat digunakan untuk menemukan rule klasifikasi dalam berbagai bidang penerapan (Kuo et al. 2007). Rule ini dimodelkan dalam bentuk decision

tree yang dioptimasi oleh GP untuk menemukan rule klasifikasi eksplisit dalam

bentuk yang paling sederhana untuk berbagai masalah klasifikasi. Rule klasifikasi yang dikombinasikan dengan pengetahuan pakar menghasilkan pengambilan keputusan yang jelas (De Falco et al. 2002), dan pada kasus identifikasi SNP, rule tersebut dapat digunakan untuk mengetahui cara pakar mengevaluasi hasil identifikasi SNP (Matukumalli et al. 2006).

Contoh rule klasifikasi dalam bentuk decision tree untuk klasifikasi biner (hanya ada dua kelas) terdapat pada Gambar 5 (Espejo et al. 2010). Tree tersebut merepresentasikan rule berikut untuk suatu atribut NP, PG, dan TT:

IF ((NP < 3)

OR ((NP ≥ 3) AND (PG ≥ 50) AND (TT < 72))) THEN Class 1.

Rule tersebut merupakan satu individu GP yang akan dioptimalisasi dengan

operator crossover dan mutation pada tree. Operator crossover menukar sebagian dari induk dengan induk lainnya (dalam hal ini subtree) untuk membentuk individu baru seperti diilustrasikan pada Gambar 6. Sementara itu, operator

mutation mengganti subtree dari suatu individu dengan subtree acak seperti

diilustrasikan pada Gambar 7 (Kuo et al. 2007). Rujukan

Reads

Alignment atau Mapping

Identifikasi Variasi Sekuens

(23)

9

Gambar 5 Contoh individu GP dalam bentuk rule (Espejo et al. 2010)

Gambar 6 Ilustrasi operator crossover

Gambar 7 Ilustrasi operator mutation Induk 1 Induk 2 Anak 1 Anak 2 Crossover Individu awal Subtree acak Hasil mutasi

(24)

10

METODE PENELITIAN

Alur Metode Penelitian

Gambaran umum alur metode penelitian yang dilakukan diberikan pada Gambar 8 yang terdiri atas tiga langkah. Langkah pertama ialah pembentukan data pelatihan dengan prosedur penjajaran (alignment) yang disesuaikan dengan yang dilakukan oleh Lam et al. (2010). Prosedur disesuaikan dengan penelitian tersebut karena data SNP yang telah diverifikasi juga menggunakan hasil penelitian tersebut. Setelah didapatkan data alignment pelatihan, dilakukan ekstraksi fitur dari SNP yang digunakan untuk pelatihan.

Gambar 8 Metode penelitian Hasil

Penjajaran Pelatihan

SNP Pelatihan

Pembentukan Data Pelatihan

Ekstraksi Fitur Proses Pelatihan Optimasi Genetic Programing Rule Klasifikasi Optimal Proses Evaluasi Alignment Pengujian Ekstraksi Fitur SNP Pengujian Evaluasi Hasil Identifikasi Data Genom Penjajaran Sekuens

(25)

11 Langkah kedua ialah proses pelatihan dengan menggunakan GP untuk optimasi rule klasifikasi. Proses ini menghasilkan rule klasifikasi SNP yang dioptimalkan untuk identifikasi SNP kedelai. Langkah terakhir yaitu pengujian

rule yang telah terbentuk dengan data pengujian, akan dihasilkan SNP hasil

identifikasi yang dievaluasi kinerja klasifikasinya. Detail dari setiap tahapan dijelaskan pada subbab-subbab berikut.

Data Sekuens Rujukan

Data sekuens rujukan yang digunakan merupakan data genom total yang diambil dari kedelai budidaya varietas Williams 82 (Schmutz et al. 2010). Data sekuens diberikan dalam format FASTA dan diperoleh melalui alamat web http://www.phytozome.net/soybean.php. Versi data genom yang digunakan ialah rilis v1.98 dengan 8x coverage (Lam et al. 2010).

Data genom kedelai ini terdiri atas 1168 scaffold dengan panjang total 973.3 Mb. Dari 1168 scaffold yang ada, sebanyak 20 scaffold skala kromosom dipetakan menjadi 20 kromosom kedelai, sedangkan sisanya sebanyak 1148 scaffold yang berukuran pendek merupakan scaffold yang tidak dipetakan sehingga tidak digunakan dalam penelitian. Dengan tidak mengikutsertakan scaffold yang tidak dipetakan tersebut dan menyertakan 20 scaffold kromosom, didapatkan data sekuens sepanjang 955.6 Mb. Kromosom dalam data sekuens tersebut diberi label mulai dari Gm01 (Glycine max, kromosom 1) sampai Gm20 (kromosom 20).

Data Sekuens Reads

Data reads, yaitu sekuens pendek DNA hasil pembacaan oleh mesin

sequencing diperoleh dari data whole-genome resequencing aksesi kedelai

budidaya oleh Lam et al. (2010) yang disekuens dengan platform mesin Illumina Genome Analyzer II. Data tersebut diperoleh melalui alamat http://public.genomics.org.cn/BGI/soybean_resequencing. Data diberikan dalam format FASTQ. Setiap hasil sequencing dari satu aksesi diwakili dua buah file karena prosesnya menggunakan paired-end sequencing (berpasangan).

Data aksesi kedelai liar (G. soja) tidak digunakan karena objek penelitian ini adalah kedelai budidaya (G. max). Terdapat dua jenis data reads berdasarkan panjangnya, yakni reads dengan panjang 44 pasang basa dan reads dengan panjang 75 pasang basa. Data yang digunakan ialah reads dengan panjang terbesar, yaitu 75 pasang basa agar didapatkan hasil yang lebih akurat. Secara keseluruhan, terdapat 14 aksesi kedelai budidaya yang data sekuensnya digunakan (kode C01, C02, C08, C12, C14, C16, C17, C19, C24, C27, C30, C33, C34, dan C35).

Data SNP Pelatihan

Data SNP yang telah divalidasi berasal dari hasil penelitian Lam et al. (2010), namun hanya mengambil SNP yang teridentifikasi pada aksesi kedelai budidaya. Data tersebut berupa posisi dalam kromosom yang teridentifikasi sebagai SNP, serta perbedaan basa yang terjadi antara sekuens rujukan dan sekuens reads pada posisi tersebut.

(26)

12

Seluruh SNP yang tercantum pada data ini dianggap sebagai kelas true SNP, yaitu SNP yang dianggap benar. Sebaliknya, jika ada kandidat SNP yang tidak tercantum pada data ini, maka dianggap sebagai kelas false SNP. Penentuan kelas SNP dengan cara seperti ini sesuai dengan O‟Fallon et al. (2013) yang mengambil data SNP dari database dbSNP pada manusia. Data SNP beserta kelasnya ini yang digunakan dalam proses pelatihan.

Penjajaran Sekuens

Sekuens reads dari setiap sampel dijajarkan (alignment) dengan sekuens rujukan. Penjajaran dilakukan dengan software Short Oligonucleotide Alignment Program 2 (SOAP2) sesuai Lam et al. (2010). Sebelum dilakukan penjajaran, sekuens rujukan harus diindeks terlebih dahulu oleh SOAP2 untuk mempercepat proses penjajaran.

Selain itu, pada data reads perlu dilakukan kontrol kualitas sebelum dijajarkan untuk memastikan bahwa reads yang akan dijajarkan memiliki nilai kualitas sequencing yang baik (Altmann et al. 2012). Software yang digunakan untuk kontrol kualitas serta memotong atau membuang sekuens yang memiliki nilai kualitas rendah ialah PRINSEQ (Schmieder dan Edwards 2011).

Penjajaran dilakukan dengan metode paired-end (berpasangan) karena reads yang digunakan merupakan sekuens yang berpasangan. Parameter insert size minimum dan maksimum yang digunakan untuk penjajaran berpasangan diperoleh bersama data reads (Lam et al. 2010).

Ekstraksi Fitur

Ekstraksi fitur dilakukan dengan membaca hasil penjajaran. Fitur dari setiap kandidat SNP dihitung setiap ditemukan adanya basa pada reads yang berbeda dengan basa pada sekuens rujukan pada posisi tertentu (posisi adanya variasi). Jika perbedaan basa pada posisi tersebut ada pada daftar true SNP, maka perbedaan basa tersebut beserta hasil perhitungan fiturnya diberi label kelas true SNP. Sebaliknya, jika perbedaan basa pada posisi tersebut tidak ada pada daftar

true SNP, label kelasnya ialah false SNP.

Daftar fitur yang digunakan dan dihitung dari setiap kandidat SNP dicantumkan pada Tabel 1. Fitur-fitur tersebut merupakan fitur yang bersifat statistik yang dirangkum dari Matukumalli et al. (2006), Oeveren dan Janssen (2009), dan O‟Fallon et al. (2013). Fitur yang bersifat termofisika (Kong 2007) tidak digunakan karena memiliki akurasi yang cukup rendah dibandingkan dengan fitur statistik. Contoh cara perhitungan fitur dilampirkan pada Lampiran 1.

Satu fitur dapat memiliki lebih dari satu nilai, misalnya fitur nomor 3 (rata-rata kualitas alel mayor dan minor) yang terdiri atas dua nilai, yaitu alel mayor dan alel minor. Selain itu, fitur dapat berupa tipe numerik atau ordinal. Contoh nilai dengan tipe ordinal adalah fitur nomor 1 (tipe variasi).

Seluruh fitur pada Tabel 1 digunakan dalam proses pelatihan. Namun demikian, hanya sebagian fitur saja yang akan muncul di dalam rule hasil optimasi GP. Hal ini disebabkan GP mampu melakukan seleksi fitur secara implisit (Espejo et al. 2010), sehingga hanya fitur yang paling signifikan saja yang digunakan untuk membentuk rule.

(27)

13 Tabel 1 Fitur-fitur SNP yang digunakan

No Fitur Referensi

1 Tipe variasi [1]

2 Maksimum kualitas alel mayor dan minor [1] 3 Rata-rata kualitas alel mayor dan minor [1] 4 Jarak relatif dengan ujung reads [1], [2]

5 Kedalaman penjajaran (depth) [1], [2], [3]

6 Kualitas alignment [1], [3]

7 Jarak kandidat SNP terdekat [2]

8 Peluang error [3]

9 Banyaknya perulangan dinukleotida [3]

10 Strand bias [3]

11 Total mismatch area [3]

12 Panjang homopolimer [3]

13 Keragaman nukleotida [3]

14 Banyaknya mismatch pada read [3]

15 Keseimbangan alel [3]

16 Kualitas basa pengapit [3]

Keterangan:

[1] Matukumalli et al. (2006), [2] Oeveren dan Janssen (2009), [3] O‟Fallon et al. (2013).

Deskripsi singkat dari masing-masing fitur sebagai berikut: 1 Tipe variasi (ts.tv)

Tipe variasi dapat berupa transition atau transversion bergantung pada perbedaan basa pada posisi adanya variasi.

2 Maksimum kualitas alel mayor dan minor (max.qual.major, max.qual.minor) Alel mayor adalah alel yang paling sering muncul, sedangkan alel minor adalah alel kedua yang paling sering muncul setelah alel mayor. Dari kedua alel dihitung nilai kualitas basa maksimum dari reads yang dijajarkan pada posisi adanya variasi.

3 Rata-rata kualitas alel mayor dan minor (mean.qual.major, mean.qual.minor) Sama seperti sebelumnya, namun yang dihitung adalah nilai kualitas basa rata-rata dari alel mayor dan minor.

4 Jarak relatif dengan ujung reads (rel.dist)

Jarak relatif dari posisi adanya variasi ke kedua ujung dari reads, kemudian dibagi dengan panjang reads.

5 Kedalaman penjajaran (total.depth)

Jumlah keseluruhan reads yang dijajarkan pada posisi adanya variasi. 6 Kualitas alignment (mean.mapping.qual)

Kualitas penjajaran dari masing-masing reads pada posisi adanya variasi. Nilai kualitas tersebut diberikan oleh program yang melakukan penjajaran.

7 Jarak kandidat SNP terdekat (nearest.flank)

Jarak dari posisi adanya variasi ke kandidat variasi lainnya yang terdekat, yaitu kandidat pada posisi sebelum dan sesudahnya.

8 Peluang error (error.prob)

Nilai peluang bahwa jumlah reads yang mengandung variasi diambil dari sebaran binomial dengan parameter tertentu.

(28)

14

9 Banyaknya perulangan dinukleotida (dinuc.repeat)

Jumlah dinukleotida (dua basa nukleotida, misalnya “AT”) yang berulang di sekitar posisi adanya variasi.

10 Strand bias (strand.bias)

Nilai chi-square antara reads yang memiliki basa sama dengan rujukan dan

reads yang memiliki basa berbeda dengan rujukan di posisi adanya variasi.

11 Total area mismatch (area.mismatch)

Rata-rata jumlah basa varian (basa yang berbeda dengan rujukan) pada setiap

reads yang dijajarkan pada posisi adanya variasi.

12 Panjang homopolimer (homopolymer.length)

Panjang total dari homopolimer (deretan basa yang sama dan berurutan, misalnya “AAAAAA”) di sekitar posisi adanya variasi.

13 Keragaman nukleotida (nuc.diversity)

Simpangan dari frekuensi basa rujukan terhadap rata-rata seluruh genom. Nilai simpangan dihitung pada rentang 20 pasang basa di sekitar posisi adanya variasi.

14 Banyaknya mismatch pada read (mismatch.alt)

Banyaknya mismatch (basa yang berbeda dengan rujukan) pada reads di posisi adanya variasi.

15 Keseimbangan alel (allele.balance)

Rasio jumlah reads yang memiliki basa berbeda dengan rujukan terhadap kedalaman pada posisi adanya variasi.

16 Kualitas basa pengapit (mean.nearby.qual)

Rata-rata kualitas dari basa yang mengapit basa di posisi adanya variasi (2 basa sebelum dan 2 basa sesudah).

Optimasi Genetic Programming

Dari fitur-fitur yang telah didapatkan, dibangun suatu classifier berbasis

rule yang dioptimasi dengan GP. Pada penelitian ini, diterapkan tiga algoritme

optimasi rule GP, yaitu algoritme Bojarczuk et al. (2004), De Falco et al. (2002), dan Tan et al. (2000) untuk dicari yang paling baik. Masing-masing algoritme tersebut memiliki himpunan fungsi, operator genetik, dan fungsi fitness yang berbeda-beda.

Perbandingan parameter algoritme optimasi GP yang digunakan pada penelitian ini disajikan pada Tabel 2. Ketiga algoritme memiliki fungsi fitness yang berbeda. Pada algoritme De Falco dan Bojarczuk, ukuran dari individu berpengaruh terhadap fitness, yakni semakin kompleks ukuran tree, semakin rendah fitness-nya (Bojarczuk et al. 2004; De Falco et al. 2002).

Selain itu, himpunan fungsi internal dari ketiga algoritme juga berbeda. Ketiga algoritme tidak menggunakan operator aritmatika, tetapi hanya operator

boolean dan perbandingan. Algoritme Bojarczuk hanya menggunakan operator boolean AND dan OR; algoritme Tan hanya menggunakan operator boolean

AND dan NOT; sedangkan algoritme De Falco menggunakan seluruh operator

boolean (AND, OR, NOT) serta operator IN dan OUT yang menyatakan

(29)

15 Pada algoritme De Falco dan Tan, optimasi GP dilakukan pada setiap kelas secara terpisah. Dengan kata lain, algoritme akan mencari satu rule terbaik untuk satu kelas, baru kemudian dilanjutkan pada kelas yang lain. Khusus pada algoritme Tan, setiap kelas dapat memiliki lebih dari satu rule. Sementara itu, algoritme Bojarczuk hanya berjalan satu kali untuk semua kelas. Bagian konsekuen (label kelas) dari rule pada algoritme Bojarczuk ditentukan berdasarkan kelas yang memiliki fitness terbaik untuk rule tersebut.

Tabel 2 Perbandingan algoritme optimasi GP Algoritme Fungsi fitness

Bojarczuk Maksimumkan F = Sensitivity × Specificity × Simplicity dengan

 Simplicity = ( axn de-0.5)(nu n de-0.5)_{axn de-1}

 maxnode = Jumlah node maksimum

 numnode = Jumlah node

De Falco _{Minimumkan F = ( - ( - )) + ( e th + ze)} dengan

 N = Jumlah data sampel

 CC = Jumlah data yang diklasifikasikan dengan benar

 IC = Jumlah data yang diklasifikasikan dengan salah

 Depth = Kedalaman tree

 Size = Jumlah node

Tan _{Maksimumkan F =} + * w1 + * w2 dengan  w1, w2 = Pembobotan

 TP, TN = True positive, true negative

 FP, FN = False positive, false negative

Algoritme Fungsi internal Operator genetik Seleksi

Bojarczuk AND, OR, =, ≠, ≤, > Crossover Roulette wheel

De Falco AND, OR, NOT, IN, OUT, <, ≤, =, ≥, >

Crossover, mutation

Tournament

Tan AND, NOT, <, ≤, =, ≠, ≥, >

Crossover, mutation

Tournament

Meskipun digunakan tiga algoritme yang berbeda, secara umum optimasi GP dilakukan dengan alur yang sama seperti yang tercantum pada Gambar 9. Proses optimasi dilakukan sampai kondisi henti terpenuhi, yaitu jumlah generasi maksimum tercapai.

(30)

16

Gambar 9 Alur optimasi dengan GP

Parameter yang digunakan dalam percobaan disajikan pada Tabel 3. Pada penelitian ini digunakan tiga jenis jumlah populasi (50, 100, dan 200) serta tiga jenis peluang crossover (0.7, 0.8, dan 0.9). Peluang mutation dibuat sama (0.1) karena tidak semua algoritme optimasi GP yang digunakan melibatkan operator

mutation. Selain itu, jumlah generasi maksimum juga dibuat sama, yaitu 100

generasi.

Tabel 3 Parameter percobaan dengan GP

Parameter Nilai parameter

Jumlah generasi maksimum 100

Jumlah populasi 50, 100, dan 200 Peluang crossover 0.7, 0.8, dan 0.9

Peluang mutation 0.1

Parameter fitness De Falco = 0.5 Parameter fitness Tan w1= 0.7

w2 = 0.8 Pembangkitan Populasi Awal Evaluasi Individu Awal Operasi Genetik Evaluasi Individu Baru Generasi maksimum?

Individu generasi awal

Individu generasi baru Seleksi Individu Tetua (Induk) Tidak Selesai Ya Mulai Individu terpilih

(31)

17 Dengan parameter-parameter tersebut, disusun kombinasi percobaan seperti yang disajikan pada Tabel 4. Masing-masing algoritme dijalankan dengan kombinasi tiga jenis peluang crossover dan tiga jenis jumlah populasi sehingga terdapat sembilan percobaan per algoritme. Selain itu, pada setiap percobaan dilakukan perulangan sebanyak lima kali untuk dicari hasil yang terbaik.

Tabel 4 Kombinasi percobaan dengan GP Algoritme Kode percobaan* Peluang crossover Jumlah populasi Bojarczuk B1 0.7 50 B2 0.7 100 B3 0.7 200 B4 0.8 50 B5 0.8 100 B6 0.8 200 B7 0.9 50 B8 0.9 100 B9 0.9 200 De Falco F1 0.7 50 F2 0.7 100 F3 0.7 200 F4 0.8 50 F5 0.8 100 F6 0.8 200 F7 0.9 50 F8 0.9 100 F9 0.9 200 Tan T1 0.7 50 T2 0.7 100 T3 0.7 200 T4 0.8 50 T5 0.8 100 T6 0.8 200 T7 0.9 50 T8 0.9 100 T9 0.9 200

* Setiap percobaan dilakukan perulangan sebanyak lima kali Lingkungan Implementasi

Implementasi dilakukan pada komputer dengan spesifikasi prosesor Intel Core i3 3.2 GHz, memori 4 GB, dan harddisk 2 TB. Perangkat lunak sistem operasi yang digunakan ialah Linux Ubuntu versi 14.04. Bahasa pemrograman yang digunakan untuk implementasi algoritme ialah Java dengan library SAMtools. Implementasi GP dilakukan dengan library JCLEC (Java Class Library for Evolutionary Computation) (Ventura et al. 2007).

(32)

18

HASIL DAN PEMBAHASAN

Ketidakseimbangan Distribusi Kelas

Dari hasil pembangkitan data pelatihan, didapatkan distribusi kelas (true dan false) pada setiap kromosom kedelai seperti yang disajikan pada Gambar 10. Dari hasil tersebut dapat dilihat bahwa persentase kelas true hanya sekitar 5–10% dari keseluruhan data, sedangkan sisanya merupakan kelas false. Adanya ketidakseimbangan distribusi kelas ini dapat membuat hasil klasifikasi hanya baik pada kelas mayoritas (false), sedangkan pada kelas minoritas (true) hasil klasifikasi cenderung tidak baik (He dan Garcia 2009). Oleh karena itu, pada pembangunan model klasifikasi dengan GP, diperlukan fungsi fitness yang dirancang sedemikian rupa untuk menangani data yang distribusi kelasnya tidak seimbang (Bhowan et al. 2010).

Gambar 10 Distribusi kelas pada setiap kromosom

Dari Gambar 10, dapat dilihat juga bahwa jumlah kandidat per kromosom ada dalam satuan juta, yakni paling sedikit berjumlah sekitar 1.5 juta data (Gm16), dan paling banyak berjumlah sekitar 2.6 juta data (Gm18). Jika seluruh data digunakan, maka akan didapatkan total sekitar 40 juta data. Jumlah ini sangat besar dan akan membuat algoritme klasifikasi berjalan dengan tidak efisien. Oleh karena itu, pada penelitian ini hanya digunakan sebagian dari data. Untuk fase pelatihan, digunakan data kromosom Gm18 yang memiliki jumlah data paling banyak, sedangkan untuk fase pengujian, digunakan data kromosom Gm01 yang jumlah datanya kedua terbanyak.

Pembangkitan Rule dengan GP

Dengan data pelatihan yang digunakan (Gm18), dilakukan pembangkitan

rule klasifikasi dengan optimasi GP. Untuk optimasi, digunakan ketiga algoritme

(Bojarczuk, De Falco, dan Tan) untuk dibandingkan hasilnya.

0 500 1000 1500 2000 2500 3000 Ju m lah k an d id at (d alam r ib u )

(33)

19

Algoritme Bojarczuk

Dari setiap percobaan (B1 sampai B9) diambil hasil yang memiliki nilai

fitness terbaik dari lima kali ulangan. Grafik fitness maksimum per generasi pada

pembangkitan rule dengan algoritme Bojarczuk dapat dilihat pada Gambar 11. Dari grafik tersebut, terlihat bahwa seluruh kombinasi percobaan menghasilkan nilai fitness yang konvergen ke nilai sekitar 0.724. Terdapat tiga percobaan (B2, B6, dan B9) yang memiliki nilai fitness paling tinggi dibandingkan percobaan lain namun tidak signifikan perbedaannya, yaitu nilai fitness 0.725.

Selain itu, dapat dilihat juga bahwa algoritme Bojarczuk dapat konvergen dengan cepat, yaitu pada sekitar generasi ke-10. Kekonvergenan yang cepat menuju satu nilai fitness yang sama ini disebabkan algoritme Bojarczuk tidak menggunakan operator mutation pada saat melakukan optimasi (Bojarczuk et al. 2004). Tidak adanya mutation menyebabkan populasi pada GP memiliki keragaman yang rendah karena hanya bergantung pada keragaman individu pada populasi awal. Akibatnya, tidak ditemukan material genetik baru pada saat proses evolusi individu GP yang mungkin dapat meningkatkan keragaman dan mengubah fitness.

Gambar 11 Grafik fitness algoritme Bojarczuk

Algoritme De Falco

Dari setiap percobaan (F1 sampai F9) diambil hasil yang memiliki nilai

fitness terbaik dari lima kali ulangan. Pada Gambar 12 disajikan grafik fitness

minimum per generasi untuk algoritme De Falco. Grafik menunjukkan nilai

fitness yang cenderung menurun seiring meningkatnya generasi karena fungsi fitness algoritme De Falco bertujuan meminimumkan kesalahan klasifikasi. Oleh

karena itu, semakin rendah fitness suatu individu (semakin sedikit kesalahan klasifikasinya) maka semakin optimal individu tersebut.

Dari grafik, terlihat bahwa setiap percobaan memberikan fitness akhir yang bervariasi. Hasil percobaan yang menggunakan jumlah populasi rendah cenderung memiliki fitness yang kurang optimal dibandingkan percobaan dengan jumlah populasi lebih besar. Hal ini disebabkan semakin banyaknya jumlah populasi, maka keragaman genetik pada populasi semakin besar sehingga dimungkinkan

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0 10 20 30 40 50 60 70 80 90 100 F itn ess m ak sim u m Generasi B1 B2 B3 B4 B5 B6 B7 B8 B9

(34)

20

adanya bahan genetik yang memberikan fitness yang lebih unggul. Selain itu, adanya operator mutation pada algoritme De Falco menyebabkan banyaknya variasi pada populasi. Hal ini dapat dilihat dari grafik fitness yang terkadang naik atau turun dan tidak konvergen dengan cepat. Jika jumlah generasi ditingkatkan, maka dimungkinkan akan didapatkan nilai fitness yang lebih baik.

Secara umum, pada generasi paling akhir nilai fitness paling optimal diperoleh dari percobaan F2 (peluang crossover 0.7, jumlah populasi 100) dengan nilai fitness 389.9. Percobaan F9 (peluang crossover 0.9, jumlah populasi 200) memberikan hasil yang tidak jauh berbeda sampai generasi ke-99, namun pada generasi ke-100 fitness-nya menurun.

Gambar 12 Grafik fitness algoritme De Falco

Algoritme Tan

Setiap percobaan dengan algoritme Tan (T1 sampai T9) diambil hasil yang memiliki nilai fitness terbaik dari lima kali ulangan. Grafik fitness maksimum per generasi dari algoritme Tan disajikan pada Gambar 13.

Gambar 13 Grafik fitness algoritme Tan

360 370 380 390 400 410 420 430 440 450 460 0 10 20 30 40 50 60 70 80 90 100 F itn ess m in im u m Generasi F1 F2 F3 F4 F5 F6 F7 F8 F9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 10 20 30 40 50 60 70 80 90 100 Fitn es s m ak sim u m Generasi T1 T2 T3 T4 T5 T6 T7 T8 T9

(35)

21 Algoritme Tan menggunakan operator mutation di dalam optimasinya. Meskipun demikian, nilai-nilai fitness pada algoritme Tan cenderung stabil dan tidak fluktuatif seperti algoritme De Falco. Hal ini dapat disebabkan oleh adanya elitisme pada algoritme Tan yang mempertahankan individu dengan fitness terbaik sehingga tidak mengalami perubahan selama proses evolusi (Tan et al. 2000).

Seluruh percobaan pada algoritme Tan cenderung konvergen di atas generasi ke-20 dengan nilai fitness sekitar 0.815. Percobaan T9 dengan peluang

crossover 0.5 dan jumlah generasi 200 memberikan nilai fitness akhir terbaik

meskipun perbedaannya tidak signifikan dengan percobaan lain, yaitu nilai fitness sebesar 0.819.

Rule Set Hasil Optimasi

Rule set hasil optimasi GP dengan ketiga algoritme ditampilkan pada Tabel

5. Dari masing-masing algoritme, diambil percobaan yang memiliki nilai fitness terbaik. Dari rule yang dihasilkan, dapat dilihat bahwa tidak semua fitur yang digunakan untuk pelatihan (lihat Tabel 1) muncul di dalam rule. Hal ini menandakan bahwa dengan algoritme GP, secara implisit telah dilakukan proses seleksi fitur karena hanya sebagian fitur saja yang signifikan untuk membedakan

true dan false SNP.

Tabel 5 Rule set hasil optimasi masing-masing algoritme Algoritme Percobaan Rule set

Bojarczuk B6 IF (max.qual.minor <= 58.990874) THEN (class = false)

ELSE IF (max.qual.minor > 58.990874) THEN (class = true)

ELSE (class = false)

De Falco F2 IF ((allele.balance IN [0.974, 0.156]) AND (max.qual.minor OUT [6.498, 63.871]) AND (total.depth <= 136.940)) THEN (class = true) ELSE IF ((allele.balance OUT [0.921, 0.170]) OR

(max.qual.minor <= 62.710)) THEN (class = false)

ELSE (class = false)

Tan T9 IF (NOT ((NOT (total.depth > 46.690)) AND (max.qual.minor OUT [4.400, 56.187]))) THEN (class = false)

ELSE IF ((NOT ((max.qual.minor > 8.191) AND (max.qual.minor IN [59.879, 13.588]))) AND (max.qual.minor OUT [38.760 13.588])) THEN (class = true)

ELSE IF ((NOT ((nearest.flank < 1304.846) AND (strand.bias IN [798.362, 1319.737]) AND (mean.nearby.qual > 37.335))) AND (allele.balance <= 0.115))

THEN (class = false) ELSE (class = true)

(36)

22

Rule yang dibentuk oleh algoritme GP merupakan gabungan operator logika

(AND, OR, dan NOT) serta perbandingan aritmatika (misalnya kurang dari, lebih dari, IN yang berarti di dalam rentang, dan OUT yang berarti di luar rentang) antara fitur data dengan suatu nilai. Nilai yang dibandingkan ini merupakan nilai paling optimal yang dipilih secara acak oleh GP berdasarkan data pelatihan yang digunakan.

Masing-masing algoritme menghasilkan rule dengan karakteristik berbeda-beda yang dipengaruhi oleh fungsi internal (operator logika dan perbandingan aritmatika) dan fungsi fitness yang digunakan. Algoritme Bojarczuk menghasilkan

rule yang sangat sederhana yang hanya terdiri atas satu kondisi per rule. Hal ini

disebabkan oleh adanya faktor simplicity pada fungsi fitness-nya (lihat Tabel 2) yang membuat individu atau rule yang memiliki kompleksitas lebih kecil akan memiliki nilai fitness lebih tinggi. Dari hasil tersebut juga dapat dilihat bahwa fitur SNP yang paling optimal untuk klasifikasi berdasarkan algoritme Bojarczuk adalah max.qual.minor (maksimum kualitas alel minor).

Pada rule set hasil algoritme De Falco, dapat dilihat bahwa rule yang dihasilkan lebih kompleks, yaitu dua atau tiga kondisi per rule. Dari rule set tersebut, dapat dilihat terdapat beberapa fitur SNP lain selain max.qual.minor yang digunakan sebagai penentu hasil klasifikasi, misalnya allele.balance (keseimbangan alel) dan total.depth (kedalaman penjajaran).

Algoritme Tan menghasilkan rule set yang paling kompleks. Hal ini disebabkan algoritme Tan dapat membangkitkan lebih dari satu rule untuk setiap kelas, yang dapat dilihat dari hasil percobaan bahwa terdapat 2 rule untuk kelas

false (selain bagian ELSE yang merupakan kelas default). Adanya lebih dari satu rule ini digunakan untuk mensimulasikan fungsi OR, karena algoritme Tan hanya

menggunakan fungsi logika AND dan NOT di dalam rule yang dihasilkannya (Tan et al. 2002).

Selain karena adanya lebih dari satu rule untuk setiap kelas, fungsi fitness pada algoritme Tan juga tidak memasukkan unsur kompleksitas atau ukuran rule, sehingga ukuran individu rule dapat terus membesar atau dikenal dengan istilah

bloating (Espejo et al. 2010). Namun demikian, pada library JCLEC yang

digunakan telah ditetapkan ukuran rule maksimum individu yang dapat dibangkitkan sehingga ukuran individu tidak terlalu besar.

Rule hasil algoritme Tan juga memiliki redundansi, yaitu pada bagian ELSE

IF pertama yang mengandung kondisi:

(max.qual.minor IN [59.879, 13.588]) AND (max.qual.minor OUT [38.760 13.588])

Kedua kondisi tersebut memiliki syarat yang beririsan sehingga dapat digabungkan menjadi (max.qual.minor IN [38.760, 59.879]). Selain itu, operator-operator NOT dapat diringkas dengan membalik operator-operator perbandingan (misalnya „<‟ menjadi „>=‟) atau menerapkan hukum De Morgan untuk operator logika.

Perbandingan Waktu Eksekusi Algoritme

Perbandingan waktu eksekusi ketiga algoritme disajikan pada Gambar 14. Dari grafik tersebut, dapat dilihat bahwa algoritme Bojarczuk memiliki waktu eksekusi yang paling singkat, yaitu 30.8 menit. Hal ini disebabkan algoritme Bojarczuk melakukan optimasi pada seluruh kelas sekaligus. Sebaliknya,

(37)

23 algoritme yang melakukan optimasi pada masing-masing kelas secara terpisah (De Falco dan Tan), waktu eksekusinya lebih lama karena pada masing-masing kelas harus dilakukan optimasi untuk menemukan rule terbaik.

Algoritme Tan memiliki waktu eksekusi paling lama, yaitu 509.7 menit atau sekitar 8 jam. Hal ini disebabkan algoritme Tan perlu menentukan beberapa rule sekaligus untuk setiap kelas. Selain itu, terdapat mekanisme tambahan untuk seleksi individu yang disebut dengan token competition untuk memilih rule sedemikian rupa sehingga tidak ada rule yang redundan dari beberapa rule untuk suatu kelas tertentu (Tan et al. 2002).

Gambar 14 Perbandingan waktu eksekusi algoritme

Dari perbandingan hasil pembangkitan rule dan waktu eksekusi, dapat dilihat bahwa algoritme Bojarczuk memiliki waktu eksekusi paling singkat dan

rule set paling sederhana, dan algoritme De Falco memiliki waktu eksekusi

sedang dan rule set dengan kompleksitas sedang. Sementara itu, algoritme Tan memiliki waktu eksekusi paling lama sekaligus rule set yang paling kompleks.

Klasifikasi dengan Rule Hasil Optimasi GP Metrik Evaluasi

Evaluasi hasil klasifikasi dilakukan berdasarkan confusion matrix seperti pada Gambar 15. Seluruh kandidat SNP hasil klasifikasi dikelompokkan menjadi empat jenis: true positive, yaitu true SNP yang benar diidentifikasi sebagai true;

false positive, yaitu false SNP namun diidentifikasi sebagai true; false negative,

yaitu true SNP namun diidentifikasi sebagai false; dan true negative, yaitu false SNP yang benar diidentifikasi sebagai false.

Gambar 15 Confusion matrix untuk klasifikasi dua kelas

0 100 200 300 400 500 600

Tan De Falco Bojarczuk

Waktu eksekusi (menit)

Perbandingan Waktu Eksekusi

TP FN FP TN True False True False Kelas diprediksi Kela s ak tu al _{TP : true positive} FP : false positive FN : false negative TN : true negative