• Tidak ada hasil yang ditemukan

Kesimpulan

Dari hasil yang didapatkan, dapat disimpulkan bahwa identifikasi SNP tanaman kedelai dari data yang dihasilkan dengan teknologi NGS dapat dilakukan dengan menggunakan sejumlah fitur statistik yang dihitung dari hasil penjajaran sekuens DNA. Dengan menggunakan algoritme GP yang mengoptimasi rule set untuk klasifikasi dengan fungsi fitness tertentu, ditemukan subset dari fitur-fitur tersebut yang paling signifikan untuk membedakan antara true SNP dan false SNP, yaitu kualitas alel minor, kedalaman penjajaran, dan keseimbangan alel. Fitur-fitur tersebut disusun sedemikian rupa dengan menggunakan operator logika dan perbandingan untuk membentuk rule set yang dapat digunakan untuk identifikasi SNP.

Rule set yang dihasilkan oleh algoritme GP telah digunakan untuk melakukan identifikasi SNP pada salah satu kromosom dari genom tanaman kedelai (Gm01) dengan hasil evaluasi terbaik berupa sensitivity sebesar 92.39% dan specificity sebesar 86.63%, yang berarti sebagian besar dari true SNP dan false SNP dapat teridentifikasi. Namun, dari sisi precision masih didapatkan hasil yang cukup rendah sebesar 30.14% yang berarti masih banyak terdapat false positive dengan sebab adanya ketidakseimbangan distribusi kelas. Jika dibandingkan dengan metode yang digunakan pada penelitian-penelitian sebelumnya, didapatkan bahwa metode GP memiliki kinerja yang setara, namun dengan kelebihan didapatkannya rule set yang jelas dan dapat diinterpretasi.

Saran

Saran-saran untuk penelitian selanjutnya yaitu:

1 Data mentah yang digunakan (genom kedelai) hanya berasal dari satu sumber (Lam et al. 2010) yang kemudian disusun ulang pada penelitian ini dengan metode yang tidak persis sama dengan referensi, sehingga validitasnya juga tidak sama. Oleh karena itu, akan lebih baik jika pembangunan model GP untuk identifikasi SNP dilakukan dengan data genom yang telah diolah, lebih valid, dan lebih terverifikasi, misalnya genom manusia.

2 Hasil evaluasi yang didapatkan masih mengalami masalah dengan banyaknya false positive atau rendahnya precision yang diakibatkan ketidakseimbangan distribusi kelas. Untuk itu, pada pelatihan dengan GP perlu dikembangkan fungsi fitness atau parameter optimasi yang lebih baik. Selain itu, perbaikan dapat juga dilakukan dengan menyeimbangkan distribusi kelas pada data pelatihan dengan metode sampling tertentu yang lebih mutakhir.

39

DAFTAR PUSTAKA

Altmann A, Weber P, Bader D, Preuss M, Binder EB, Müller-Myhsok B. 2012. A beginners guide to SNP calling from high-throughput DNA-sequencing data. Hum Genet. 131(10):1541–54.

Agarwal M, Shrivastava N, Padh H. 2008. Advances in molecular marker techniques and their applications in plant sciences. Plant Cell Reports. 27(4): 617–31.

Atman. 2009. Strategi peningkatan produksi kedelai di Indonesia. J Ilmiah Tambua. 8(1):39-45.

Azrai M. 2005. Pemanfaatan markah molekuler dalam proses seleksi pemuliaan tanaman. J AgroBiogen. 1(1):26-37.

Bafna V, Deutsch A, Heiberg A, Kozanitis C, Ohno-Machado L, Varghese G. 2013. Abstractions for genomics. Commun ACM. 56(1):83-93.

Bhowan U, Zhang M, Johnston M. 2010. Genetic programming for classification with unbalanced data. Di dalam: Esparcia-Alcázar AI, Ekárt A, Silva S, Dignum S, Uyar AS, editor. Genetic Programming Lecture Notes in Computer Science. Berlin (DE): Springer Berlin Heidelberg. hlm 1-13.

Bojarczuk CC, Lopes HS, Freitas AA, Michalkiewicz EL. 2004. A constrained-syntax genetic programming system for discovering classification rules: application to medical data sets. Artificial Intelligence in Medicine. 30(1):27

48.

[BPS] Badan Pusat Statistik. 2014. Statistik Tanaman Pangan [diunduh 29 Nov 2014]. Tersedia dari: http://www.bps.go.id/tnmn_pgn.php.

Chan C, Qi X, Li MW, Wong FL, Lam HM. 2012. Recent developments of genomic research in soybean. J Genet Genomics. 39:317-324.

De Falco I, Della Cioppa A, Tarantino E. 2002. Discovering interesting classification rules with genetic programming. Appl Soft Comput. 1(4):257–269. Duran C, Appleby N, Edwards D, Batley J. 2009. Molecular genetic markers:

discovery, applications, data storage and visualisation. Curr Bioinf. 4:16-27. Espejo PG, Ventura S, Herrera F. 2010. A survey on the application of genetic

programming to classification. IEEE Trans Syst, Man, Cybern. 40(2):121–144. He H, Garcia EA. 2009. Learning from imbalanced data. IEEE Trans Knowl Data

Eng. 21(9):1263–1284.

Istiadi MA, Kusuma WA, Tasma IM. 2014. Application of decision tree classifier for single nucleotide polymorphism discovery from next-generation sequencing data. Di dalam: Proceedings of International Conference on Advanced Computer Science and Information Systems, ICACSIS 2014; 2014 Okt 18-19; Jakarta, Indonesia. Jakarta (ID): IEEE. hlm 85-89.

Kong W. 2007. Predicting single nucleotide polymorphisms (SNP) from DNA sequence by support vector machine. Front Biosci. 12(1):1610-14.

Kumar S, Banks TW, Cloutier S. 2012. SNP discovery through next-generation sequencing and its applications. Int J Plant Genomics [Internet]. [diunduh 2013 Feb 28]; 2012:831460. Tersedia pada: http://www.hindawi.com/journals/ijpg/ 2012/831460/.

Kuo CS, Hong TP, Chen CL. 2007. Applying genetic programming technique in classification trees. Soft Comput. 11(12):1165–1172.

40

Lam HM, Xun X, Xin L, Wenbin C, Guohua Y, Fuk-Ling W, Man-Wah L, Weiming H, Nan Q, Bo W, et al. 2010. Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection. Nat Genet. 42(12):1053–9.

Li YH, Zhao SC, Ma JX, Li D, Yan L, Li J, Qi XT, Guo XS, Zhang L, He WM, et al. 2013. Molecular footprints of domestication and improvement in soybean revealed by whole genome re-sequencing. BMC Genomics [Internet]. [diunduh 2013 Sep 21]; 14(1):579. Tersedia pada: http://www.biomedcentral.com/1471-2164/14/579.

Mammadov J, Aggarwal R, Buyyarapu R, Kumpatla S. 2012. SNP markers and their impact on plant breeding. Int J Plant Genomics [Internet]. [diunduh 2013 Mar 11]; 2012:728398. Tersedia pada: http:// www.hindawi.com/journals/ijpg/ 2012/728398/.

Matukumalli LK, Grefenstette JJ, Hyten DL, Choi IY, Cregan PB, Van Tassell CP. 2006. Application of machine learning in SNP discovery. BMC Bioinf [Internet]. [diunduh 2013 Feb 28]; 7:4. Tersedia pada: http://www.biomedcentral.com/1471-2105/7/4.

Metzker ML. 2010. Sequencing technologies - the next generation. Nat Rev Genet. 11(1):31–46.

Mishra SK, Verma VD. 2010. Soybean genetic resources. Di dalam: Singh G, editor. The Soybean: Botany, Production, and Uses. Oxfordshire (UK): CAB International. hlm 74-91.

Moose SP, Mumm RH. 2008. Molecular plant breeding as the foundation for 21st century crop improvement. Plant Physiol. 147(3):969–77.

Nielsen R, Paul JS, Albrechtsen A, Song YS. 2011. Genotype and SNP calling from next-generation sequencing data. Nat Rev Genet. 12(6):443–51.

Oeveren JV, Janssen A. 2009. Mining SNPs from DNA sequence data; computational approaches to SNP discovery and analysis. Di dalam: Komar AA, editor. Single Nucleotide Polymorphisms. New Jersey (US): Humana Pr. hlm 73-91.

O‟Fallon BD, Wooderchak-Donahue W, Crockett DK. 2013. A support vector machine for identification of single-nucleotide polymorphisms from next-generation sequencing data. Bioinformatics. 29(11):1361–6.

Satyawan D, Rijzaani H, Tasma IM. 2014. Characterization of genomic variation in Indonesian soybean (Glycine max) varieties using next-generation sequencing. Plant Genetic Resources. 12:S109–S113.

Schmieder R, Edwards R. 2011. Quality control and preprocessing of metagenomic datasets. Bioinformatics. 27(6):863–4.

Schmutz J, Cannon SB, Schlueter J, Ma J, Mitros T, Nelson W, Hyten DL, Song Q, Thelen JJ, Cheng J, et al. 2010. Genome sequence of the palaeopolyploid soybean. Nature. 463(7278):178–83.

Shendure J, Ji H. 2008. Next-generation DNA sequencing. Nature Biotech. 26(10):1135–45.

Tan KC, Tay A, Lee TH, Heng CM. 2002. Mining multiple comprehensible classification rules using genetic programming. Di dalam: Proceedings of the 2002 Congress on Evolutionary Computation, E ’02; 2002 Mei 12-17; Honolulu, Hawaii. Honolulu (HI): IEEE. hlm 1302–1307.

41 Ventura S, Romero C, Zafra A, Delgado JA, Hervás C. 2007. JCLEC: a Java

framework for evolutionary computation. Soft Comput. 12(4):381–392.

Vidal RO, Do Nascimento LC, Mondego JMC, Pereira GAG, Carazzolle MF. 2012. Identification of SNPs in RNA-seq data of two cultivars of Glycine max (soybean) differing in drought resistance. Genet Mol Biol. 35:331-334.

Zhu YL et al. 2003. Single-nucleotide polymorphism in soybean. Genetics. 163:1123-1134.

42

LAMPIRAN

Lampiran 1 Contoh cara perhitungan dari masing-masing fitur

Dokumen terkait