• Tidak ada hasil yang ditemukan

Simpulan

Pada penelitian ini dilakukan pengklasifikasian fragmen metagenom dengan menggunakan metode Support Vector Machine (SVM) dan Fast Correlation Based Filter sebagai penyeleksi fitur. Seleksi fitur merupakan salah satu tahapan praproses klasifikasi yang dilakukan dengan cara memilih fitur-fitur yang mampu memberikan hasil terbaik pada saat klasifikasi. Salah satu parameter yang digunakan dalam menyeleksi fitur adalah nilai threshold. Nilai threshold menentukan banyaknya fitur yang terseleksi, semakin tinggi nilai threshold jumlah fitur yang terseleksi semakin sedikit. Penggunaan nilai threshold yang berbeda menghasilkan akurasi klasifikasi yang berbeda juga.

Pada klasifikasi SVM dengan menggunakan ekstraksi fitur 3-mers dan tanpa seleksi fitur akurasi berkisar antara 84.93% sampai 99.01%, namun jika menggunakan seleksi fitur akurasi berkisar antara 79.13% sampai 96.68%. Adapun pada klasifikasi SVM dengan menggunakan ekstraksi fitur 4-mers dan tanpa seleksi fitur akurasi berkisar antara 87.6% sampai 99.44%, namun jika menggunakan seleksi fitur akurasi berkisar antara 83.59% sampai 99.35%.

Di sisi lain, klasifikasi SVM dengan menggunakan seleksi fitur dapat mereduksi waktu komputasi. Pada klasifikasi SVM dengan menggunakan panjang fragment 1 Kbp dan 4-mers untuk ekstraksi fitur, waktu komputasi klasifikasi dapat direduksi hingga 110 detik.

Setelah dilakukan analisis ragam dengan menggunakan taraf nyata 0.05, diperoleh informasi bahwa pada klasifikasi SVM dengan ektraksi fitur menggunakan 3-mers, seleksi fitur mempengaruhi nilai akurasi namun tidak mempengaruhi waktu komputasi. Adapun pada klasifikasi SVM dengan ekstraksi fitur menggunakan 4-mers, seleksi fitur tidak mempengaruhi akurasi tetapi berpengaruh secara signifikan terhadap waktu komputasi.

Saran

Beberapa saran untuk penelitian selanjutnya yaitu:

1 Menggunakan kombinasi metode klasifikasi dan algoritme seleksi fitur yang berbeda.

2 Menggunakan data dengan jumlah kelas yang lebih banyak, sehingga dapat melakukan prediksi untuk lebih banyak kelas dan untuk mengetahui bagaimana pengaruh algoritme FCBF jika digunakan pada kelas yang banyak.

3 Menggunakan data riil misal Sargasso Sea atau yang lainnya untuk menguji model yang dihasilkan oleh pelatihan SVM.

19

DAFTAR PUSTAKA

Abe T, Kanaya S, Kinouchi M, Ichiba Y, Kozuku T, Ikemura T. 2003. Informatics for unveiling hidden genome signatures.Genome Research. 179(4):693-701. doi:10.1101/gr.634603.

Amano K, Nakamura H, Ichikawa H. 2003. Self-organizing clustering : a novel non-hierarchical method for clustering large amountof sequece DNAs. Genome Informatics. 14: 575-576.

Boswell D. 2002.Introduction to support vector machine [Internet]. [diunduh 2014 Jun 23]. Tersedia pada: http://www.work.caltech.edu/~boswell/ IntroToSVM.pdf

Hsu AL, Halgamuge SK. 2002. Enhancement of topology preservation and hierarchical dynamic self-organizing maps for data visualisation. International Journal of Approximate Reasoning. 32(2003):259-279

Hsu CW, Lin CJ. 2002. A comparison of methods for multiclass support vector machine. IEEE Transactions on Neural Networks. 13(2):415–425. doi: 10.1109/72.991427.

Huson DH, Auch AF. Qi J, Schuster SC. 2007. MEGAN analysis of metagenomic data.Genome Research.17 : 1 – 11. doi : 10.1101/gr/5969107.

Kusuma WA, Akiyama Y. 2011. Metagenome fragments classification based on characterization vectors. Di dalam: Proceedings of International Conference on Bioinformatics and Biomedical Technology; 2011 Mar; Sanya, China. hlm 50-54

McHardy AC, Martin HG, Tsirigos A, Hugenholtz P, Rigoutsos I. 2007. Accurate phylogenetic classification of variable-lenght dna fragments. Nature Methods. 4(1):63-72. doi: 10.1016/j.mib.2007.08.004

Overbeek MV, Kusuma WA, Buono Agus. 2013. Clustering Metagenome Fragments Using Growing Self Organizing Map. ICACSIS 2013: 5th International Conference on Advanced Computer Science and Information

Systems; 2013 Sept; Bali. hlm 285-289. Doi: 10.1109/ICACSIS.2013.6761590.

Pati A, Heath LS, Kyrpides NC, Ivanova N. 2011.ClaMS : A classifier for metagenomic sequences. Standards in Genomic Science.5 : 248 –253. doi :10.4056/sigs.2075298

Quang Anh, Zhang Qian-Li, Li Xing. 2002.Evolving Support Vector Machine Parameters. Di dalam: Proceedingd of the First International Conference on Machine Learning and Cybernetics; 2002 Nov; Beijing.

Richter DC, Ott F, Auch AF, Schmid R, Huson DH. 2008. MetaSim:a sequencing simulator for genomics and metagenomics. PLoS ONE. 3(10):1–12. doi:10.1371/journal.pone.0003373.

Rodriguez AA, Bompada T, Syed M, Shah PK, Maltsev N. 2007. Evolutionary analysis of enzymes using chisel.Bioinformatics. 23( 22).

Rosen G, Garbarine E, Caseiro D, Polikar R, Sokhansanj B. 2008. Metagenome fragment classification using n-mer frequency profiles. Advances in Boinformatics. doi: 10.1155/2008/205969.

Teeling H, Waldmann J, Lombardot T, Bauer M, Glockner FO. 2004. TETRA : a web service and stand-alone program for the analysis and comparison of

20

tetranucleotide usage pattern in sequence DNAs. BMC Informatics.5(163). doi:10.1186/1471-2105-5-163.

Wooley JC, Godzik A, Friedberg I. 2010. A primer on metagenomics. PLos Computational Biology. 6(2):1–13. doi: 10.1371/journal.pcbi.1000667.

Woyke T, Teeling H, Ivanova NN, Hunteman M, Richter M, Gloeckner FO, Boffelli D, Anderson IJ, Barry KW, Shapiro HJ et al.2006. Symbiosis insights through metagenomic analysis of a microbial consortium. Nature. 443(7114): 950-5.

Wu H. 2008. PCA-based linear combinations of oligonucleotide frequencies for metagenomic DNA fragment binning. Di dalam: Computational Intelligence in Bioinformatics and Computational Biology 2008. hlm 46-53.

Wu X, Lee W, Tseng C. 2005. ESTmapper : efficiently aligning sequence DNAs to genomes. IEEE International Paralel and Distributed Processing Symposium. 204(2005) : 196 – 204. doi : 10.1109/IPDPS.2005.204.

Yu L, H Liu. 2003. Feature Selection for High Dimensional Data: A Fast Correlation-Based Filter Solution.

www.hpl.hp.com/conferences/icml2003/papers/144.pdf.

Zheng H, Wu H. 2009. A novel LDA and PCA-based hierarchical scheme for metagenomic fragment binning. IEEE Symposium on Computer Intelligence in Bioinformatics and Computational Biology. 9(2009): 53-59. doi: 10.1109/CIBCB.2009.4925707.

21 Lampiran 1 Daftar nama organisme data latih

No Nama Organisme No Nama Organisme

1 Bacillus amyloliquefaciens CC178 23 Clostridium botulinum A str. Hall chromosome 2 Bacillus amyloliquefaciens FZB42 24 Clostridium difficile B19 chromosome

3 Bacillus anthracis str. A0248 25 Clostridium kluyveri DSM 555 chromosome

4 Bacillus anthracis str. Ames chromosome

26 Corynebacterium diphtheriae NCTC 13129 chromosome 5 Bacillus cereus AH187

chromosome 27 Corynebacterium glutamicum ATCC 13032 6 Bacillus megaterium DSM 319 chromosome 28 Corynebacterium jeikeium K411 chromosome 7 Bordetella avium 197N chromosome 29 Corynebacterium urealyticum DSM 7109 chromosome 8 Bordetella bronchiseptica RB50 chromosome

30 Geobacter bemidjiensis Bem chromosome

9 Bordetella parapertussis 12822 chromosome

31 Geobacter sp. M18 chromosome 10 Burkholderia ambifaria AMMD

chromosome 1 32 Geobacter metallireducens GS-15 chromosome 11 Burkholderia cenocepacia AU 1054 chromosome 1 33 Helicobacter acinonychis str. Sheeba chromosome 12 Burkholderia cenocepacia HI2424 chromosome 1

34 Helicobacter hepaticus ATCC 51449 chromosome 13 Burkholderia cenocepacia J2315 chromosome 1 35 Helicobacter pylori G27 chromosome 14 Burkholderia cenocepacia MC0-3 chromosome 1

36 Helicobacter pylori HPAG1 chromosome

15 Burkholderia gladioli BSR3 chromosome 1

37 Lactobacillus acidophilus 30SC chromosome

16 Burkholderia mallei ATCC 23344 chromosome 1 38 Lactobacillus amylovorus GRL 1112 chromosome 17 Burkholderia mallei NCTC 10229 chromosome I 39 Lactobacillus buchneri NRRL B-30929 chromosome

18 Burkholderia mallei SAVP1 chromosome I

40 Lactobacillus casei str. Zhang chromosome

19 Burkholderia sp. 383 chromosome 1

41 Lactobacillus delbrueckii subsp. bulgaricus ND02 chromosome 20 Clostridium acetobutylicum

ATCC 824 chromosome

42 Mycobacterium abscessus chromosome

21 Clostridium beijerinckii NCIMB 8052 chromosome 43 Mycobacterium avium 104 chromosome 22 Clostridium botulinum A str. ATCC 19397 chromosome 44 Mycobacterium bovis AF2122/97 chromosome

22

Lampiran 1 Lanjutan

No Nama Organisme No Nama Organisme

45 Mycobacterium leprae TN chromosome

48 Staphylococcus epidermidis ATCC 12228 chromosome 46 Staphylococcus aureus subsp.

aureus COL chromosome

49 Staphylococcus haemolyticus JCSC1435 chromosome 47 Staphylococcus aureus subsp.

aureus JH1 chromosome

50 Staphylococcus lugdunensis N920143

23 Lampiran 2 Daftar nama organisme data uji

No Nama Organisme No Nama Organisme

1 Bacillus amyloliquefaciens DSM7 16 Corynebacterium resistens DSM 45100 chromosome

2 Bacillus anthracis str. CDC 684 chromosome

17 Geobacter daltonii FRC-32 chromosome

3 Bacillus cereus ATCC 10987 18 Geobacter sp. M21 chromosome 4 Bacillus cereus Q1 chromosome 19 Helicobacter felis ATCC 49179

chromosome

5 Bordetella bronchiseptica 253 20 Helicobacter pylori B38 chromosome

6 Bordetella parapertussis Bpp5 21 Lactobacillus acidophilus NCFM chromosome

7 Burkholderia ambifaria MC40-6 chromosome 1

22 Lactobacillus brevis ATCC 367 8 Burkholderia cepacia GG4

chromosome 1

23 Lactobacillus delbrueckii subsp. bulgaricus ATCC 11842

chromosome 9 Burkholderia mallei NCTC 10247

chromosome I

24 Lactobacillus gasseri ATCC 33323 chromosome 10 Burkholderia sp. CCGE1001 chromosome 1 25 Mycobacterium africanum GM041182 chromosome 11 Burkholderia sp. YI23 chromosome 1 26 Mycobacterium bovis BCG str. Tokyo 172 chromosome 12 Clostridium botulinum A str. ATCC 3502 chromosome 27 Mycobacterium leprae Br4923 chromosome 13 Clostridium difficile CD196 chromosome

28 Staphylococcus aureus subsp. aureus JH9 chromosome 14 Clostridium kluyveri NBRC

12016

29 Staphylococcus aureus subsp. aureus MSSA476 chromosome 15 Corynebacterium aurimucosum

ATCC 700975 chromosome

30 Staphylococcus lugdunensis HKU09-01 chromosome

24

Lampiran 3 Daftar tingkat taksonomi (genus)

Lampiran 4 Daftar hasil grid search No Genus 1 Bacillus 2 Bordetella 3 Burkholderia 4 Clostridium 5 Corynebacterium 6 Geobacter 7 Helicobacter 8 Lactobacillus 9 Mycobacterium 10 Staphylococcus

Nilai parameter c dan γ terbaik yang didapat pada tahap grid search (3-mers) Fullsets FCBF (threshold = 0) Panjang fragmen (Kbp) Parameter Panjang fragmen(Kbp) Parameter c γ (gamma) c γ (gamma) 0.5 2 1 0.5 4 2 1.0 2 2 1.0 4 1 3.0 4 1 3.0 4 4 5.0 16 5 5.0 16 4

Nilai parameter c dan γ terbaik yang didapat pada tahap grid search (4-mers) Fullsets FCBF (threshold = 0) Panjang fragmen (Kbp) Parameter Panjang fragmen(Kbp) Parameter c γ (gamma) c γ (gamma) 0.5 1 0.25 0.5 2 0.5 1.0 4 0.25 1.0 4 1 3.0 4 0.25 3.0 4 0.5 5.0 8 0.25 5.0 4 0.5

25 Lampiran 5 Daftar waktu komputasi klasifikasi SVM tanpa seleksi fitur dan

dengan seleksi fitur Panjang

fragmen (Kbp)

3-mers 4-mers

Fullsets FCBF Fullsets FCBF 0.5 249 detik 182 detik 677 detik 632 detik 1.0 150 detik 103 detik 713 detik 603 detik 3.0 72 detik 41 detik 200 detik 142 detik 5.0 31 detik 23 detik 139 detik 107 detik

26

Lampiran 6 Hasil analisis ragam untuk melihat pengaruh seleksi fitur dan panjang fragmen terhadap akurasi klasifikasi

Keterangan:

Columns : Fitur (seleksi fitur dan tanpa seleksi fitur) Rows : Panjang fragmen

Lampiran 7 Hasil analisis ragam untuk melihat pengaruh seleksi fitur dan panjang fragmen terhadap waktu komputasi klasifikasi

Keterangan:

Columns : Fitur (seleksi fitur dan tanpa seleksi fitur) Rows : Panjang fragmen

Ekstraksi fitur menggunakan 3-mers Ekstraksi fitur menggunakan 4-mers Ekstraksi fitur menggunakan 3-mers Ekstraksi fitur menggunakan 4-mers

27

Lampiran 8 Confusion matrix hasil dari klasifikasi SVM dengan ekstraksi fitur menggunakan 3-mers pada data dengan panjang fragmen 0.5 Kbp

Genus hasil prediksi Genus asal Bacillus Bordetella Burkholde

ria Clostridi um Corynebac terium Geobacter Helicobac ter Lactobacil lus Mycobac terium Staphyloco ccus Bacillus 1959 3 2 102 12 15 18 57 4 228 Bordetella 0 2162 66 0 43 29 2 1 97 0 Burkholderia 3 73 2186 0 36 22 0 1 79 0 Clostridium 59 1 0 2220 4 17 13 21 0 65 Corynebacterium 5 95 15 1 1741 333 0 26 183 1 Geobacter 63 52 3 8 147 1944 4 136 38 5 Helicobacter 6 0 0 7 34 2 2330 12 0 9 Lactobacillus 105 1 0 61 53 24 39 1770 10 337 Mycobacterium 4 85 34 0 207 39 0 6 2025 0 Staphylococcus 160 0 0 88 9 2 19 76 0 2046 27

28

Lampiran 9 Confusion matrix hasil dari klasifikasi SVM dengan ekstraksi fitur menggunakan 3-mers dan seleksi fitur (threshold 0) untuk data dengan panjang fragmen 0.5 Kbp

Genus asal

Genus hasil prediksi Bacillus Bordetella Burkholde

ria Clostridi um Corynebac terium Geobacter Helicobac ter Lactobacil lus Mycobac terium Staphylo coccus Bacillus 1858 1 1 108 13 13 65 98 3 240 Bordetella 2 2042 92 1 68 40 0 1 153 1 Burkholderia 3 141 2116 0 48 16 0 2 74 0 Clostridium 62 0 0 2215 3 14 17 25 0 64 Corynebacterium 8 186 17 1 1455 513 1 32 187 0 Geobacter 71 44 2 7 310 1698 6 189 66 7 Helicobacter 26 0 0 7 36 1 2279 30 0 21 Lactobacillus 186 1 0 87 63 39 62 1458 16 488 Mycobacterium 7 146 43 0 231 53 0 9 1911 0 Staphylococcus 179 0 0 100 3 1 43 115 0 1959 28

29 Lampiran 10 Tampilan sistem hasil implementasi

1 Tampilan awal sistem

30

Dokumen terkait