Klasifikasi Fragmen Metagenome Menggunakan Metode Support Vector Machine (SVM)

(1)

KLASIFIKASI FRAGMEN

METAGENOME

MENGGUNAKAN

METODE

SUPPORT VECTOR MACHINE

(SVM)

ARINY

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)

(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Fragmen Metagenome Menggunakan Metode Support Vector Machine (SVM) adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

(4)

ABSTRAK

ARINY. Klasifikasi Fragmen Metagenome Menggunakan Metode Support Vector Machine (SVM). Dibimbing oleh WISNU ANANTA KUSUMA dan MUSHTHOFA.

Analisis metagenome merupakan salah satu bidang kajian bioinformatika yang penting. Bidang ini terkait dengan analisis sequences genom yang diperoleh langsung dari lingkungan. Tujuan penelitian ini adalah melakukan klasifikasi fragmen metagenome ke dalam beberapa taksonomi dengan menggunakan metode support vector machine (SVM). Proses ekstraksi fitur dilakukan dengan menggunakan spaced k-mers. Proses klasifikasi diawali dengan membuat model menggunakan data latih dari 381 organisme. Berdasarkan hasil penelitian ini dapat diketahui bahwa nilai akurasi untuk fragmen berukuran pendek (400 bp) ialah 65.3% pada takson genus dan 82.1% pada takson filum. Sementara itu, nilai akurasi meningkat secara signifikan menjadi 95.4% pada takson genus dan 97.6% pada takson filum, ketika menggunakan fragmen yang berukuran panjang (10 Kbp). Dari hasil tersebut dapat disimpulkan bahwa nilai akurasi akan semakin tinggi seiring dengan semakin panjangnya ukuran fragmen dan semakin tingginya tingkat taksonomi. Selain itu, dari hasil penelitian juga dapat disimpulkan bahwa metode ekstraksi fitur yang digunakan sudah sangat baik dan menghasilkan data dengan kondisi linearly separable.

Kata kunci: binning, metagenome, spaced k-mers, SVM

ABSTRACT

ARINY. Metagenome Fragment Binning Using Support Vector Machine (SVM) Method. Supervised by WISNU ANANTA KUSUMA and MUSHTHOFA.

Metagenome analysis is one of the most important bioinformatics field. This field is related to genome which is taken directly from the environment. The purpose of this research is to classify metagenome fragment into some taxonomic levels using support vector machine (SVM) method. Feature extraction is performed using spaced k-mers. Classification process is conducted by creating model using the training data from 381 organisms. The evaluation results show that the accuracies for short fragments (400 bp) are 65.3% and 82.1% at genus level and phylum level, respectively. Meanwhile, the accuracies increase significantly for long fragments (10 kbp), with a value of 95.4% at genus level and 97.6% at phylum level. It can be stated that the accuracy will be increased with the increasing of fragments length and higher taxonomic levels. In addition, the results of the study also conclude that the feature extraction methods used was very good and produce data with linearly separable conditions.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada

Departemen Ilmu Komputer

KLASIFIKASI FRAGMEN

METAGENOME

MENGGUNAKAN

METODE

SUPPORT VECTOR MACHINE

(SVM)

ARINY

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(6)

(7)

Judul Skripsi : Klasifikasi Fragmen Metagenome Menggunakan Metode Support Vector Machine (SVM)

Nama : Ariny NIM : G64090055

Disetujui oleh

Dr Wisnu Ananta Kusuma, ST MT Pembimbing I

Mushthofa, SKom MSc Pembimbing II

Diketahui oleh

Dr Ir Agus Buono, MSi MKom Ketua Departemen

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Shalawat dan salam penulis sampaikan kepada Nabi Muhammad shallallahu ‘alaihi wasallam, keluarganya, sahabatnya, serta umatnya hingga akhir zaman. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan September 2012 ini ialah klasifikasi fragmen metagenome, dengan judul Klasifikasi Fragmen Metagenome Menggunakan Metode Support Vector Machine (SVM).

Terima kasih penulis ucapkan kepada seluruh pihak yang telah berperan dalam penelitian ini, yaitu:

1 Ayahanda Arnedy Syamsu, Ibunda Dona Elfira, Kakak Ohayyo Randy Akbar, serta Aditya Ramadhan atas kasih sayang, doa, semangat, dan dorongan kepada penulis sehingga dapat menyelesaikan penelitian ini.

2 Bapak Dr Wisnu Ananta Kusuma, ST MT dan Bapak Mushthofa, SKom MSc selaku pembimbing, yang telah memberikan banyak ide, masukan, dan dukungan kepada penulis.

3 Bapak Prof. Antonius Suwanto yang telah bersedia menjadi penguji, dan memberikan saran yang berharga sehingga tulisan ini menjadi lebih baik dari sebelumnya.

4 Rekan-rekan terdekat Anisaul Muawwanah, Sabarina Hidayat, Husnul Khotimah, Dewi Humaira, Dian Lestari Auliani, Lizza Amini Gumilar, dan Viani Rahmawati yang telah memberi dukungan dan bantuan.

5 Aries Fitriawan, Muhammad Luthfi Fajar, Erwin Musa, dan Aditya Erlangga yang telah membantu mengatasi kesulitan pemrograman yang penulis hadapi. 6 Rekan-rekan Ilmu Komputer angkatan 46 yang saling menyemangati selama

pengerjaan penelitian di tahun yang sama.

7 Seluruh rekan satu bimbingan Bapak Wisnu yang tidak dapat disebutkan satu persatu dan pihak-pihak lainnya.

Semoga penelitian dan tulisan ini dapat memberikan manfaat.

(9)

DAFTAR ISI

DAFTAR TABEL vii

DAFTAR GAMBAR vii

DAFTAR LAMPIRAN vii

PENDAHULUAN 1

Latar Belakang 1

Perumusan Masalah 2

Tujuan Penelitian 2

Manfaat Penelitian 3

Ruang Lingkup Penelitian 3

METODE 3

Pengumpulan Data 4

Pembagian Data 4

Praproses Data 4

Ekstraksi Fitur 4

Support Vector Machine (SVM) 5

Grid Search 7

Pelatihan SVM 7

Pengujian SVM 7

Analisis 7

Implementasi 8

HASIL DAN PEMBAHASAN 8

Pembagian Data 8

Praproses Data 9

Ekstraksi Fitur 9

Grid Search 10

Klasifikasi SVM 10

Analisis 11

Implementasi 18

SIMPULAN DAN SARAN 18

Simpulan 18

Saran 19

(10)

(11)

DAFTAR TABEL

1 Hasil akurasi berdasarkan tingkat taksonomi dan panjang fragmen 11 2 Perbandingan waktu komputasi pembuatan model pada setiap kernel 15 3 Daftar organisme yang memiliki similarity dari hasil alignment

Burkholderia sp JV3 pada BLAST 17

DAFTAR GAMBAR

1 Tahapan penelitian 3

2 Pola spaced k-mers dengan parameter w = 3 dan d = 0, 1, 2 (Kusuma

2012) 5

3 Kondisi linearly separable dengan hyperlane yang memiliki margin

terbesar 5

4 Contoh hasil praproses data dengan jumlah fragmen 9600 dan panjang

fragmen 400 bp 9

5 Hasil grid search mengeluarkan nilai parameter c dan γ terbaik serta

akurasi 5-cross validation 10

6 Hasil akurasi berdasarkan tingkat taksonomi dan panjang fragmen 12

7 Perbandingan akurasi pada takson order, kelas, dan filum bila

pembuatan model dilakukan untuk takson genus saja ( ) dan untuk setiap

takson ( ) 13

8 Sensitivity takson genus 13

9 Specificity takson genus 14

10 Sensitivity takson filum 14

11 Specificity takson filum 14

12 Akurasi menggunakan 4 fungsi kernel berbeda untuk panjang fragmen 10

Kbp dan takson genus 15

13 Hasil klasifikasi data uji Burkholderia sp JV3 (genus Stenotrophomonas)

pada panjang fragmen 400 bp 16

pada panjang fragmen 1 Kbp 16

pada panjang fragmen 10 Kbp 16

DAFTAR LAMPIRAN

1 Daftar nama organisme data latih 21

2 Daftar nama organisme data uji 30

3 Daftar tingkat taksonomi yang digunakan mulai dari genus, order, kelas

dan filum 35

4 Daftar hasil praproses data yang menyatakan jumlah sequence di setiap tingkat takson dan panjang fragmennya untuk data latih 37 5 Daftar hasil praproses data yang menyatakan jumlah sequence di setiap

(12)

6 Nilai parameter c dan γ terbaik yang didapat pada tahap grid search 43 7 Perbandingan akurasi yang dihasilkan dari pembuatan model hanya pada

takson genus dengan pembuatan model disetiap tingkat takson 44

(13)

PENDAHULUAN

Latar Belakang

Analisis metagenome merupakan salah satu bidang kajian bioinformatika yang penting dan akan terus berkembang. Studi yang mempelajari metagenome ini disebut metagenomics. Berbeda dengan studi yang mempelajari genom (genomics), metagenomics tidak memerlukan pure clonal cultures dari sequencing individu tertentu. DNA yang berasal dari berbagai organisme dalam suatu komunitas mikrob dapat diperoleh melalui proses sequencing secara langsung (McHardy dan Rigoutsos 2007).

Proses DNA sequencing komunitas mikrob secara langsung ini menghasilkan fragmen-fragmen dari berbagai organisme yang bercampur. Kondisi ini memungkinkan fragmen dari suatu organisme memiliki overlap dengan fragmen dari organisme lain. Kondisi ini dapat menyebabkan kesalahan perakitan fragmen-fragmen yang terkandung di dalam komunitas tersebut dan menghasilkan cymeric contigs (Wooley et al. 2010). Untuk meminimalkan cymeric contigs, salah satu solusinya adalah dengan melakukan sequence assembly dan binning secara berulang. Proses binning dalam persepktif ilmu komputer dapat dilakukan dengan metode supervised atau unsupervised learning. Pada metode supervised learning, fragmen-fragmen diklasifikasikan berdasarkan level taksonomi tertentu, misalnya yang paling rendah ialah level genus, mengingat sulitnya mengklasifikasikan fragmen pada level spesies.

Beberapa peneliti telah melakukan penelitian yang terkait dengan pengklasifikasian fragmen metagenome ini. McHardy et al. (2007) melakukan penelitian untuk mengklasifikasikan fragmen metagenome dengan menggunakan data latih 340 organisme. Metode yang digunakan ialah multiclass support vector machine (SVM) dengan frekuensi k-mers sebagai fiturnya. Aplikasi yang dibangun dinamai PhyloPythia. Hasil akurasi yang diperoleh terbilang cukup tinggi khususnya untuk panjang fragmen ≥ 5 Kbp yaitu antara 60% sampai ˃ 90% di setiap tingkat takson. Tetapi akurasi ini terus menurun dengan signifikan jika menggunakan fragmen dengan panjang ≤ 3 Kbp. Pada fragmen dengan panjang 3 Kbp hanya diperoleh akurasi sebesar 40% sedangkan untuk panjang fragmen 1 Kbp akurasi yang diperoleh < 10%. Selain itu, PhyloPythia menggunakan 5-mers, yang berarti matriks fitur yang dihasilkan memiliki dimensi 45 = 1024. Proses ekstraksi fitur yang melibatkan dimensi yang besar ini memerlukan waktu komputasi yang tinggi.

(14)

2

sama. Penelitian ini hanya mengklasifikasikan organisme ke dalam tingkat takson genus. Organisme-organisme tersebut merupakan anggota dari 3 jenis genus berbeda. Hasil akurasi yang diperoleh dari penelitian ini cukup tinggi yaitu 78% untuk panjang fragmen 500 bp sampai dengan 87% untuk panjang fragmen 10 Kbp. Namun, ketika metode ini diterapkan pada dataset berukuran besar (374 organisme), akurasi yang diperoleh menurun secara signifikan, yaitu sebesar 30% untuk panjang fragmen 1 Kbp pada level genus.

Oleh karena itu, untuk mengatasi masalah komputasi yang disebabkan oleh dimensi fitur yang besar dan menurunnya akurasi jika menggunakan dataset dari komunitas organisme yang besar, pada penelitian ini diusulkan metode multiclass SVM dengan frekuensi spaced k-mers sebagai fiturnya. Fitur hasil ekstraksi dengan menggunakan spaced k-mers hanya terdiri atas 192 dimensi. Adapun dataset yang digunakan untuk data latih terdiri atas 381 organisme dan untuk data uji terdiri atas 200 organisme. Fragmen DNA dari organisme tersebut akan diklasifikasikan ke dalam tingkat takson genus, order, kelas, dan filum. Selain itu juga digunakan 4 fungsi kernel berbeda pada pelatihan SVM untuk mengetahui kernel yang dapat menghasilkan model terbaik untuk pengklasifikasian fragmen metagenome.

Perumusan Masalah

Adapun permasalahan yang akan menjadi bahan analisis pada penelitian ini ialah:

1 Berapa akurasi yang dapat diperoleh jika digunakan metode SVM dengan 4 fungsi kernel yang akan diterapkan pada penelitian ini?

2 Bagaimana pengaruh panjang fragmen yang digunakan terhadap hasil akurasi? 3 Bagaimana kinerja metode klasifikasi yang diusulkan ini ketika melakukan

pengklasifikasian fragmen metagenome yang berasal dari organisme-organisme baru?

4 Apakah pembuatan model untuk setiap tingkat takson bisa menghasilkan akurasi yang lebih baik bila dibandingkan dengan pembuatan model pada takson genus saja?

Tujuan Penelitian

Tujuan penelitian ini ialah:

1 Mengklasifikasikan fragmen metagenome ke dalam tingkat taksonominya dengan metode SVM menggunakan 4 fungsi kernel. Keempat kernel yang digunakan yaitu Gaussian radial basis function (RBF), linear (polinomial berderajat 1), kuadratik (polinomial berderajat 2), dan polinomial berderajat 3. 2 Mengetahui pengaruh panjang fragmen yang digunakan terhadap hasil akurasi. 3 Mengetahui kinerja metode pengklasifikasian terhadap fragmen yang berasal

dari organisme baru.

(15)

3

Manfaat Penelitian

Manfaat dari penelitian ini diharapkan dapat memberikan kontribusi untuk mendukung proses analisis metagenome sequence.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini meliputi:

1 Data latih terbatas hanya 381 organisme yang termasuk dalam 48 genus, 31 order, 20 kelas, dan 13 filum.

2 Data uji terbatas hanya 200 organisme yang termasuk dalam taksonomi yang sama dengan data latih, dengan tambahan 1 genus yang tidak ada pada modelnya pada data latih untuk mengetahui kinerja pengklasifikasian SVM. 3 Fragmen yang digunakan dihasilkan dari perangkat lunak MetaSim yang

mensimulasikan Illumina sequencer. Fragmen yang dihasilkan memiliki panjang yang tetap dan tidak mengandung sequencing error.

4 Level taksonomi yang digunakan yaitu genus, order, kelas, dan filum.

METODE

Penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan pada Gambar 1.

Gambar 1 Tahapan penelitian

Mulai

Data metagenome NCBI

Pembagian data

Praproses data Praproses data

Data training Data testing

Ekstrasi fitur Ekstrasi fitur

SVM

Pelatihan SVM

Pengujian SVM Grid search

Selesai Analisis

(16)

4

Pengumpulan Data

Data latih dan data uji yang digunakan pada penelitian ini ialah data metagenome yang diunduh dari situs National Centre for Biotechnology Information (NCBI). NCBI merupakan suatu institusi yang fokus di bidang biologi molekuler dan menjadi sumber informasi untuk perkembangan bidang tersebut. Data metagenome ini merupakan sequence DNA organisme dengan format FastA. Alamat untuk mengunduh data ini yaitu ftp://ftp.ncbi.nih.gov/ genomes/Bacteria/.

Pembagian Data

Pada penelitian ini organisme yang digunakan terbatas pada 381 organisme untuk data latih, dan 200 organisme untuk data uji. Pemilihan data uji dilakukan dengan mengambil organisme selain data latih yang juga termasuk ke dalam genus yang sama, serta 1 genus yang tidak termasuk dalam data latih. Pengambilan data uji yang tidak ada modelnya pada data latih ini untuk melihat kinerja hasil pengklasifikasiannya.

Praproses Data

Pada tahap praproses data, sequence DNA metagenome yang sudah dipilih lalu diuraikan fragmennya menggunakan perangkat lunak MetaSim (Richter et al. 2008). MetaSim adalah perangkat lunak untuk mensimulasikan sequencer. Data yang diproses dibaca berulang kali disesuaikan dengan kebutuhan penelitian. Pada penelitian ini data yang disiapkan untuk data latih berjumlah 9600 dan 320 ribu fragmen, sedangkan untuk data uji berjumlah 100 ribu fragmen. Panjang fragmen yang ditetapkan untuk setiap kali pengolahan yaitu 400 bp, 800 bp, 1 Kbp, 3 Kbp, 5 Kbp, dan 10 Kbp. Maka akan dilakukan 12 kali pengolahan untuk data latih dan 6 kali pengolahan untuk data uji, sehingga dihasilkan 18 fail FastA yang berisi fragmen sesuai dengan kebutuhan penelitian. Data latih dengan jumlah fragmen 9600 disiapkan sebagai data pendekatan pencarian parameter terbaik untuk kernel, sedangkan data latih dengan jumlah fragmen 320 ribu menjadi data masukan untuk pembuatan model. Penggunaan data latih kecil sebagai pendekatan pencarian paramater terbaik ini didasarkan pada percobaan yang dilakukan oleh McHardy et al. (2007).

Ekstraksi Fitur

Proses selanjutnya ialah ekstraksi fitur, tahapan ini dilakukan untuk data latih dan data uji. Metode ekstraksi fitur yang digunakan ialah spaced k-mers. Ada 2 buah variabel yang berpengaruh pada metode ekstraksi fitur ini, yaitu w (weight of pattern) adalah banyaknya posisi yang cocok, dan d adalah jumlah posisi don’t care. Mengacu pada penelitian Kusuma (2012), pola terbaik spaced k-mers dengan nilai w = 3 dan d = 0, 1, 2 dapat dilihat pada Gambar 2.

(17)

5

maupun G. Kemudian untuk simbol ** berarti diperbolehkan pasangan basa apapun mengisi 2 bit tersebut, sehingga kondisi ini dapat diisi oleh 24 pasang basa mulai dari AA, AC, AT, AG, dan seterusnya hingga GG.

Support Vector Machine (SVM)

SVM merupakan metode pengklasifikasian biner yang dikembangkan oleh Vladimir Vapnik tahun 1995. Konsep dasar pembelajaran SVM ini ialah menemukan hyperplane (bidang pemisah) terbaik yang dapat memisahkan d-dimensi data dengan sempurna ke dalam 2 kelas (kelas +1 dan kelas -1). Secara intuitif, hyperplane yang dicari ialah yang dapat memaksimumkan jarak geometri hyperplane ke support vector-nya. Jarak tersebut diistilahkan dengan margin (Boswell 2002).

Menurut Osuna et al. (2007) linearly separable data merupakan suatu kondisi data yang dapat dipisahkan secara linear. Pada Gambar 3 diilustrasikan kondisi lineraly separable dengan hyperlane yang memiliki margin terbesar. Himpunan _n adalah dataset dan _i - adalah label kelas dari data _i. Kondisi linearly separable terpenuhi jika dapat dicari pasangan (w, b) sedemikian sehingga:

Gambar 3 Kondisi linearly separable dengan hyperlane yang memiliki margin terbesar

(18)

6

w i b ≥ i ke as

w i b ≤ i ke as

dengan w adalah bidang normal dan b adalah posisi bidang relatif terhadap pusat koordinat. Kemudian, ruang hipotesis untuk data tersebut ialah set fungsi yang diberikan oleh:

_{w b} sign w b 3

Setelah dilakukan penyelesaian dengan formula Lagrangian menggunakan Lagrange multipier dan normalisasi parameter w, maka fungsi keputusan untuk menentukan kelas dari data uji x adalah:

sign ∑ _i i i

l

i

b

dengan = koefisien Lagrange multipier.

Salah satu kendala dalam pengklasifikasian ialah ketersediaan data yang besar dan beragam yang dapat mengakibatkan data tersebut tidak dapat dipisahkan secara linear. Untuk kasus ini SVM memperkena kan “kernel” yang dapat merepresentasikan atau mentransformasikan data ke dimensi lebih tinggi (lebih besar dari 2) dengan fungsi transformasi . Sehingga, data yang sudah berada di dimensi lebih tinggi tersebut dapat dengan mudah dipisahkan dengan hyperplane secara linear (Boswell 2002). Jika terdapat sebuah fungsi kernel K

sehingga _i _i , maka fungsi transformasi tidak perlu diketahui

secara tepat. Dengan demikian fungsi yang dihasilkan dari pelatihan adalah:

sign ∑ _i i i

l

i

b . 5

Terdapat 3 kernel yang biasa digunakan dalam SVM, yaitu sebagai berikut (Osuna et al. 1997) :

1 Gaussian radial basis function (RBF):

e p -‖ - ‖ (6)

2 Polinomial dengan derajat d:

d, (7)

3 Multi layer perceptron (untuk beberapa nilai θ :

tanh - θ . (8)

(19)

7 Grid Search

Setelah diperoleh fitur, tahap selanjutnya ialah grid search menggunakan data latih dengan jumlah fragmen 9600. Tahapan ini dilakukan dengan fungsi grid search. Fungsi grid search mengeluarkan nilai parameter terbaik yang dibutuhkan saat pembentukan model (tahap pelatihan) menggunakan kernel RBF dan polinomial. Parameter untuk kernel RBF adalah cost (c) dan gamma (γ), sedangkan untuk kernel polinomial adalah cost (c), gamma (γ), degree (d), dan koeff 0 (r). Akan tetapi, parameter r pada polinomial yang dipakai hanya nilai default-nya saja yaitu 0. Selain mengeluarkan nilai parameter terbaik, fungsi ini juga mengeluarkan akurasi 5-cross validation dari data latih.

Cross-validation merupakan metode statistika untuk mengevaluasi dan membandingkan algoritme pembelajaran dengan membagi data menjadi dua bagian. Satu bagian untuk melatih model dan bagian lainnya untuk memvalidasi model tersebut. Salah satu bentuk cross-validation adalah k-fold cross-validation. K-fold cross-validation akan membagi data menjadi k bagian berukuran sama. Secara bertahap akan dilakukan pelatihan dan validasi sebanyak k ulangan. Sehingga dalam setiap perulangan k-1 bagian akan menjadi data latih, dan 1 bagian sisanya akan digunakan untuk validasi (Refaeilzadeh et al. 2009).

Pelatihan SVM

Proses pelatihan SVM dilakukan untuk data latih hasil ekstraksi fitur dengan jumlah fragmen 320 ribu. Dalam pelatihan ini, akan diterapkan pelatihan menggunakan 4 fungsi kernel, yaitu kernel RBF, linear, kuadratik, dan polinomial berderajat 3.

Pengujian SVM

Hasil dari pelatihan SVM sebelumnya ialah sebuah model yang akan diuji menggunakan hasil ekstraksi fitur dari data uji. Pengujian akan mengklasifikasikan data uji sebanyak 200 organisme ke dalam kelas taksonominya. Semua organisme yang telah dikelaskan menghasilkan persentase hasil pengklasifikasiannya.

Analisis

Dari hasil pelatihan dan pengujian SVM dengan 4 fungsi kernel yang berbeda, akan didapatkan hasil untuk kinerja algoritme SVM ini. Kemudian akurasi untuk hasil klasifikasi dapat dicari dengan menggunakan rumus:

akurasi ∑data uji benar_∑_{data uji} 00% 9

(20)

8

kecil, sedang, dan besar. Rumus yang digunakan untuk menghitung nilai sensitivity dan specificity, yaitu:

sensiti it ∑ true ositi es

∑ true ositi es ∑ alse ne ati es 00% 0

s eci icit _∑ _{true ne ati es}∑ true ne ati es

∑ alse ositi es 00% dengan true positive adalah data uji kelas x yang diklasifikasikan ke kelas x, true negative adalah data uji kelas x yang diklasifikasikan ke kelas selain x, false positive adalah data uji kelas selain x yang diklasifikasikan ke kelas x, dan false negative adalah data uji kelas selain x yang diklasifikasikan ke kelas selain x, dengan kelas x adalah kelas yang akan dihitung nilai sensitivity dan specificity-nya.

Setelah seluruh perhitungan nilai akurasi, sensitivity, dan specificity dari hasil kinerja pengklasifikasian fragmen metagenome menggunakan SVM ini didapat, beberapa hal yang akan menjadi bahan analisis ialah:

1 pengaruh panjang fragmen yang digunakan terhadap hasil akurasi, 2 hasil sensitivity dan specificity yang didapat,

3 penggunaan 4 fungsi kernel berbeda pada pelatihan SVM, dan

4 hasil pengklasifikasian data uji yang tidak ada modelnya pada data latih.

Implementasi

Implementasi sistem dilakukan dalam lingkungan pengembangan sebagai berikut:

1 bahasa pemrograman : PHP,

2 library komputasi : LibSVM 3.12, dan 3 database management system (DBMS) : MySQL.

Sistem yang dikembangkan memiliki fungsi utama yaitu melakukan prediksi tingkat taksonomi suatu sequence DNA. Data masukkan untuk sistem ini ialah sebuah sequence DNA, dan keluarannya ialah tingkat taksonominya. Tingkat taksonomi yang akan ditampilkan sebagai hasil prediksi yaitu genus, order, kelas, dan filum. Sistem ini se anjutnya dinamai “Metagenome Binning”.

HASIL DAN PEMBAHASAN

Pembagian Data

(21)

9 suatu kelas yang tidak ada modelnya. Untuk daftar taksonomi yang digunakan dapat dilihat pada Lampiran 3.

Praproses Data

Pada tahap praproses data, sequence DNA metagenome yang sudah dibagi menjadi data latih dan data uji akan diuraikan fragmennya menggunakan perangkat lunak MetaSim. Pada penelitian ini data yang dipersiapkan untuk data latih dibaca sebanyak 9600 dan 320 ribu kali. Sehingga didapat 9600 dan 320 ribu fragmen data latih yang diurai dari 381 organisme. Sedangkan untuk data uji dibaca sebanyak 100 ribu kali. Sehingga didapat 100 ribu fragmen data uji yang diurai dari 200 organisme. Hasil praproses data yang menyatakan jumlah sequence di setiap tingkat takson dan setiap panjang fragmen untuk data latih dan data uji dapat dilihat pada Lampiran 4 dan Lampiran 5.

Pada setiap praproses data yang dilakukan, ditentukan 6 panjang fragmen yang akan digunakan yaitu 400 bp, 800 bp, 1 Kbp, 3 Kbp, 5 Kbp, dan 10 Kbp. Keluaran dari pengolahan MetaSim ini ialah fail FastA yang berisi sequence DNA yang sudah terfragmen sesuai dengan nilai parameter yang dimasukkan. Berikut contoh hasil praproses data untuk data latih dengan jumlah fragmen 9600 dan panjang fragmen 400 bp pada Gambar 4.

Ekstraksi Fitur

Metode ekstraksi fitur yang digunakan ialah spaced k-mers dengan nilai w = 3 dan d = 0, 1, 2 yang merupakan pola terbaik yang akan menghasilkan akurasi terbesar dari klasifikasi menurut Kusuma (2012). Hasil dari proses ekstraksi fitur ialah frekuensi tri-nukleotida dari fragmen DNA, sehingga akan terdapat 192 kombinasi tri-nukleotida mulai dari AAA sampai GGG, A*AA sampai G*GG, dan A**AA sampai G**GG.

...

(22)

10

Berikut contoh hasil ekstraksi fitur untuk data latih takson genus dengan jumlah fragmen 9600 dan panjang fragmen 400 bp:

1 1:12 2:4 3:5 4:10 5:4 6:3 7:1 8:9 9:4 10:8 11:9 12:3 13:11 ... 190:13 191:6 192:13 1 1:23 2:7 3:11 4:8 5:5 6:5 7:1 8:9 9:8 10:9 11:10 12:11 13:5 ... 190:8 191:4 192:4 1 1:7 2:2 3:11 4:5 5:1 6:5 7:3 8:5 9:7 10:14 11:5 12:5 13:6 ... 190:3 191:3 192:3 ... ... 48 1:18 2:6 3:7 4:8 5:6 6:11 7:7 8:2 9:7 10:5 11:9 12:8 13:2 ... 190:7 191:5 192:3 48 1:14 2:11 3:12 4:5 5:3 6:10 7:6 8:5 9:12 10:5 11:10 12:6 13:2 ... 190:5 191:3 192:5

Grid Search

Fungsi grid search pada LibSVM akan mengeluarkan nilai parameter yang dibutuhkan oleh kernel RBF dan polinomial. Nilai parameter tersebut akan didapat dengan melakukan proses cross validation dengan k = 5. Parameter yang

dibutuhkan untuk RBF ia ah gamma γ sedangkan untuk polinomial ialah

gamma γ degree (d), dan koeff 0 (r). Salah satu hasil grid search yang didapat

untuk data latih takson genus dengan jumlah fragmen 9600 dan panjang fragmen 400 bp dapat dilihat pada Gambar 5. Dari gambar tersebut ditunjukkan bahwa nilai terbaik untuk c 8 dan γ 0. 5 dengan akurasi 5-cross validation = 59.6%. Hasil grid search lainnya dari setiap data yang digunakan dapat dilihat pada Lampiran 6.

Klasifikasi SVM

Setelah didapatkan fitur untuk data latih dengan banyak fragmen 320 ribu, data uji dengan jumlah fragmen 100 ribu, serta parameter kernel yang dibutuhkan, proses dilanjutkan dengan klasifikasi SVM. Proses klasifikasi SVM diawali dengan menskalakan data latih dan data uji terlebih dahulu sebelum dilakukan pelatihan maupun pengujian. Proses penskalaan ini sangat penting sebelum diterapkan pengklasifikasian dengan SVM. Keuntungan utama dari penskalaan

(23)

11 yaitu untuk menghindari atribut atau fitur bernilai besar yang bisa mendominasi fitur lain yang bernilai kecil. Selain itu penskalaan juga dapat mengurangi tingkat kesulitan perhitungan selama proses pengklasifikasian.

Setelah proses penskalaan selesai, proses selanjutnya adalah melakukan pelatihan SVM. Data latih dilatih satu per satu dengan 4 fungsi kernel mulai dari RBF, linear, kuadratik, dan polinomial derajat 3 dengan nilai parameter kernel terkait. Sebanyak 24 pelatihan dilakukan menggunakan fungsi kernel RBF, sedangkan untuk kernel lainnya hanya dilakukan pelatihan 1 kali yaitu pada panjang fragmen 10 Kbp pada tingkat takson genus.

Model yang sudah dihasilkan dari pelatihan sebelumnya digunakan untuk mengklasifikasikan data uji yang merepresentasikan fragmen metagenome dari organisme-organisme baru. Dari pengujian ini diperoleh akurasi dari hasil klasifikasi menggunakan Persamaan 9, sensitivity dan specificity dari setiap kelas yang ada pada takson genus menggunakan Persamaan 10 dan Persamaan 11.

Analisis

Analisis dilakukan atas hasil akurasi yang dihasilkan dengan memvariasikan panjang fragmen, tingkat taksonomi, dan kernel yang digunakan.

Tingkat taksonomi dan panjang fragmen

Analisis pengaruh panjang fragmen terhadap nilai akurasi yang diperoleh merupakan analisis yang penting. Data metagenome yang diambil dari lingkungan terdiri atas banyak organisme di dalamnya, sehingga mengandung jumlah nukleotida yang sangat besar, bahkan bisa mencapai megabases. Sementara itu, teknik untuk melakukan DNA sequencing saat ini hanya berhasil men-sequence

fragmen ≤ 700 bp untuk pembacaan individua atau ≤ 00 bp bi a menggunakan

pyrosequencing (metode sequencing DNA berdasarkan prinsip “sequencing by synthesis” McHardy et al. 2007). Berdasarkan kondisi tersebut, maka diharapkan suatu penelitian terkait dengan metagenome dapat menghasilkan akurasi yang baik bahkan pada panjang fragmen yang pendek.

Untuk hasil akurasi berdasarkan tingkat taksonomi, nilai akurasi yang analisis merupakan nilai akurasi dari setiap panjang fragmen yang dicobakan yaitu 400 bp, 800 bp, 1 Kbp, 3 Kbp, 5 Kbp, dan 10 Kbp. Sehingga akan didapatkan 6 akurasi untuk setiap tingkat taksonomi mulai dari genus, order, kelas, dan filum. Hasil akurasi ini ditunjukkan pada Tabel 1, dan divisualisasikan pada Gambar 6.

Pada penelitian ini, panjang fragmen terkecil yang dicobakan adalah 400 bp. Tabel 1 Hasil akurasi berdasarkan tingkat taksonomi dan panjang fragmen

Panjang fragmen (Kbp) Akurasi (%)

Genus Order Kelas Filum

0.4 65.3 72.0 78.2 82.1

0.8 78.9 84.0 87.7 89.4

1.0 81.4 86.9 89.7 91.4

3.0 92.6 94.8 95.9 96.5

5.0 93.7 96.1 97.0 97.2

(24)

12

Hasil akurasi yang diperoleh pada panjang fragmen tersebut dapat dikatakan sudah cukup baik yaitu sebesar 65.3% pada takson genus, 72.0% pada takson order, 78.2% pada takson kelas, dan mencapai 82.1% pada takson filum. Selanjutnya, bila dilihat pada penggunaan panjang fragmen terbesar yaitu 10 Kbp akurasi yang diperoleh yaitu 95.4%–97.6%.

Bila dilakukan peninjauan dan penarikan kesimpulan dari pengaruh panjang fragmen yang digunakan pada penelitian, dapat dilihat bahwa semakin panjang fragmen yang digunakan maka akan semakin besar hasil akurasi yang diperoleh dan sebaliknya. Unsur nukleotida yang terdapat pada fragmen DNA merupakan unsur genetik yang dimiliki oleh suatu organisme. Setiap organisme memiliki ciri yang berbeda yang dapat dilihat dari perbedaan unsur genetik yang dimilikinya. Oleh sebab itu, apabila fragmen yang digunakan untuk proses pengklasifikasian besar, maka perbedaan unsur nukleotida pun semakin besar yang mengakibatkan hasil pengklasifikasian pun lebih baik. Sedangkan apabila fragmen yang digunakan pendek, maka akan banyak fragmen yang memilki oligonukleotida yang sama.

Setelah dilakukan analisis terhadap akurasi dari setiap model di setiap tingkat taksonomi, hasil akurasi bila hanya dilakukan pembuatan model pada takson genus pun juga dilakukan. Akurasi yang dihasilkan dari pembuatan model untuk setiap tingkat takson menghasilkan akurasi yang lebih baik dibandingkan pembuatan model hanya untuk takson genus. Perbandingan akurasi ini dapat dilihat pada Gambar 7 dan Lampiran 7. Sehingga disimpulkan bahwa pembuatan model untuk setiap tingkat takson memang lebih baik apabila diinginkan hasil penelitian yang baik.

Sensitivity dan specificity

Perhitungan sensitivity dan specificity pada penelitian ini dibatasi pada takson genus dan filum saja, serta hanya pada panjang fragmen 400 bp, 1 Kbp, dan 10 Kbp. Penelitian dengan ekstasi fitur menggunakan spaced k-mers dan pengklasifikasian menggunakan metode SVM ini dapat menghasilkan sensitivity yang baik pada level takson genus, yang dapat dilihat pada Gambar 8. Nilai sensitivity yang didapat pada panjang fragmen 400 bp yaitu berada di antara 21.1%–85.2% dengan rata-rata sensitivity-nya 60.6%. Nilai sensitivity yang

Gambar 6 Hasil akurasi berdasarkan tingkat taksonomi dan panjang fragmen

0 25 50 75 100

0 1 2 3 4 5 6 7 8 9 10

A

k

u

rasi

(%)

Panjang fragmen (Kbp)

(25)

13

didapat pada panjang fragmen 1 Kbp yaitu berada di antara 43.4%–94.5% dengan rata-rata sensitivity-nya 79.2%. Nilai sensitivity yang didapat pada panjang fragmen 10 Kbp yaitu berada di antara 56.0%–100% dengan rata-rata sensitivity-nya 95.2%. Nilai sensitivity ini menunjukkan bahwa setidaknya ada 60.6% data pada suatu kelas dapat diklasifikasikan ke kelas sebenarnya. Untuk specificity didapat nilai yang baik yaitu antara 96.3%–100% pada setiap panjang fragmen yang dicobakan. Secara lengkap nilai specificity ini dapat dilihat pada Gambar 9.

Hasil sensitivity dan specificity untuk kelas taksonomi selanjutnya ,yaitu filum dapat dilihat pada Gambar 10 dan Gambar 11. Sensitivity pada level takson ini dikatakan baik bahkan pada panjang fragmen kecil yaitu 400 bp. Nilai

Gambar 8 Sensitivity takson genus

(26)

14

sensitivity yang didapat yaitu 40.8%–88.4% untuk panjang fragmen 400 bp, 60.7%–94.6% untuk panjang fragmen 1 Kbp, dan 66.2%–99.6% untuk panjang fragmen 10 Kbp. Kemudian untuk nilai specificity juga baik yaitu berkisar antara 88.1%–100.0% untuk semua panjang fragmen yang dicobakan.

Bila ditinjau keterkaitan antara hasil sensitivity dengan jumlah data yang ada pada kelas taksonnya, disimpulkan bahwa semakin banyak jumlah data untuk kelas tersebut maka menghasilkan sensitivity yang besar, dan sebaliknya. Dapat dilihat data uji untuk filum Actinobacteria, Firmicutes, dan Sphirochaetes yang memiliki anggota filum tersebar dihasilkan sensitivity yang besar pula. Sensitivity

Gambar 9 Specificity takson genus

Gambar 10 Sensitivity takson filum

(27)

15 untuk ketiga filum tersebut yaitu 82.2%–99.6% pada panjang fragmen kecil (400 bp) dan panjang fragmen besar (10 Kbp). Namun untuk filum lainnya yang memiliki anggota filum jauh lebih kecil, hanya menghasilkan sensitivity < 50% pada panjang fragmen kecil (400 bp). Pengaruh semakin besarnya data yang membuat nilai sensitivity juga besar dipengaruhi oleh semakin banyaknya pembelajaran yang dilakukan. Jumlah data uji untuk setiap kelas taksonnya dapat dilihat pada Lampiran 5.

Jenis kernel

Pengujian pengaruh penggunaan kernel terhadap hasil akurasi dilakukan untuk mengetahui kernel yang dapat menghasilkan model terbaik pada kasus pengklasifikasian fragmen metagenome. Gambar 12 memvisualisasikan hasil akurasi berdasarkan fungsi kernel yang digunakan dari pengklasifikasian data uji dengan panjang fragmen 10 Kbp pada tingkat takson genus. Dapat dilihat bahwa akurasi yang didapatkan dengan menerapkan 4 jenis kernel berbeda menghasilkan persentase akurasi yang tidak jauh berbeda. Akurasi yang dihasilkan terbilang sudah sangat baik yaitu mencapai > 95%.

Dari hasil akurasi ini dapat dikatakan bahwa penggunaan kernel ternyata tidak berpengaruh. Penggunaan kernel linear yang sesungguhnya tidak diterapkan kernel apapun menghasilkan akurasi yang tidak berbeda dengan penggunaan kernel lainnya. Maka pada kondisi ini dapat dikatakan bahwa metode ekstraksi fitur yang digunakan yaitu spaced k-mers sudah baik, sehingga data sudah terpisah secara linear tanpa perlu diterapkan fungsi kernel apapun pada pembutan modelnya.

Setelah itu dilakukan pula pencatatan waktu komputasi pembuatan model dari setiap kernel yang dapat dilihat pada Tabel 2. Dari hasil ini dapat dikatakan bahwa kernel RBF memiliki kinerja terbaik dalam melakukan pelatihan SVM untuk data fragmen metagenome, tetapi membutuhkan waktu komputasi yang sedikit lebih lama.

Gambar 12 Akurasi menggunakan 4 fungsi kernel berbeda untuk panjang fragmen 10 Kbp dan takson genus

Tabel 2 Perbandingan waktu komputasi pembuatan model pada setiap kernel Panjang fragmen Waktu komputasi (menit)

RBF Linear Kuadratik Polinomial (d=3)

10 Kbp 13 10 8 8

95,4 95,2 95,1 95,1

0 25 50 75 100

RBF Linear Quadratic Polinomial

A

k

u

rasi

(%)

Jenis kernel

(28)

16

Hasil klasifikasi genus yang tidak ada pada data latih

Pada penelitian ini diujikan 1 organisme yang tidak memiliki model pada data latihnya, yaitu Burkholderia sp JV3 yang termasuk dalam genus Stenotrophomonas. Genus ini tidak ada pada data latih, sehingga diharapkan dari pengujian data dengan kasus seperti ini dapat diketahui kinerja dari pengklasifikasian SVM. Burkholderia sp JV3 memiliki 1908 baris data (fragmen) pada data uji dengan panjang fragmen 400 bp, 2009 pada panjang fragmen 1 Kbp, dan 1985 pada panjang fragmen 10 Kbp. Hasil pengklasifikasian sebagian besar mengkelaskan fragmen organisme ini ke takson genus Xanthomonas dan Pseudomonas. Untuk hasil keseluruhan pengklasifikasian dapat dilihat pada diagram lingkaran yang ditunjukkan pada Gambar 13, 14 dan 15.

Dari hasil klasifikasi tersebut, dilakukan pencocokan terhadap similarity dari Burkholderia sp JV3 pada program Basic Local Alignment Search Tool (BLAST) dari NCBI yang dapat diakses pada http://blast.ncbi.nlm.nih.gov/ Blast.cgi?CMD=Web&PAGETYPE=BlastHome. BLAST adalah program yang

Gambar 13 Hasil klasifikasi data uji Burkholderia sp JV3 (genus Stenotrophomonas) pada panjang fragmen 400 bp

Gambar 14 Hasil klasifikasi data uji Burkholderia sp JV3 (genus Stenotrophomonas) pada panjang fragmen 1 Kbp

Gambar 15 Hasil klasifikasi data uji Burkholderia sp JV3 (genus Stenotrophomonas) pada panjang fragmen 10 Kbp

(29)

17

dapat menemukan “region of local similarity” antar sequences. Program ini dapat

membandingkan urutan nukleotida atau protein suatu sequence dengan sequence lainnya dan menghitung secara statistik unsur yang signifikan sama. BLAST dapat digunakan untuk menyimpulkan hubungan fungsional dan evolusioner antar sequences serta membantu mengidentifikasi anggota dari gen. Hasil BLAST dari organisme Burkholderia sp JV3 mengeluarkan daftar organisme yang memiliki similarity dengan organisme tersebut. Tabel 3 adalah daftar organisme-organisme yang dihasilkan dari BLAST yang juga merupakan organisme yang digunakan pada data latih.

Dari hasil pengklasifikasian pada penelitian ini dan hasil BLAST, dapat dilihat bahwa benar Xanthomonas dan Pseudomonas memiliki tingkat similarity yang cukup besar dengan Burkholderia sp JV3. Maka hasil klasifikasi SVM pada Tabel 3 Daftar organisme yang memiliki similarity dari hasil alignment

Burkholderia sp JV3 pada BLAST

No Deskripsi Max

score Total score

Query 1 Xanthomonas campestris

pv. campestris complete genome, strain B100

11297 1.484 × 106 39% 0.0 100%

2 Xanthomonas campestris pv. campestris str. ATCC 33913, complete genome

11291 1.473 × 106 39% 0.0 100%

3 Xanthomonas campestris pv. campestris str. 8004, complete genome

11285 1.474 × 106 39% 0.0 100%

4 Xanthomonas campestris pv. vesicatoria complete genom

11068 1.421 × 106 36% 0.0 100%

5 Xanthomonas oryzae pv. oryzae KACC10331, complete genome

8408 1.175 × 106 31% 0.0 100%

6 Xanthomonas oryzae pv. oryzae MAFF 311018 DNA, complete genome

8403 1.178 × 106 31% 0.0 100%

7 Xanthomonas oryzae pv. oryzae PXO99A,

9 Pseudomonas putida KT2440 complete genome

3166 2.618 × 106 5% 0.0 100%

10 Pseudomonas putida GB-1, complete genome

3160 2.624 × 106 5% 0.0 100% 11 Pseudomonas putida

W619, complete genome

(30)

18

penelitian ini bergantung pada unsur nukleotida yang dimiliki oleh setiap data, baik data latih yang akan menjadi model maupun data uji yang akan diprediksi kelasnya.

Implementasi

Tahap akhir yaitu implementasi yang menghasilkan sistem bernama Metagenome Binning. Sistem ini dapat melakukan prediksi tingkat taksonomi dari sequence DNA yang menjadi masukkan sistem sebelumnya. Tingkat taksonomi yang akan ditampilkan sebagai keluaran sistem yaitu genus, order, kelas, dan filum. Tahapan dan tampilan dalam menggunakan sistem ini dapat dilihat pada Lampiran 8.

SIMPULAN DAN SARAN

Simpulan

Pada penelitian ini, sudah disajikan pengklasifikasian fragmen metagenome menggunakan metode SVM. Secara keseluruhan penelitian ini sudah menghasilkan akurasi yang baik, bahkan pada panjang fragmen kecil 400 bp yaitu 65.3% untuk takson genus, 72.0% untuk takson order, 78.2% untuk takson kelas, dan 82.1% untuk takson filum. Pada panjang fragmen besar (10 Kbp) akurasi

mencapai ˃ 95% untuk semua eve takson. Dari penggunaan berbagai panjang

fragmen ini disimpulkan bahwa semakin panjang fragmen yang digunakan maka akan semakin besar hasil akurasi yang diperoleh dan sebaliknya.

Penggunaan 4 fungsi kernel yang berbeda pada pemodelan SVM pun telah diterapkan. Dari hasil penelitian ini disimpulkan bahwa fungsi kernel yang diterapkan tidak terlalu berpengaruh terhadap hasil pengklasifikasian karena metode ekstraksi fitur yang digunakan ternyata sudah baik. Metode ekstraksi fitur spaced k-mers dengan variabel w = 3 dan d = 0, 1, 2 telah menghasilkan fitur yang dapat memisahkan data secara linear. Sehingga kondisi linearly separable sudah terpenuhi tanpa perlu menerapakan fungsi kernel apapun pada pembentukan model SVM.

Kemudian untuk hasil pengklasifikasian data uji yang tidak ada modelnya pada data latih menunjukkan hasil yang serupa dengan hasil aplikasi BLAST. Fragmen data uji Burkholderia sp JV3 sebagian besar dikelaskan menjadi Xanthomonas dan Pseudomonas. Ini menunjukkan bahwa kinerja pengklasifikasian pada penelitian ini bergantung pada unsur nukleotida yang dimiliki oleh setiap data, baik data latih yang akan menjadi model maupun data uji yang akan diprediksi kelasnya.

(31)

19

Saran

Beberapa saran untuk penelitian selanjutnya yaitu:

1 Menggunakan sequence data 16S rRNA yang dihasilkan dari proses sequencing dan sudah banyak tersedia di genbank dengan panjang fragmen yang mendominasi yaitu 400 bp, sehingga tidak perlu menggunakan data simulasi.

2 Menambah jumlah kelas pada data latih sehingga dapat melakukan prediksi untuk lebih banyak kelas.

3 Menggunakan data riil misal Sargasso Sea atau yang lainnya.

DAFTAR PUSTAKA

Boswell D. 2002. Introduction to support vector machine [Internet]. [diunduh 2012 Des 9]. Tersedia pada: http://www.work.caltech.edu/~boswell/ IntroToSVM.pdf

Hsu CW, Chang CC, Lin CJ. 2003. A practical guide to support vector classification [Internet]. [diunduh 2012 Des 9]. Tersedia pada: http://www.csie.ntu.edu.tw/~cjlin

Hsu CW, Lin CJ. 2002. A comparison of methods for multiclass support vector machine. IEEE Transactions on Neural Networks. 13(2):415–425. doi: 10.1109/72.991427.

Kusuma, WA. 2012. Combined approaches for improving the performance of de novo DNA sequence assembly and metagenomic classification of short fragments from next generation sequencer [disertasi]. Tokyo (JP): Tokyo Institute of Technology.

Kusuma WA, Akiyama Y. 2011. Metagenome fragment binning based on characterization vector. Di dalam: International Conference on Bioinformatics and Biomedical Technology (ICBBT 2011); 2011 Mar 25–27; Sanya, China. Liu L, Ho YK, Yau S. 2006. Clustering DNA sequences by feature vectors.

Molecular Phylogenetics and Evolution. 41(1):64–69. doi: 10.1016/j.ympev. 2006.05.019

McHardy AC, Martín HG, Tsirigos A, Hugenholtz P, Rigoutsos I. 2007. Accurate phylogonetic classification of variabel-length DNA fragments. Nature Methods. 4(1):63–72. doi: 10.1038/nmeth976.

McHardy AC Rigoutsos I. 007. What’s in the mi : phy ogenetic c assiﬁcation of

metagenome sequence samples. Current Opinion in Microbiology. 10(5):499– 503. doi: 10.1016/j.mib.2007.08.004.

Osuna EE, Freund R, Girosi F. 1997. Support vector machines: training and applications. AI Memo (1602).

Refaeilzadeh P, Tang L, Liu H. 2009. Cross-validation. Di dalam: Liu L, Öszu MT, editor. Encyclopedia of Database Systems. New York (US): Springer. Richter DC, Ott F, Auch AF, Schmid R, Huson DH. 2008. MetaSim: a sequencing

(32)

20

(33)

21 Lampiran 1 Daftar nama organisme data latih

No Nama Organisme No Nama Organisme

1 Bacillus amyloliquefaciens FZB42

23 Bartonella tribocorum CIP 105476

2 Bacillus anthracis str. 'Ames Ancestor'

24 Bordetella avium 197N chromosome

3 Bacillus anthracis str. Ames chromosome

25 Bordetella bronchiseptica RB50 4 Bacillus anthracis str. Sterne

chromosome

26 Bordetella parapertussis 12822 5 Bacillus cereus ATCC 10987

chromosome

27 Bordetella pertussis Tohama I 6 Bacillus cereus ATCC 14579 28 Bordetella petrii DSM 12804 7 Bacillus cereus E33L 29 Borrelia afzelii PKo

8 Bacillus cereus subsp. cytotoxis NVH 391-98

30 Borrelia duttonii Ly

9 Bacillus clausii KSM-K16 31 Borrelia garinii PBi chromosome chromosome linear

10 Bacillus halodurans C-125 chromosome

32 Borrelia hermsii DAH chromosome

11 Bacillus licheniformis ATCC 14580

33 Borrelia recurrentis A1 12 Bacillus subtilis subsp. subtilis

str. 168 chromosome

34 Borrelia turicatae 91E135 chromosome

13 Bacillus thuringiensis serovar konkukian str. 97-27

chromosome

35 Bradyrhizobium japonicum USDA 110 chromosome

14 Bacillus thuringiensis str. Al Hakam chromosome

36 Bradyrhizobium sp. BTAi1 chromosome

15 Bacillus weihenstephanensis KBAB4

37 Bradyrhizobium sp. ORS278 chromosome

16 Bacteroides fragilis NCTC 9343 chromosome

38 Brucella abortus S19 chromosome 1 17 Bacteroides fragilis YCH46

chromosome

39 Brucella abortus bv. 1 str. 9-941 chromosome chromosome I 18 Bacteroides thetaiotaomicron

VPI-5482 chromosome

40 Brucella canis ATCC 23365 chromosome I

19 Bacteroides vulgatus ATCC 8482 chromosome

41 Brucella melitensis biovar Abortus 2308 chromosome chromosome I

20 Bartonella bacilliformis KC583 42 Brucella melitensis bv. 1 str. 16M chromosome chromosome I 21 Bartonella henselae str.

Houston-1

43 Brucella ovis ATCC 25840 chromosome chromosome I 22 Bartonella quintana str.

Toulouse

(34)

22

Lampiran 1 Lanjutan

45 Brucella suis ATCC 23445 chromosome I

65 Burkholderia thailandensis E264 chromosome chromosome I 46 Burkholderia ambifaria AMMD

chromosome chromosome 1

66 Burkholderia vietnamiensis G4 chromosome chromosome 1 47 Burkholderia ambifaria MC40-6

67 Burkholderia xenovorans LB400 chromosome 1

48 Burkholderia cenocepacia AU 1054 chromosome 3

68 Campylobacter concisus 13826 49 Burkholderia cenocepacia

HI2424 chromosome chromosome 1

69 Campylobacter curvus 525.92 chromosome

50 Burkholderia cenocepacia J2315 chromosome chromosome 1

70 Campylobacter fetus subsp. fetus 82-40

51 Burkholderia cenocepacia MC0-3 chromosome chromosome 1

71 Campylobacter hominis ATCC BAA-381

52 Burkholderia mallei ATCC 23344 chromosome chromosome 1

72 Campylobacter jejuni RM1221

53 Burkholderia mallei NCTC 10229 chromosome I

73 Campylobacter jejuni subsp. doylei 269.97

54 Burkholderia mallei NCTC 10247 chromosome I

74 Campylobacter jejuni subsp. jejuni NCTC 11168 chromosome 55 Burkholderia mallei SAVP1

chromosome I

75 Candidatus Phytoplasma australiense

56 Burkholderia multivorans ATCC 17616 chromosome chromosome 1

76 Candidatus Phytoplasma mali

57 Burkholderia phymatum STM815 chromosome chromosome 1

77 Chlamydophila abortus S26/3 58 Burkholderia phytofirmans PsJN

78 Chlamydophila caviae GPIC 59 Burkholderia pseudomallei

1106a chromosome I

79 Chlamydophila felis Fe/C-56 60 Burkholderia pseudomallei

1710b chromosome chromosome I

80 Chlamydophila pneumoniae AR39

61 Burkholderia pseudomallei 668 chromosome I

81 Chlamydophila pneumoniae CWL029

62 Burkholderia pseudomallei K96243 chromosome chromosome 1

82 Chlamydophila pneumoniae J138

63 Burkholderia sp. 383 chromosome 1

83 Chlamydophila pneumoniae TW-183

64 Burkholderia sp. 383 chromosome chromosome 2

(35)

23 Lampiran 1 Lanjutan

85 Chlorobium limicola DSM 245 chromosome

107 Clostridium tetani E88 chromosome

86 Chlorobium luteolum DSM 273 chromosome

108 Clostridium thermocellum ATCC 27405 chromosome

87 Chlorobium phaeobacteroides BS1 chromosome

109 Corynebacterium diphtheriae NCTC 13129 chromosome 88 Chlorobium phaeobacteroides

DSM 266 chromosome

110 Corynebacterium efficiens YS-314

89 Chlorobium phaeovibrioides DSM 265 chromosome

111 Corynebacterium glutamicum ATCC 13032

90 Chlorobium tepidum TLS 112 Corynebacterium glutamicum R chromosome

91 Clostridium acetobutylicum ATCC 824

113 Corynebacterium jeikeium K411 92 Clostridium beijerinckii NCIMB

8052 chromosome

114 Corynebacterium urealyticum DSM 7109

93 Clostridium botulinum A str. ATCC 19397

115 Cupriavidus metallidurans CH34 chromosome

94 Clostridium botulinum A str. ATCC 3502

116 Cupriavidus necator N-1 chromosome chromosome 1 95 Clostridium botulinum A str.

Hall

117 Cupriavidus taiwanensis LMG 19424 chromosome 1

96 Clostridium botulinum A3 str. Loch Maree

118 Dehalococcoides ethenogenes 195

97 Clostridium botulinum B str. Eklund 17B

119 Dehalococcoides sp. BAV1 98 Clostridium botulinum B1 str.

Okra

120 Dehalococcoides sp. CBDB1 chromosome

99 Clostridium botulinum E3 str. Alaska E43

121 Ehrlichia canis str. Jake 100 Clostridium botulinum F str.

Langeland

122 Ehrlichia chaffeensis str. Arkansas

101 Clostridium difficile 630 chromosome

123 Ehrlichia ruminantium str. Gardel

102 Clostridium kluyveri DSM 555 124 Ehrlichia ruminantium str. Welgevonden

103 Clostridium novyi NT 125 Francisella philomiragia subsp. philomiragia ATCC 25017 chromosome

104 Clostridium perfringens ATCC 13124

126 Francisella tularensis subsp. holarctica FTNF002-00 chromosome

105 Clostridium perfringens str. 13 127 Francisella tularensis subsp. holarctica LVS chromosome 106 Clostridium phytofermentans

ISDg

(36)

24

Lampiran 1 Lanjutan

129 Francisella tularensis subsp. mediasiatica FSC147

151 Helicobacter pylori 26695 130 Francisella tularensis subsp.

novicida U112

152 Helicobacter pylori G27 chromosome

131 Francisella tularensis subsp. tularensis FSC198

153 Helicobacter pylori HPAG1 chromosome

132 Francisella tularensis subsp. tularensis SCHU S4

154 Helicobacter pylori J99 133 Francisella tularensis subsp.

tularensis WY96-3418

155 Helicobacter pylori P12 chromosome

134 Frankia alni ACN14a chromosome

156 Helicobacter pylori Shi470 chromosome

135 Frankia sp. CcI3 chromosome 157 Lactobacillus acidophilus NCFM chromosome

136 Frankia sp. EAN1pec chromosome

158 Lactobacillus brevis ATCC 367 137 Geobacter bemidjiensis Bem

chromosome

159 Lactobacillus casei ATCC 334 138 Geobacter lovleyi SZ

chromosome

160 Lactobacillus casei BL23 chromosome

139 Geobacter metallireducens GS-15 chromosome

161 Lactobacillus delbrueckii subsp. bulgaricus ATCC 11842

140 Geobacter sulfurreducens PCA chromosome

162 Lactobacillus delbrueckii subsp. bulgaricus ATCC BAA-365 chromosome

141 Geobacter uraniireducens Rf4 chromosome

163 Lactobacillus fermentum IFO 3956

142 Haemophilus ducreyi 35000HP 164 Lactobacillus gasseri ATCC 33323

143 Haemophilus influenzae 86-028NP chromosome

165 Lactobacillus helveticus DPC 4571

144 Haemophilus influenzae PittEE chromosome

166 Lactobacillus johnsonii NCC 533 145 Haemophilus influenzae PittGG

chromosome

167 Lactobacillus plantarum WCFS1 146 Haemophilus influenzae Rd

KW20 chromosome

168 Lactobacillus reuteri DSM 20016 chromosome

147 Haemophilus somnus 129PT chromosome

169 Lactobacillus reuteri JCM 1112 148 Haemophilus somnus 2336

chromosome

170 Lactobacillus sakei subsp. sakei 23K

149 Helicobacter acinonychis str. Sheeba chromosome

171 Lactobacillus salivarius UCC118 150 Helicobacter hepaticus ATCC

51449 chromosome

172 Leptospira biflexa serovar Patoc strain 'Patoc 1 (Ames)'

(37)

173 Leptospira biflexa serovar Patoc strain 'Patoc 1 (Paris)'

chromosome chromosome I

194 Mycobacterium avium subsp. paratuberculosis K-10

174 Leptospira borgpetersenii serovar Hardjo-bovis L550 chromosome 1

195 Mycobacterium bovis AF2122/97

175 Leptospira interrogans serovar Copenhageni str. Fiocruz L1-130 chromosome chromosome I

196 Mycobacterium bovis BCG str. Pasteur 1173P2

176 Leptospira interrogans serovar Lai str. 56601 chromosome chromosome I

197 Mycobacterium gilvum PYR-GCK chromosome

177 Listeria innocua Clip11262 198 Mycobacterium leprae TN chromosome

178 Listeria monocytogenes EGD-e 199 Mycobacterium marinum M 179 Listeria monocytogenes serotype

4b str. F2365 chromosome

200 Mycobacterium smegmatis str. MC2 155

180 Listeria welshimeri serovar 6b str. SLCC5334

201 Mycobacterium sp. JLS chromosome

181 Methanococcus maripaludis C5 chromosome

202 Mycobacterium sp. KMS chromosome

203 Mycobacterium sp. MCS chromosome

204 Mycobacterium tuberculosis CDC1551

184 Methanococcus maripaludis S2 chromosome

205 Mycobacterium tuberculosis F11 185 Methanosarcina acetivorans C2A

chromosome

206 Mycobacterium tuberculosis H37Ra

186 Methanosarcina barkeri str. Fusaro chromosome

207 Mycobacterium tuberculosis H37Rv

187 Methanosarcina mazei Go1 chromosome

208 Mycobacterium ulcerans Agy99 188 Methylobacterium extorquens

PA1 chromosome

209 Mycobacterium vanbaalenii PYR-1 chromosome

189 Methylobacterium populi BJ001 chromosome

210 Mycoplasma agalactiae PG2 190 Methylobacterium radiotolerans

JCM 2831 chromosome

211 Mycoplasma arthritidis 158L3-1 191 Methylobacterium sp. 4-46

chromosome

212 Mycoplasma capricolum subsp. capricolum ATCC 27343 192 Mycobacterium abscessus ATCC

19977 chromosome chromosome 1

213 Mycoplasma gallisepticum str. R(low) chromosome

(38)

26

Lampiran 1 Lanjutan

215 Mycoplasma hyopneumoniae 232 238 Psychrobacter arcticus 273-4 216 Mycoplasma hyopneumoniae

7448 chromosome

239 Psychrobacter cryohalolentis K5 chromosome

217 Mycoplasma hyopneumoniae J chromosome

240 Psychrobacter sp. PRwf-1 chromosome

218 Mycoplasma mobile 163K 241 Pyrobaculum aerophilum str. IM2 chromosome

219 Mycoplasma mycoides subsp. mycoides SC str. PG1

chromosome

242 Pyrobaculum arsenaticum DSM 13514

220 Mycoplasma penetrans HF-2 243 Pyrobaculum calidifontis JCM 11548 chromosome

221 Mycoplasma pneumoniae M129 244 Pyrobaculum islandicum DSM 4184 chromosome

222 Mycoplasma pulmonis UAB CTIP

245 Pyrococcus abyssi GE5 chromosome

223 Mycoplasma synoviae 53 246 Pyrococcus furiosus DSM 3638 224 Onion yellows phytoplasma

OY-M

247 Pyrococcus horikoshii OT3 chromosome

225 Pseudomonas aeruginosa PA7 248 Rickettsia akari str. Hartford 226 Pseudomonas aeruginosa PAO1

chromosome

249 Rickettsia bellii OSU 85-389 227 Pseudomonas aeruginosa

UCBPP-PA14

250 Rickettsia bellii RML369-C 228 Pseudomonas fluorescens Pf-5

chromosome

251 Rickettsia canadensis str. McKiel 229 Pseudomonas fluorescens Pf0-1

chromosome

252 Rickettsia conorii str. Malish 7 230 Pseudomonas putida F1

chromosome

253 Rickettsia felis URRWXCal2 231 Pseudomonas putida GB-1

chromosome

254 Rickettsia massiliae MTU5 232 Pseudomonas putida KT2440

chromosome

255 Rickettsia prowazekii str. Madrid E chromosome

233 Pseudomonas putida W619 chromosome

256 Rickettsia rickettsii str. 'Sheila Smith'

234 Pseudomonas syringae pv. phaseolicola 1448A chromosome

257 Rickettsia rickettsii str. Iowa chromosome

235 Pseudomonas syringae pv. syringae B728a

258 Rickettsia typhi str. Wilmington 236 Pseudomonas syringae pv.

tomato str. DC3000 chromosome

259 Shewanella amazonensis SB2B chromosome

237 Pseudomonas syringae pv. tomato str. DC3000 plasmid pDC3000A

(39)

261 Shewanella denitrificans OS217 282 Staphylococcus aureus subsp. aureus COL chromosome 262 Shewanella frigidimarina

NCIMB 400

283 Staphylococcus aureus subsp. aureus JH1

263 Shewanella halifaxensis HAW-EB4 chromosome

284 Staphylococcus aureus subsp. aureus JH9

264 Shewanella loihica PV-4 285 Staphylococcus aureus subsp. aureus MRSA252 chromosome 265 Shewanella oneidensis MR-1 286 Staphylococcus aureus subsp.

aureus MSSA476 chromosome 266 Shewanella pealeana ATCC

700345 chromosome

287 Staphylococcus aureus subsp. aureus MW2

267 Shewanella putrefaciens CN-32 chromosome

288 Staphylococcus aureus subsp. aureus Mu3

268 Shewanella sediminis HAW-EB3 289 Staphylococcus aureus subsp. aureus Mu50

269 Shewanella sp. ANA-3 chromosome chromosome 1

290 Staphylococcus aureus subsp. aureus N315

270 Shewanella sp. MR-4 chromosome

291 Staphylococcus aureus subsp. aureus NCTC 8325 chromosome 271 Shewanella sp. MR-7

chromosome

292 Staphylococcus aureus subsp. aureus USA300_FPR3757 chromosome

272 Shewanella sp. W3-18-1 chromosome

293 Staphylococcus aureus subsp. aureus USA300_TCH1516 chromosome

273 Shewanella woodyi ATCC 51908 chromosome

294 Staphylococcus aureus subsp. aureus str. Newman chromosome 274 Shigella boydii CDC 3083-94

chromosome

295 Staphylococcus epidermidis ATCC 12228 chromosome 275 Shigella boydii Sb227 296 Staphylococcus epidermidis

RP62A

276 Shigella dysenteriae Sd197 297 Staphylococcus haemolyticus JCSC1435 chromosome 277 Shigella flexneri 2a str. 2457T 298 Staphylococcus saprophyticus

subsp. saprophyticus ATCC 15305

278 Shigella flexneri 2a str. 301 chromosome

299 Streptococcus agalactiae 2603V/R

279 Shigella flexneri 5 str. 8401 chromosome

300 Streptococcus agalactiae A909 280 Shigella sonnei Ss046

chromosome

301 Streptococcus agalactiae NEM316

(40)

28

Lampiran 1 Lanjutan

303 Streptococcus gordonii str. Challis substr. CH1

325 Streptococcus suis 05ZYH33 304 Streptococcus mutans UA159