Clustering metagenome fragments using growing self organizing map

(1)

PENGELOMPOKAN FRAGMEN METAGENOM DENGAN

METODE GROWING SELF ORGANIZING MAP

MARLINDA VASTY OVERBEEK

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

(2)

(3)

PERNYATAAN MENGENAI TESIS DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa tesis berjudul Pengelompokan Fragmen Metagenom dengan Metode Growing Self Organizing Map adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

(4)

RINGKASAN

MARLINDA VASTY OVERBEEK. Pengelompokan Fragmen Metagenom dengan Metode Growing Self Organizing Map. Dibimbing oleh WISNU ANANTA KUSUMA dan AGUS BUONO.

Metagenom adalah penelitian tentang bagaimana menganalisis mikrob berskala besar dan memperbolehkan adanya pengkulturan secara langsung. Pengelompokan fragmen metagenom secara langsung bisa berakibat fatal karena bisa menyebabkan terjadinya interspesies chimeras atau kesalahan dalam perakitan fragmen metagenom. Pengelompokan fragmen metagenom pada lingkungan juga pada umumnya menggunakan supervised learning, sedangkan supervised learning merupakan pembelajaran yang menggunakan contoh dan bergantung pada ketersediaan data latih. Selain itu, pengelompokan juga menggunakan panjang fragmen yang panjang, yaitu ≥ 8 kbp dan berkomunitas kecil atau kurang dari 100 mikrob. Tujuan penelitian ini adalah untk menganalisis efektifitas dan efisiensi metode Growing Self Organizing Map dalam pengelompokan mikrob yang berskala besar dengan panjang fragmen yang pendek berdasarkan frekuensi oligonukleotida. Frekuensi oligonukleotida yang digunakan adalah trinukleotida, tetranukleotida, dan juga kombinasi frekuensi yang memperhatikan kondisi don’t care, yaitu spaced k-mer. Untuk ekstraksi fitur, digunakan k-mer frequency dan spaced k-mer frequency.

Berdasarkan uji kombinasi parameter menggunakan frekuensi oligonukleotida, kombinasi terbaik antara Learning Rate dan Neighborhood Size untuk frekuensi trinukleotida adalah 0.1 untuk Learning Rate, 1 untuk Neighborhood Size dengan perhitungan quantization error adalah 0.531, 0.101 untuk topographic error, dan 16.84% untuk persentase error. Kombinasi terbaik tetranukleotida adalah 0.75 untuk Learning Rate dan 1 untuk Neighborhood Size, dengan memberikan nilai error 0.886 untuk quantization error, 0.09 untuk topographic error, dan 15.43% untuk persentase error. Untuk spaced k-mer, kombinasi terbaik adalah 0.5 untuk Learning Rate dan 1 untuk Neighborhood Size dengan quantization error adalah 0.665, 0.06 untuk topographic error dan 13.07% untuk persentase error. Perhitungan kombinasi untuk ketiga frekuensi oligonukleotida menggunakan map size dan dan training lenght yang sama, yaitu [10 10] dan 10 epochs.

Dari hasil kombinasi parameter, frekuensi spaced k-mer menjadi frekuensi terbaik untuk pengelompokan fragmen metagenom dengan metode Growing Self Organizing Map. Dengan menggunakan map size yang berukuran antara [100 – 500], unit peta dari 100 – 5000 unit, dan training lenght 10 epochs, didapatkan hasil terbaik pelatihan adalah pada map size [100 150] dengan unit peta sebanyak 300 unit. Waktu latih yang diperlukan adalah 51 menit dengan persentase error 6.43%.

(5)

SUMMARY

MARLINDA VASTY OVERBEEK. Clustering Metagenome Fragments using Growing Self Organizing Map. Supervised by WISNU ANANTA KUSUMA and AGUS BUONO.

Metagenome is a research about analyzing microbes in the large community and allowed the culture-independent. The microorganism samples taken directly from environment is not easy to assembly because contains mixture microorganism. If sample complexity is very high and come from high diversity environment, difficulties of assembling DNA sequence are increasing because the interspecies chimeras can be happen. Clustering commonly using supervised learning, but the supervised learning depends on avaibillity of data training. Because of that, in this research we used unsupervised learning to clustering the metagenome fragments. Beside that, clustering usually using the longer

fragments, which is ≥ 8 kbp and have a small community (less than 100

microorganism). The purpose of this research is to analyze the effectiveness and efficiency of Growing Self Organizing Map to the clustered large community of metagenome fragments. We used trinucleotide, tetranucleotide, and combination

of oligonucleotide frequency that consider the don’t care situation called spaced k -mer frequency as a features. As a feature extraction, we using -mer and spaced k-mer.

Based on parameter combination using oligonucleotide frequency, the best combine between Learning Rate and Neighborhood Size is a spaced k-mer frequency. We tested to get a better parameter combinatoin into [10 10] map size and 10 epochs training lenght. Error to mapped metagenome fragments using spaced k-mer frequency is 0.665 for quantization error, 0.06 for topographic error and 13.07% for error percentage.

(6)

© Hak Cipta Milik IPB, Tahun 2013

Hak Cipta Dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB

(7)

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Komputer

pada

Program Studi Ilmu Komputer

PENGELOMPOKAN FRAGMEN METAGENOM DENGAN

METODE GROWING SELF ORGANIZING MAP

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

BOGOR 2013

(8)

(9)

(10)

PRAKATA

Puji dan syukur penulis panjatkan kepada Tuhan yang Maha Kuasa atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Penelitian ini sudah dikerjakan dari bulan September 2012 dengan judul Pengelompokan Fragmen Metagenom dengan Metode Growing Self Organizing Map.

Terima kasih penulis ucapkan kepada Bapak Dr Eng Wisnu Ananta Kusuma, ST, MT dan Bapak Dr Ir Agus Buono, MSi, MKom selaku pembimbing yang telah banyak memberi saran, kepada Bapak Dr Ir Iman Rusmana, MSi selaku penguji. Selain itu, penulis menyampaikan terima kasih kepada semua dosen dan staf Departemen Ilmu Komputer IPB yang telah membantu selama proses penelitian. Ungkapan terima kasih juga disampaikan kepada Papa John dan Mama Naniek, Mbak Yoanita, Kak Alex, Mas Andrew, Mbak Santhy, Kevin Joshua, Mama Yosina, dan Fajar Ndolu atas doa, perhatian dan kasih sayangnya. Teman-teman Dwi Regina (Frinsa, Mentari, Inna, Toyibah, Astrid, Lian, Erlisa), teman sepembimbingan Bapak Wisnu (Dian, Aa Bahrul, Kang Asril) dan teman-teman seperjuangan angkatan 13 Ilmu Komputer IPB yang selalu bersama penulis dua tahun ini, terima kasih atas dukungannya. Penulis juga tidak lupa berterima kasih pada jajaran dosen dan staf STIKOM Uyelindo Kupang atas semua bantuan yang diberikan kepada penulis.

Semoga karya ilmiah ini bermanfaat.

(11)

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vi

DAFTAR LAMPIRAN vi

1 PENDAHULUAN 1

Latar Belakang 1

Perumusan Masalah 3

Tujuan Penelitian 3

Manfaat Penelitian 3

Ruang Lingkup Penelitian 3

2 TINJAUAN PUSTAKA 4

Metagenom 4

Ekstraksi Ciri 4

Growing Self Organizing Map 5

3 METODE PENELITIAN 8

4 HASIL DAN PEMBAHASAN 17

5 SIMPULAN 36

DAFTAR PUSTAKA 37

LAMPIRAN 40

(12)

DAFTAR TABEL

1 Dimensi hasil ekstraksi ciri 10

2 Filum berdasarkan NCBI Taxonomy Browser 11

3 Pembagian mikrob data latih dan data uji 19

4 Pembangkitan data latih 19

5 Pembangkitan data uji 20

6 Perhitungan quantization error pada trinukleotida 24 7 Perhitungan topographic error pada trinukleotida 24 8 Perhitungan persentase error pada trinukleotida 24 9 Perhitungan quantization error pada tetranukleotida 26 10 Perhitungan topographic error pada tetranukleotida 26 11 Perhitungan persentase error pada tetranukleotida 27 12 Perhitungan quantization error pada spaced k-mer 29 13 Perhitungan topographic error pada spaced k-mer 29 14 Perhitungan persentase error pada spaced k-mer 29

15 Parameter pengujian 32

16 Hasil pelatihan frekuensi spaced k-mer 32

17 Daftar organisme yang memiliki kesamaan dari hasil alignment

Bacteroides fragilis 638R pada BLAST 34

DAFTAR GAMBAR

1 Binning sampel metagenomik (Kusuma 2012) 4

2 Ekstraksi ciri (a) k-mer (b) spaced k-mer (Kusuma 2012) 5

3 Aturan inisialisasi node (Zhu dan Zhu 2010) 7

4 Skema penelitian pengelompokan fragmen metagenom 8

5 Prosedur analisis 9

6 Contoh hasil simulasi MetaSim 10

7 Praproses data dengan decimal scaling 11

8 Blok diagram pengelompokan dengan GSOM 12

9 Fase inisialisasi 13

10 Inisialisasi starting node 13

11 Best Matching Unit (Vesanto et al. 2000) 15

12 Pengukuran quantization error 15

13 Pengukuran topographic error 16

14 Matriks komposisi salah satu frekuensi oligonukleotida 17 15 Matriks decimal scaling salah satu frekuensi oligonukleotida 18 16 Inisialisasi bobot pada frekuensi oligonukleotida 21

17 Pemetaan frekuensi trinukleotida 22

18 Pemetaan frekuensi tetranukleotida 22

19 Pemetaan frekuensi spaced k-mer 23

(13)

26 Perhitungan quantization error pada spaced k-mer 30 27 Perhitungan topographic error pada spaced k-mer 30 28 Perhitungan persentase error pada spaced k-mer 31 29 Hasil pengelompokan Bacteroides fragilis 638R dengan 1024 reads 33 30 Data yang digunakan dengan panjang sekuens query 1000 (1 kbp) 33 31 Hit dari 17 organisme yang memiliki kesamaan dengan Bacteroides

fragilis 638R 34

DAFTAR LAMPIRAN

1 Daftar mikrob yang digunakan sebagai data latih 40

2 Daftar mikrob yang digunakan sebagai data uji 45

3 Hasil analisis pengelompokan frekuensi trinukleotida map size [10 10] dengan Learning Rate 0.1 dan Neighborhood Size 1 48 4 Hasil analisis pengelompokan frekuensi tetranukleotida map size [10

10] dengan Learning Rate 0.75 dan Neighborhood Size 1 51 5 Hasil analisis pengelompokan frekuensi spaced k-mer map size [10 10]

dengan Learning Rate 0.5 dan Neighborhood Size 1 54 6 Pohon taksonomi BLAST dari organisme yang memiliki kesamaan

(14)

1

1 PENDAHULUAN

Latar Belakang

Penelitian tentang metagenom terus berkembang dalam lingkup biologi molekuler. Analisis tentang metagenom disebut dengan metagenomik, yaitu analisis tentang mikrob yang berskala besar yang diambil langsung dari habitat asal mikrob tersebut (Chan et al. 2007; O’Malley 2012). Pengisolasian mikrob secara langsung seringkali memiliki kendala untuk mengetahui komunitas sesungguhnya dari suatu ekosistem karena hanya 1% mikrob yang dapat diisolasi langsung dari lingkungan (Harayama et al. 2004). Contoh dari kesulitan untuk isolasi lagsung dari lingkungan adalah proyek laut Sargasso (Venter et al. 2004). Istilah low-abundance digunakan untuk menggambarkan keadaan ini. Low-abundance adalah rendahnya representasi relatif keanekaragaman mikrob dalam sampel lingkungan sehingga masih banyak mikrob yang belum dikenali dan dimanfaatkan (Chan et al. 2007; Harayama et al. 2004). Low-abundance pada fragmen metagenom yang berukuran besar sering menimbulkan kendala dalam perakitan genom dan menyebabkan mikrob sulit dikelompokan secara filogenetik (Chan et al. 2007). Kesalahan dalam perakitan fragmen metagenom disebut interspecies chimeras (Meyerdierks dan Glockner 2012).

Untuk menyelesaikan permasalahan tersebut, binning digunakan untuk mengelompokan mikrob berdasarkan tingkatan taksonomi. Ada dua pendekatan binning, yaitu berdasarkan homologi dan berdasarkan komposisi. Binning berdasarkan homologi melakukan pencarian penjajaran sekuens dengan membandingkan fragmen metagenom dengan basis data sekuens antara lain National Centre for Biotechnology Information (NCBI) dan hasilnya akan disimpulkan pada tiap level taksonomi. Hal tersebut menyebabkan pendekatan dengan homologi membutuhkan banyak waktu dalam proses pengelompokan. Contoh metode yang menggunakan pendekatan homologi adalah BLAST (Wu 2008; Zheng dan Wu 2009) dan MEGAN (Huson et al. 2007).

(15)

2

Sebagian besar proses binning masih menggunakan pembelajaran dengan contoh (supervised learning). Pembelajaran dengan contoh bergantung pada ketersediaan data latih padahal data latih yang tersedia tidak cukup merepresentasikan keragaman mikrob (Prabhakara dan Acharya 2012). Pembelajaran dengan observasi (unsupervised learning) memberikan solusi terhadap keterbatasan data latih yang tersedia karena unsupervised learning akan menyusun data fragmen metagenom secara lebih terstruktur sebelum perbandingan sekuens dilakukan. Dengan demikian fragmen metagenom akan lebih cepat dan lebih kuat (robust) untuk dirakit (Nasser et al. 2008).

Dari beberapa pendekatan binning berdasarkan komposisi dengan unsupervised learning, metode GSOM memberikan hasil terbaik dalam pemetaan fragmen metagenom. Oleh sebab itu, pada penelitian tentang pengelompokan fragmen metagenom ini akan menggunakan metode GSOM.

Metode GSOM merupakan perbaikan dari keadaan statik metode Kohonen SOM (Chan et al. 2007). GSOM sukses memetakan data dalam bentuk microarray (Hsu et al. 2003) dan juga memetakan data prokariota dengan panjang

≥ 8 kbp (Chan et al. 2007). Hasil yang didapatkan adalah pada pengelompokan mikrob dengan empat frekuensi oligonukleotida (di-, tri-, tetra-, dan pentanukleotida) pada tiga dataset mikrob, pengelompokan menggunakan frekuensi dinukleotida tidak terlalu memberikan hasil yang baik sehingga disarankan utuk menggunakan frekuensi oligonukleotida yang lebih tinggi. Dalam perbandingan kecepatan, GSOM mengalami peningkatan kecepatan 37 % dibandingkan metode SOM pada dua dataset pertama dan untuk keseluruhan tiga dataset terjadi peningkatan kecepatan 7 % - 15 %.

Penelitian fragmen metagenom menggunakan unsupervised learning umumnya hanya menggunakan komunitas yang kecil. Sedangkan untuk ekstraksi ciri, pengelompokan fragmen metagenom masih menggunakan k-mer dan belum memperhatikan kondisi don’t care. Ekstraksi ciri dengan memperhatikan kondisi don’t care disebut dengan spaced k-mer (Kusuma 2012). Spaced k-mer menyediakan vektor berdimensi lebih kecil yang berisi informasi yang lebih kaya dan berguna dibandingkan dengan vektor masukan hasil ekstraksi fitur menggunakan k-mer (Kusuma 2012).

Pada penelitian ini digunakan komunitas spesies yang cukup besar, yaitu 300 spesies dan data spesies tersebut diambil dari basis data NCBI. Panjang fragmen yang digunakan adalah 1 kbp dengan frekuensi oligonukleotida trinukleotida dan tetranukleotida. Alasan digunakan fragmen yang pendek karena pada penelitan terdahulu, panjang fragmen yang digunakan adalah fragmen yang

(16)

3

Perumusan Masalah

Adapun permasalahan yang akan menjadi bahan analisis adalah mengetahui berapa tingkat akurasi efektifitas dan efisiensi menggunakan metode GSOM menggunakan frekuensi trinukleotida, tetranukleotida, dan spaced k-mer pada panjang fragmen yang pendek.

Tujuan Penelitian

Menganalisis efektifitas dan efisiensi metode GSOM dalam pengelompokan mikrob berskala besar pada tingkat taksonomi filum berdasarkan frekuensi trinukleotida, tetranukleotida dan spaced k-mer dengan fragmen yang pendek (1 kbp).

Manfaat Penelitian

Adapun manfaat dari penelitian yang dilakukan adalah untuk memberikan landasan bagi penelitian lanjutan di bidang metagenomik, khususnya yang memerlukan informasi kekerabatan antar organisme yang terdapat pada komunitas atau sampel yang diamati.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini adalah :

1. Data latih terdiri atas 200 mikrob yang berasal dari 20 filum

2. Data uji yang terdiri atas 100 mikrob yang termasuk dalam taksonomi yang sama dengan data latih untuk mengetahui kualitas kebaikan pengelompokan fragmen metagenom dengan GSOM

(17)

4

2 TINJAUAN PUSTAKA

Metagenom

Metagenomik adalah penelitian tentang mikrob yang sampelnya diambil secara langsung dari komunitas mikrob. Umumnya komunitas mikrob tersebut memiliki keanekaragaman yang tinggi dan berskala besar (Chan et al. 2007;

O’Malley 2012).

Pengambilan sampel langsung dari lingkungan atau isolasi secara langsung sering menyebabkan terjadinya masalah. Masalah yang sering muncul adalah ketika sampel yang diambil memiliki kompleksitas yang tinggi, yaitu setiap mikrob yang berada dalam sampel memiliki kekerabatan yang dekat dan hal tersebut sering menyebabkan kesalahan dalam perakitan fragmen metagenom yang disebut dengan interspecies chimeras (Meyerdierks dan Glockner 2010).

Untuk menghindari terjadinya interspecies chimeras, maka fragmen metagenom perlu dikelompokan berdasarkan tingkat taksonomi atau disebut dengan binning (Meyerdierks dan Glockner 2010). Pada pengelompokan atau binning fragmen metagenom, sangat mungkin tiap kelompok atau bin memiliki mikrob yang sama berdasarkan tingkat taksonominya. Gambar 1 menunjukkan bagaimana binning fragmen metagenom dan proses perakitan DNA diperlukan di dalam proses analisis metagenom (Kusuma 2012).

Gambar 1 Binning sampel metagenomik (Kusuma 2012)

Ekstraksi Ciri

K-mer adalah substring dengan panjang k (k adalah panjang fragmen metagenom). Analisis dari k-mer digunakan untuk menemukan frekuensi dari semua k-mer. Pola kemunculan k adalah pola yang menampilkan k pada suatu waktu dalam suatu sekuens (Choi dan Cho 2002).

Pola kemunculan dalam dalam sekuens dihitung menggunakan empat basa utama (A, T, G, dan C) dipangkat dengan rangkaian pasangan basa yang ingin digunakan (pola kemunculan : , dengan ). Selain menggunakan frekuensi k-mer, digunakan spaced k-mer yang memperhitungkan kondisi don’t care.

Spaced k-mer dikemukakan oleh Kusuma (2012) yang menyimpulkan bahwa terbaik dari klasifikasi metagenom dicapai dengan menggunakan ,

(18)

5 adalah posisi dari kondisi don’t care (*). Dari hasil percobaan, didapatkan hasil akurasi terbaik adalah pada pola 111 1*11 1**11. Hasil dari perhitungan ekstraksi fitur menggunakan frekuensi k-mer dan spaced k-mer ini yang akan digunakan sebagai masukkan pada unsupervised learning dan supervised learning (Gambar 2).

(a)

(b)

Gambar 2 Ekstraksi ciri (a) k-mer (b) spaced k-mer (Kusuma 2012)

Growing Self Organizing Map

GSOM adalah salah satu varian dari metode SOM. GSOM merupakan dinamik SOM yang digunakan untuk memperbaiki keadaan statik dari metode SOM (Chan et al. 2007). Pemetaan data dengan metode GSOM biasanya merupakan data yang berdimensi tinggi. Hasil pemetaan ditampilkan berdasarkan topologi data, jadi data yang mirip akan dipetakan berdasarkan kedekatan ciri atau karakteristiknya pada peta dua dimensi atau tiga dimensi.

GSOM memiliki tiga fase utama, yaitu fase inisialisasi, fase growing, dan fase smoothing. Langkah algoritma GSOM adalah sebagai berikut (De Silva et al. 2007; Zhu dan Zhu 2010) :

1. Fase Inisialisasi

Inisialisasi bobot vektor dan awal node (biasanya empat node) dengan angka random antara 0 dan 1.

Hitung Growth Threshold (GT) dari dimensi dataset D berdasarkan nilai Spread Factor(SF) menggunakan formula :

(1) 2. Fase Growing

a) Tentukan node masukkan pada jaringan

b) Tentukan bobot vektor yang berdekatan dengan vektor masukkan yang dipetakan sebagai winner, gunakan jarak Euclidean untuk mengukur. Langkah ini dapat disimpulkan dengan menentukan dimana

(19)

6

vektor, adalah posisi vektor untuk node-node dan adalah himpunan dari angka natural.

c) Sesuaikan bobot vektor yang diaplikasikan hanya kepada tetangga dari winner dan winner itu sendiri. Tetangga adalah neuron disekitar winner, tapi pada GSOM, tetangga awal diseleksi berdasarkan kesesuaian bobot yang kecil, berbeda dengan SOM yang berdasarkan penyesuaian bobot lokal. Besar dari penyesuaian (laju pembelajaran) direduksi secara eksponensial sejalan dengan iterasi yang terjadi. Meskipun tetangga, bobot yang berdekatan dengan winner lebih mudah disesuaikan dibandingkan yang jaraknya jauh. Penyesuaian bobot dideskripsikan sebagai berikut : pada nilai pada node yang terdapat di peta saat waktu ke .

Untuk nilai fungsi tetangga digunakan fungsi Gaussian. Formulasi pengukuran ukuran node tetangga adalah sebagai berikut :

Dengan adalah jarak antara dan dengan sebagai parameter

‘lebar efektif’ dari lingkungan.

d) Naikkan nilai error pada winner (nilai error adalah perbedaan antara vektor masukkan dan bobot vektor).

e) Ketika dengan adalah total error pada node dan adalah Growth Threshold. Node akan berubah jika adalah node batas. Distribusi bobot pada tetangga jika bukan merupakan node batas. f) Inisialisasi bobot node baru (Gambar 3) dengan mengikuti beberapa lama juga boleh memiliki tetangga yang tidak bertetangga secara bersebrangan dengan node yang baru. Aturan ini mirip dengna (i), tetapi memiliki perbedaan pada posisi tetangga. Ketika kedua kondisi dipenuhi, gunakan aturan (i)

(20)

7 (iii) Berada antara dua node yang lama. Jika di definisikan maka :

(5) (iv) Memiliki satu saja tetangga node yang lama. Jika di definisikan

maka :

Gambar 3 Aturan inisialisasi node (Zhu dan Zhu 2010) g) Inisialisasi laju pembelajaran pada bobot node yang baru

h) Ulangi langkah b sampai g hingga semua masukkan di representasikan dan growth node atau node yang mengalami perubahan mencapai level maksimum

3. Fase Smooting

a) Untuk setiap node pada peta, akan terbentuk set yang terdiri dari semua item masukkan dimana item masukkan tersebut adalah item yang di referensikan pada node dan memiliki jarak terdekat

b) Untuk setiap node pada peta, ambil satu item yang di referensikan dan yang merupakan rata-rata dari daftar gabungan topologi set tetangga (N : angka natural) node tersebut.pada tahap ini Learning Rate dan Neighborhood Size akan di redukasi. Rata-rata jika di definisikan adalah sebagai berikut :

c) Ulangi langkah a dan b sampai memperoleh peta yang stabil

Growth Threshold , berdasarkan dimensi dataset dan Spread Factor . adalah penentu awal nilai dengan rentang 0 sampai 1, 0 adalah nilai paling mungkin untuk menyebar dan 1 adalah penyebaran maksimum. Batasan penyebaran dengan nilai terkecil adalah nilai pemetaan awal yang ideal. Sekali pengelompokan yang signifikan teridentifikasi, maka bisa dijadikan sebagai pijakan analisis selanjutnya dengan nilai yang tinggi.

6)

(21)

8

3 METODE PENELITIAN

Penelitian ini menggunakan data fragmen metagenom dari 300 mikrob dan kemudian dikelompokan berdasarkan tingkat taksonomi filum. Teknik pengambilan data fragmen metagenom yang digunakan adalah cluster sampling. Teknik cluster sampling adalah teknik yang menggunakan sampel yang memiliki jumlah item yang banyak pada suatu kelompok atau koleksi dan merupakan teknik yang sederhana serta rendah biaya (Scheafffer et al. 1990).

Sesuai dengan tujuan penelitian ini, metode GSOM digunakan untuk pengelompokan fragmen metagenom. Data awal akan disimulasi menggunakan MetaSim (Richter et al. 2008) dan menghasilkan sekuens DNA. Hasil simulasi ini yang akan digunakan pada pengekstraksian ciri sehingga didapat matriks komposisinya. Selanjutnya fragmen metagenom akan dikelompokan menjadi 20 kelompok yang berbeda berdasarkan kesamaan dari pemetaan yang dihasilkan. Ilustrasi pemetaan fragmen metagenom, ditunjukkan pada Gambar 4.

(22)

9

Gambar 5 Prosedur penelitian

Data Penelitian

(23)

10

Gambar 6 Contoh data hasil simulasi MetaSim.

Ekstraksi Ciri

Ekstraksi ciri adalah pembacaan frekuensi oligonukleotida (trinukleotida dan tetranukleotida) dengan k-mer dan juga ekstraksi menggunakan spaced k-mer yang memperhatikan kondisi don’t care pada perhitungan frekuensi oligonukleotida. Ekstraksi ciri akan menampilkan pola kemunculan k pada suatu waktu dalam suatu sekuens. Pada penelitian ini, dimensi hasil ekstraksi ciri adalah sebagai berikut seperti pada Tabel 1 :

Tabel 1 Dimensi hasil ekstraksi ciri

Frekuensi Oligonukleotida Dimensi

Trinukleotida 64 × total fragmen

Tetranukleotida 256 × total fragmen

Spaced k-mer 192× total fragmen

Praproses Data

Untuk mencegah adanya hasil implementasi yang bias, maka pengelompokan fragmen metagenom didahului dengan normalisasi data hasil ekstraksi fitur. Normalisasi data adalah salah satu bagian dari data transformasi, yaitu teknik mengubah data menjadi nilai yang lebih mudah untuk dipahami (Han et al. 2012).

Tujuan lebih khusus dari normalisasi data adalah mendapatkan bobot yang sama dari semua atribut data dan tidak bervariasi atau hasil dari pembobotan tersebut tidak terdapat atribut yang lebih prior atau dianggap lebih utama dari pada yang lain.

Untuk penelitian ini, normalisasi data yang digunakan adalah decimal scaling. Data fragmen metagenom akan diubah bobotnya menjadi data yang memiliki rentang [0, 1] menggunakan transformasi linear sederhana (Vesanto et al. 2000). Contoh hasil praproses data pada Gambar 7.

dengan adalah dataset.

(8)

>r1.1 |SOURCES={GI=298489614,bw,4206109-4207109}| ERRORS={}

(24)

11

Gambar 7 Praproses data dengan decimal scaling Pembagian Data Latih dan Data Uji

Jumlah data adalah 200 mikrob untuk data latih dengan total jumlah fragmen yang digunakan adalah 200 000 fragmen. Sedangkan untuk data uji digunakan 100 mikrob dengan total jumlah fragmen sebanyak 100 000 fragmen. Perkiraan fragmen per mikrob adalah sebanyak 1000 fragmen. Frekuensi oligonukleotida yang digunakan juga beragam untuk masing-masing dataset, yaitu trinukleotida, tetranukleotida, dan juga menggunakan spaced k-mer.

Pengelompokan dengan Growing Self Organizing Map

Pengelompokan dilakukan menggunakan matriks komposisi hasil ekstraksi fitur. Normalisasi dilakukan pada matriks komposisi agar perhitungan tidak menghasilkan data yang terlalu bervariasi dan bobot yang sama. Data kemudian akan dikelompokan berdasarkan tingkat filum sebanyak 20 kelompok sesuai dengan NCBI Taxonomy Browser (Federhen 2012). Filum yang digunakan berada pada Tabel 2.

Tabel 2 Filum berdasarkan NCBI Taxonomy Browser

No Filum

1 Actinobacteria (high G+C gram positive bacteria)

2 Aquificae

3 Bacteroidetes

4 Chlorobi

5 Chlamydiae

6 Verrucomicrobia

7 Chloroflexi (green non sulfur bacteria)

8 Cyanobacteria (blue green algae)

9 Deinococcus-thermus

10 Acidobacteria

11 Firmicutes (gram positive bacteria)

12 Fusobacteria

13 Gemmatimonadetes

14 Nitrospirae

15 Planctomycetes

16 Proteobacteria (purple bacteria and relative)

17 Spirochaetes

18 Synergistetes

19 Tenericutes

20 Thermotogae

(25)

12

Pengelompokan fragmen metagenom dilakukan dengan GSOM. Arsitektur metode GSOM terdiri dari beberapa fase, yaitu fase inisialisasi, fase growing, dan fase smoothing. Untuk melakukan pengelompokan data, awalnya dilakukan inisialisasi bobot vektor (biasanya di inisialisiasi empat node), nilai Growth Threshold (GT) yang digunakan sebagai batasan dari topologi peta berdasarkan nilai penyebaran atau Spread Factor (SF) dan dimensi dataset D (dimensi D adalah pembacaan fragmen metagenom frekuensi oligonukleotida). GT jika diformulasikan adalah sebagai berikut . Selain itu dilakukan pembobotan vektor dari tiap pembacaan fragmen metagenom dan pembacaan pada penelitian ini dilakukan sebanyak 100 000 fragmen untuk data uji dan 200 000 fragmen untuk data latih. Gambar 8 menampilkan blok diagram pengelompokan dengan metode GSOM.

(26)

13

Fase Inisialisasi

Fase pertama dari metode GSOM adalah fase inisialisasi. Empat neuron pertama akan diinisialisasi dengan angka random atau acak. Neuron tersebut diinisialisiasi dengan angka antara 0 sampai 1. Selanjutnya akan dihitung nilai Growth Threshold (GT). Fase inisialisasi digambarkan pada Gambar 9.

Gambar 9 Fase inisialisasi

Perhitungan GT digunakan untuk menentukan dan mendapatkan hasil topologi peta yang ideal. Untuk mendapatkan hasil peta yang ideal, maka harus ditentukan penyebaran dari titik-titik neuron. Pengontrolan ini ditentukan oleh nilai Spread Factor (SF). Nilai SF pada penelitian ini digunakan berbeda pada tiap frekuensi, yaitu 0.6 untuk frekuensi trinukleotida dan spaced k-mer,dan 0.8 untuk frekuensi tetranukleotida

Gambar 10 Inisialisasi starting node

(27)

14

While (node hasil inisialisasi bobot) For (tiap epoch)

Tentukan Learning Rate dan Neighborhood Size

If (pemenang yang ditentukan dari matriks komposisi) Then

Bobot vektor diambil dan diaplikasikan pada tetangga dan pemenang itu sendiri

Nilai error dari pemenang ditingkatkan End if

If (total error node i < GT) Grow node jika memenuhi syarat Else

Bobot dari vektor akan didistribusikan pada tetangga sekitar

End if

Inisialisasi Learning Rate dan Neighborhood Size baru Repeat until (semua vektor matriks komposisi digunakan dan grow node mencapai level minimum)

End End

awal ini, semua vektor matriks komposisi akan dipetakan dan mengalami proses growing pada fase selanjutnya, yaitu fase growing.

Fase Growing

Fase growing merupakan fase terpenting dalam metode GSOM karena pada tahap ini peta akan mengalami ekspansi sehingga menjadi lebih dinamik dibandingkan metode SOM. Berikut adalah algoritme fase growing.

Pada fase growing ini juga diinisialisasi beberapa training paramater, yaitu epoch, Learning Rate, dan Neighborhood Size.

Fase Smoothing

Fase smoothing adalah ketika parameter Learning Rate akan di turunkan nilainya begitu juga dengan parameter Neighborhood Size. Learning Rate dan Neighborhood Size yang digunakan akan selalu berubah pada setiap iterasi. Ketika mencapai level yang minimum, maka kedua parameter tersebut juga akan mendekati nilai 0. Untuk penelitian ini, parameter Learning Rate akan di set untuk berhenti pada nilai 0.01 dan Neighborhood Size di set berhenti secara random.

(28)

15

Gambar 11 Best Matching Unit (Vesanto et al. 2000)

Titik hitam adalah neuron mula-mula sedangkan adalah vektor yang diambil secara acak. Setelah dilakukan perhitungan jarak maka terlihat perubahan letak neuron yang bergerakn menuju vektor . Pergerakan neuron diilustrasikan dengan titik abu-abu. Titik yang berwarna merah diasumsikan sebagai neuron yang memiliki jarak yang terdekat sehingga disebut dengan BMU.

Evaluasi

Pada evaluasi model untuk pemetaan menggunakan metode GSOM, digunakan dua pengukuran utama, yaitu quantization error dan topographic error. Parameter yang digunakan untuk mendapatkan pengukuran berdasarkan pada parameter learning, topologi peta, dan bentuk dari peta.

Quantization error atau qe (Uriarte dan Martin 2005) adalah pengukuran yang umum digunakan pada penentuan kualitas pemetaan dengan Kohonen map. Pengukuran ini adalah untuk mengukur jarak rata-rata antara vektor data dan Best Matching Unit (BMU) yang berada di sekitar ruang input dan selanjutnya akan mengevaluasi kecocokan dari peta neural, karena itu rata-rata nilai quantization error yang terkecil menunjukkan bahwa jarak vektor data tersebut dekat dengan prototype yang dihasilkan. Perhitungan quantization error, jika diformulasikan adalah sebagai berikut :

Dengan adalah banyak data vektor,

adalah Best Matching prototype

dari vektor data

yang saling berhubungan. Gambar 12 adalah penggambaran pengukuran quantization error.

Gambar 12 Pengukuran quantization error

(29)

16

Topographic error atau te (Uriarte dan Martin 2005) digunakan untuk mengukur distorsi error pada topologi peta menggunakan input sampel untuk menentukan pemetaan lanjutan dari ruang input pada grid peta. Jadi BMU yang pertama dan BMU yang kedua bukan merupakan vektor yang saling berdekatan. Topographic error dapat diformulasikan sebagai berikut :

Jika fungsi

adalah 1, maka vektor data

mempunyai BMU yang saling berdekatan. Jika 0, maka bernilai sebaliknya. Diharapkan dengan pengukuran dengan topographic error mendekati nilai 0, yang berarti rata-rata BMU pertama dan BMU kedua tidak saling berdekatan. Gambar 13 menunjukkan pengukuran dengan topographic error.

Gambar 13 Pengukuran topographic error

Selain menggunakan quantization error dan topographic error, digunakan juga persentase error untuk menghitung kesalahan pemetaan pada tiap kelompok. Jadi hanya didasarkan pada perhitungan data fragmen metagenom yang salah pada tiap kelompok filum. Sedangkan untuk uji efisiensi digunakan variabel akurasi kecepatan dalam pengelompokan fragmen metagenom.

Peralatan Penelitian

Alat yang digunakan dalam penelitian ini dibagi dalam perangkat keras dan perangkat lunak, sebagai berikut :

a. Perangkat keras :

 Processor : Intel(R) Celeron(R) CPU B815 @ 1.60 GHz 1.60 GHz

 Memory : DDR 2 RAM 2 GB

 Harddisk : 500 GB b. Perangkat lunak :

 Sistem operasi Windows 7 Enterprise 64-bit operating system

 Dev CppPortable

 Notepad ++

 Matlab 7.11.0 (R2010b)

 MetaSim version 0.9.1

(30)

17

Data simulasi

4 HASIL DAN PEMBAHASAN

Pengelompokan fragmen metagenom dikembangkan dengan bahasa pemrograman C++ dan Matlab 7.11.0 (R2010b). Fragmen metagenom akan dikelompokan dalam 20 kategori, yaitu 20 filum berdasarkan NCBI Taxonomy Browser.

Basis Data Fragmen Metagenom

Penelitian ini menggunakan data fragmen metagenom dengan format FASTA file (FNA) yang diunduh dari situs NCBI dengan memilih 300 mikrob yang nantinya terbagi 200 mikrob untuk data latih dan 100 mikrob untuk data uji. Data mikrob untuk data latih dan data uji yang digunakan pada penelitian ini dapat dilihat pada Lampiran 1 dan Lampiran 2. Data latih digunakan untuk mendapatkan model pengelompokan berdasarkan tingkat filum. Sedangkan data uji digunakan untuk mengevaluasi model pengelompokan. Selain itu data uji akan dilakukan pengujian pada parameter yang berbeda untuk mendapatkan ukuran peta yang terbaik berdasarkan hasil evaluasi error terkecil menggunakan tiga frekuensi oligonukleotda.

Ekstraksi Ciri dengan K-Mer Frequency

Fragmen metagenom hasil simulasi MetaSim akan diekstraksi dengan k-mer frequency. Ekstraksi dengan k-mer akan membentuk matriks komposisi sesuai dengan berapa banyak data yang dibangkitkan dan frekuensi oligonukleotida yang digunakan. Frekuensi fragmen metagenom yang diekstraksi dengan k-mer frequency adalah trinukleotida dan tetranukleotida. Banyak data yang dibangkitkan adalah 200 000 untuk data latih dan 100 000 untuk data uji. Fitur yang digunakan adalah sebanyak 64 untuk trinukleotida, dan 256 untuk tetranukleotida. Sehingga didapat perhitungan untuk tiap frekuensi oligonukleotida akan diperoleh matriks komposisi dengan ukuran , , , dan ,; masing-masing untuk data latih dan data uji. Contoh hasil ekstraksi ciri pada salah satu frekuensi oligonukleotida ditunjukkan pada Gambar 14.

>r1.1 |SOURCES={GI=298489614,bw,4206109-4207109}|

908869}| ERRORS={}|SOURCE_1="Zymomonas mobilis

subsp. pomaceae ATCC 29192 chromosome" (1d636f431b28c64507ddc507fa994a350f383789)

Gambar 14 Matriks komposisi salah satu frekuensi oligonukleotida

(31)

18

Ekstraksi Ciri dengan Spaced k-mer

Selain menggunakan k-mer frequency untuk ekstraksi ciri, digunakan spaced k-mer. Ekstraksi dengan spaced k-mer lebih ekonomis dilihat dari sisi penerimaan informasi (information retrieval) karena ekstraksi ini menggunakan kondisi don’t care sehingga waktu yang dibutuhkan tidak terlalu lama tapi sudah mendapatkan informasi tentang komposisi dari fragmen metagenom dengan lebih terperinci. Data fragmen metagenom dihitung hampir sama dengan menggunakan k-mer frequency, tapi ekstraksi ini memperhatikan don’t care yang mempunyai pola , dengan adalah kondisi don’t care. Sehingga dari perhitungan didapat dimensi fitur adalah sebanyak 192. Ukuran matriks komposisi dengan ekstraksi spaced k-mer pada data latih adalah dan 1 untuk data uji.

Praproses Data Fragmen Metagenom

Praproses bertujuan untuk mengurangi variasi data sehingga data mudah untuk dipahami. Fragmen metagenom yang awalnya berupa matriks komposisi diubah menjadi data matriks yang bernilai antara 0 dan 1 dengan metode decimal scaling. Contoh hasil decimal scaling yang diperoleh untuk salah satu frekuensi oligonukleotida ditunjukkan pada Gambar 15.

9 9 8 .. 5

Data Simulasi Hasil Decimal Scaling

Gambar 15 Matriks decimal scaling salah satu frekuensi oligonukleotida

Pembagian Data Latih dan Data Uji

(32)

19 Tabel 3 Pembagian mikrob data latih dan data uji

Data latih Data uji

No Mikrob No Mikrob

1 Acetobacterium woodi DSM 1030

chromosome

1 Acaryochloris marina MBIC11017 chromosome

2 Acidaminococcus fermentans DSM

20731 chromosome

2 Acetobacter pasterianus IFO 3283-01

3 Acidithiobacillus ferrivorans SS3 chromosome

3 Acholeplasma laidlawii PG-8A

chromosome

4 Acidovorax sp.JS42 chromosome 4 Acidimicrobium ferroxidans DSM

10331 chromosome

5 Acinetobacter sp.ADP1 chromosome 5 Actinobacillus pleuropneumoniae

serovar 3 str. JL03 chromosome

. . . . . .

200 Zymomonas mobilis subsp.pomaceae ATCC 29192 chromosome

100 Weissella korensis KACC 15510 chromosome

Data fragmen metagenom, masing-masing data latih dan data uji akan di bangkitkan sebanyak 200 000 fragmen untuk data latih dan 100 000 fragmen untuk data uji. Banyaknya pembangkitan data dari tiap kelompok filum dihitung secara otomatis ketika data disimulasi oleh MetaSim untuk setiap mikrob. Hasil perhitungan pembangkitan data latih dan data uji ditampilkan pada Tabel 4 dan Tabel 5.

Tabel 4 Pembangkitan data latih

No Filum Reads

6 Verrucomicrobia 4679

7 Chloroflexi 13 760

8 Cyanobacteria 16 376

9 Deinococcus-thermus 7606

10 Acidobacteria 10 781

11 Firmicutes 17 559

12 Fusobacteria 3400

13 Gemmatimonadetes 1484

14 Nitrospirae 2831

15 Planctomycetes 10 830

16 Proteobacteria 18 984

17 Spirochaetes 8702

18 Synergistetes 1922

19 Tenericutes 11 651

(33)

20

Tabel 5 Pembangkitan data uji

No Filum Reads

1 Actinobacteria 5452

2 Aquificae 2144

3 Bacteroidetes 5330

4 Chlorobi 3950

5 Chlamydiae 3764

6 Verrucomicrobia 3716

7 Chloroflexi 8652

8 Cyanobacteria 5685

9 Deinococcus-thermus 3873

10 Acidobacteria 10 199

11 Firmicutes 7648

12 Fusobacteria 3281

13 Gemmatimonadetes 1398

14 Nitrospirae 2751

15 Planctomycetes 9168

16 Proteobacteria 12 518

17 Spirochaetes 5829

18 Synergistetes 1846

19 Tenericutes 999

20 Thermotogae 1797

Pengelompokan Fragmen Metagenom dengan GSOM

Frekuensi oligonukleotida adalah frekuensi kemunculan pasangan basa pada fragmen metagenom, dan pada penelitian ini muncul sebanyak trinukleotida, tetranukleotida, dan menggunakan frekuensi spaced k-mer yang memperhatikan kondisi don’t care. Dalam penelitian ini, kemunculan frekuensi trinukleotida pada fragmen metagenom adalah sebanyak 64 fitur, frekuensi tetranukleotida sebanyak 256 fitur, dan frekuensi spaced k-mer sebanyak 192 fitur.

Fase Inisialisasi

Fase inisialisasi merupakan fase awal untuk menentukan parameter global, yaitu GrowthThreshold (GT). Parameter ini ditentukan oleh pengguna (user). GT digunakan untuk mengatur penyebaran neuron pada peta. Untuk frekuensi trinukleotida, parameter GT diset dengan nilai 0.6. Untuk tetranukleotida diset dengan nilai 0.8, dan 0.6 untuk frekuensi spaced k-mer. Insialisasi bobot menggunakan inisialisasi secara random atau acak. Setiap data vektor akan diberi nilai hasil distribusi antara nilai yang paling minimum dan yang paling maksimal dari dataset fragmen metagenom.

Fase Growing

(34)

21

Matriks hasil inisialisasi bobot pada trinukleotida

0.0347 0.0551 0.0929 . . . 0.2122

Matriks hasil inisialisasi bobot pada tetranukleotida

0.0801 0.1864 0.1055 . . . 0.3639

Matriks hasil inisialisasi bobot pada frekuensi spaced k-mer

Gambar 16 Insialisasi bobot pada frekuensi oligonukleotida

Fase Smoothing

Pada fase ini, semua hasil pelatihan dan pengujian akan berhenti mengalami proses growing. Hasil pengelompokan akan menghasilkan pemetaan yang stabil dan tiap data vektor akan dipetakan pada grid peta. Gambar 17, Gambar 18 dan Gambar 19 menampilkan hasil pemetaan frekuensi trinukleotida, tetranukleotida dan spaced k-mer berdasarkan algoritme GSOM.

Evaluasi

(35)

22

Gambar 17 Pemetaan frekuensi trinukleotida

(36)

23

Gambar 19 Pemetaan frekuensi spaced k-mer Frekuensi Trinukleotida

(37)

24

Tabel 6 Perhitungan quantization error pada trinukleotida

LR NS

0 1 2 3 4

0,1 0,759 0,531 0,709 0,76 0,758

0,25 0,744 0,752 0,741 0,742 0,747

0,5 0,639 0,736 0,639 0,742 0,741

0,75 0,871 0,757 0,667 0,752 0,684

0,9 0,842 0,834 0,781 0,773 0,794

Tabel 7 Perhitungan topographic error pada trinukleotida

LR NS

0 1 2 3 4

0,1 0,125 0,101 0,119 0,124 0,134

0,25 0,112 0,127 0,129 0,117 0,132

0,5 0,109 0,115 0,117 0,11 0,134

0,75 0,108 0,109 0,131 0,111 0,135

0,9 0,109 0,109 0,132 0,124 0,134

Tabel 8 Perhitungan persentase error pada trinukleotida

LR NS

0 1 2 3 4

0,1 18,73 16,84 19,21 18,83 19,03

0,25 17,69 18,63 17,09 18,23 18,76

0,5 18,2 18,08 16,97 18,37 18,41

0,75 18,02 18,88 17,79 18,74 18,34

0,9 18,44 18,34 19,02 19,23 18,24

Dari Tabel 6, Tabel 7 dan Tabel 8, kombinasi parameter yang memberikan hasil error yang paling kecil adalah pada Learning Rate 0.1 dengan Neighborhood Size 1. Hasil error terkecil yang diberikan adalah 0.531 untuk quantization error dan 0.101 untuk topographic error. Sedangkan untuk kesalahan pengelompokan memberikan hasil error sebesar 16.84%.

(38)

25

Gambar 20 Perhitungan quantization error pada trinukleotida

Gambar 21 Perhitungan topographic error pada trinukleotida

0

Perhitungan Quantization Error pada trinukleotida

LR 0.1

Perhitungan Topographic Error pada trinukleotida

(39)

26

Gambar 22 Perhitungan persentase error pada trinukleotida

Frekuensi Tetranukleotida

Hasil kombinasi atau variasi parameter pada frekuensi tetranukleotida dilakukan berdasarkan perhitungan error, yaitu quantization error, topographic error, dan persentase error. Tabel 9, Tabel 10 dan Tabel 11 menampilkan error yang dihasilkan untuk tiap kombinasi parameter Learning Rate (LR) dan Neighborhood Size (NS). Kolom yang berwarna abu-abu menunjukkan nilai error terkecil pada frekuensi tetranukleotida.

Tabel 9 Perhitungan quantization error pada tetranukleotida

LR NS

Tabel 10 Perhitungan topographic error pada tetranukleotida

LR NS

Perhitungan Persentase Error pada trinukleotida

(40)

27 Tabel 11 Perhitungan persentase error pada tetranukleotida

LR NS memberikan hasil error yang paling kecil adalah pada Learning Rate 0.75 dengan Neighborhood Size 1. Hasil error terkecil yang diberikan adalah 0.886 untuk quantization error dan 0.09 untuk topographic error. Sedangkan untuk kesalahan pengelompokan memberikan hasil error sebesar 15.43%.

Hasil kombinasi paramater pada frekuensi tetranukleotida dapat dilihat pada Gambar 23 untuk perhitungan quantization error, dan Gambar 24 untuk perhitungan topographic error. Untuk kesalahan dalam pengelompokan, ditunjukkan pada Gambar 25.

Gambar 23 Perhitungan quantization error pada tetranukleotida

0,000

Perhitungan Quantization Error pada tetranukleotida

(41)

28

Gambar 24 Perhitungan topographic error pada tetranukleotida

Gambar 25 Perhitungan persentase error pada tetranukleotida

0

Perhitungan Topographic Error pada tetranukleotida

LR 0.1

Perhitungan Persentase Error pada tetranukleotida

(42)

29

Frekuensi Spaced k-mer

Hasil kombinasi atau variasi parameter pada frekuensi spaced k-mer dilakukan berdasarkan perhitungan error, yaitu quantization error, topographic error, dan persentase error. Tabel 12, Tabel 13 dan Tabel 14 menampilkan error yang dihasilkan untuk tiap kombinasi parameter Learning Rate (LR) dan Neighborhood Size (NS). ). Kolom yang berwarna abu-abu menunjukkan nilai error terkecil pada frekuensi spaced k-mer.

Tabel 12 Perhitungan quantization error pada spaced k-mer

LR NS

Tabel 13 Perhitungan topographic error pada spaced k-mer

LR NS

Tabel 14 Perhitungan persentase error pada spaced k-mer

LR NS memberikan hasil error yang paling kecil adalah pada Learning Rate 0.5 dengan Neighborhood Size 1. Hasil error terkecil yang diberikan adalah 0.665 untuk quantization error dan 0.06 untuk topographic error. Sedangkan untuk kesalahan pengelompokan memberikan hasil error sebesar 13.07%.

(43)

30

Gambar 26 Perhitungan quantization error pada spaced k-mer

Gambar 27 Perhitungan topographic error pada spaced k-mer 0,000

Perhitungan Quantization Error pada Spaced K-Mer

LR 0.1

Perhitungan Topographic Error pada Spaced K-Mer

(44)

31

Gambar 28 Perhitungan persentase error pada spaced k-mer

Berdasarkan hasil pertimbangan error yang dihasilkan dari ketiga frekuensi oligonukleotida, maka frekuensi spaced k-mer memberikan hasil error yang paling kecil dari perhitungan kombinasi parameter. Untuk quantization error, frekuensi spaced k-mer memberikan hasil 0.665 dan hasil error tersebut masih lebih besar dibandingkan dengan frekuensi trinukleotida yang hanya memberikan hasil quantization error 0.531.

Meskipun demikian, jika dilihat dari distorsi error pada topologi peta menggunakan pengukuran topographic error, frekuensi spaced k-mer memberikan error yang lebih kecil dibandingkan dengan trinukleotida dan tetranukleotida, yaitu 0.06 sehingga menjadikan frekuensi spaced k-mer lebih baik dalam pemetaan fragmen metagenom dibandingkan dengan frekuensi oligonukleotida yang lain.

Selain dilihat dari hasil pengukuran quantization error dan topographic error, persentase error dalam mengelompokan fragmen metagenom menggunakan frekuensi spaced k-mer menunjukkan hasil error yang paling rendah, yaitu 13.07%. Hal ini menunjukkan bahwa kombinasi parameter Learning Rate 0.5 dengan Neighborhood Size 1 pada frekuensi spaced k-mer memberikan hasil terbaik dalam pengelompokan fragmen metagenom dengan metode GSOM.

Dari kombinasi paramater terbaik pada frekuensi spaced k-mer, maka akan dilihat pengujian pada map size dari [100 – 500] dengan mengkombinasikan unit dari peta untuk mendapatkan kombinasi map size dan unit peta terbaik dalam pemetaan fragmen metagenom dengan metode GSOM. Tabel 15 akan menampilkan parameter yang digunakan dan Tabel 16 menunjukkan hasil pelatihan dari parameter yang digunakan.

12

Perhitungan Persentase Error pada Spaced K-Mer

(45)

32

Training length 10 epochs

Tabel 16 Hasil pelatihan frekuensi spaced k-mer

Map size Unit peta Waktu latih Persentase error

[100 100] 300 42 menit 6.73%

Tabel 16 menunjukkan hasil dari pelatihan fragmen mentagenom dengan metode GSOM pada frekuensi spaced k-mer. Pada data yang memiliki map size [100 100] dan [100 150] dengan unit peta sebanyak 300 unit memiliki persentase error yang kecil, yaitu 6.73% dan 6.43%. Sedangkan untuk data yang memiliki map size yang besar seperti [500 500] dengan unit peta sebanyak 5000 unit, memberikan hasil persentase error yang lebih banyak, yaitu 10.14%.

Hasil pengujian tersebut menunjukkan bahwa map size dan unit dari peta berpengaruh pada waktu pelatihan dan juga persentase error yang dihasilkan. Semakin kecil map size dan unit peta, maka makin sedikit waktu yang dibutuhkan untuk pelatihan dan persentase error yang dihasilkan. Dari hasil tersebut maka dapat diketahui bahwa metode GSOM memiliki akurasi dalam pengelompokan yang baik dengan menggunakan frekuensi spaced k-mer dengan persentase error ≥ 89.71% dengan menggunakan map size [100 – 500] dan unit peta dari 300 – 5000 unit peta.

Pengujian Data Menggunakan BLAST

Pada penelitian ini dilakukan pengujian pada mikrob yang tidak termasuk pada data uji, yaitu mikrob Bacteroides fragilis 638R dengan menggunakan panjang fragmen 1 kbp. Banyak pembacaan adalah 1024 reads. Kelompok filum mikrob tersebut adalah Bacteroidetes. Hasil pengelompokan sebagian besar mengelompokan pada filum Bacteroidetes. Hasil pengelompokan dapat dilihat pada Gambar 29.

(46)

33 dapat dilihat bahwa kelompok filum Bacteroidetes memiliki kesamaan yang tinggi dengan Bacteroides fragilis 638R.

Gambar 29 Hasil pengelompokan Bacteroides fragilis 638R dengan 1024 reads Berikut adalah hasil dari alignment BLAST untuk mencari kesamaan mikrob Bacteroides fragilis 638R. Gambar 30 memperlihatkan data yang digunakan, Gambar 31 menunjukkan ‘hit’ dari pencarian BLAST. Tabel 17 menampilkan 17 mikrob yang memiliki kesamaan dengan Bacteroides fragilis 638R pada pencarian kesamaan menggunakan BLAST. Lampiran 6 menunjukkan pohon taksonomi BLAST dari organisme yang memiliki kesamaan dengan Bacteroides fragilis 638R.

Gambar 30 Data yang digunakan dengan panjang sekuens query 1000 (1 kbp)

94,24%

4,49% _1,27%

Bacteroidetes

Chlamydiae

Proteobacteria

Bacteroidetes

(47)

34

Gambar 31 Hit dari 17 organisme yang memiliki kesamaan dengan Bacteroides fragilis 638R

Tabel 17 Daftar organisme yang memiliki kesamaan dari hasil alignment Bacteroides fragilis 638R pada BLAST

No Deskripsi Max 1 Bacteroides fragilis 638R

genome

1804 1804 100% 0.0 100%

2 Bacteroidesfragilis NCTC 9343, complete genome

1804 1804 100% 0.0 100%

3 Bacteroides fragilis YCH46 DNA, complete genome

1790 1790 100% 0.0 99%

4 Uncultured organism clone 1041059767817genomic sequence

250 250 83% 2e-62 67%

5 Uncultured orgnism clone VC1AB77TF genomic sequence

199 199 47% 4e-47 70%

6 Bacteroides helcogenes P 36-108, complete genome

168 168 85% 6e-38 66%

7 Tannerella forsythia ATCC 43037, complete genome

9 Melioribacter roseus P3M, complete genome

(48)

35

No Deskripsi Max

score Total score

Query cover

E value

Max ident 14 Bacteroides vulgatus ATCC

8482, complete genome

46.4 46.4 13% 0.52 69%

15 Prevotella denticola F0289, complete genome

42.8 42.8 9% 6.3 70%

16 Prevotella melaninogenica ATCC 25845 chromosome I, complete sequence

42.8 42.8 9% 6.3 70%

17 Bacteroides

thetaiotaomicron VPI-5482, complete genome

42.8 42.8 6% 6.3 75%

(49)

36

5 SIMPULAN DAN SARAN

Simpulan

Simpulan dari hasil penelitian ini adalah :

1. Metode GSOM dapat digunakan untuk pemetaan fragmen metagenom yang memiliki komunitas yang besar dan memiliki panjang fragmen yang pendek, yaitu 1 kbp.

2. Pengelompokan fragmen metagenom dengan metode GSOM menghasilkan

akurasi ≥ 80%, sehingga dapat dikatakan bahwa metode GSOM dapat mengelompokan fragmen metagenom dengan benar dengan kombinasi parameter terbaik adalah menggunakan Learning Rate sebesar 0.5 dengan Neighborhood Size sebesar 1.

3. Untuk frekuensi oligonukleotida, frekuensi spaced k-mer merupakan frekuensi yang terbaik untuk memetakan fragmen metagenom karena menghasilkan persentase error hanya sebesar 13.07% dengan distorsi error sebesar 0.06 untuk pemetaan dengan map size [10 10].

4. Pelatihan dengan menggunakan frekuensi spaced k-mer dengan kombinasi parameter terbaik menghasilkan pemetaan terbaik pada map size [100 150] dengan unit peta sebanyak 100 unit. Persentase error yang dihasilkan adalah 6.43% dengan waktu latih 51 menit.

5. Banyaknya unit peta yang digunakan dan map size mempengaruhi waktu pelatihan dan persentase error yang dihasilkan. Semakin sedikit unit peta yang digunakan dan makin kecil map size, maka waktu pelatihan yang dibutuhkan makin cepat dan persentase error yang dihasilkan makin kecil.

Saran

Adapun saran untuk penelitian selanjutnya adalah :

1. Menggunakan data yang riil sehingga tidak lagi menggunakan data hasil simulasi

(50)

37

DAFTAR PUSTAKA

Abe T, Kanaya S, Kinouchi M, Ichiba Y, Kozuku T, Ikemura T. 2003. Informatics for unveiling hidden genome signatures. Genome Research. 179(4):693-701. doi:10.1101/gr.634603

Amano K, Nakamura H, Ichikawa H. 2003. Self-organizing clustering : a novel non-hierarchical method for clustering large amountof sequece DNAs. Genome Informatics. 14: 575-576

Amano K, Nakamura H, Ichikawa H, Numa H, Kobayashi KF, Nagamura Y, Onodera N. 2007. Self-organizing clustering : non-hierarchical clustering for large-scale sequence DNA data. IPSJ Digital Courier. 2(2):523-527 Brady A, Salzberg SL. 2009.Phymm and phymmbl : metagenomic phylogenetic

classification with interpolated markov models. Nature Methods. 6 (9) : 673

– 676. doi : 10.1038/nmeth.1358

Chan CK, Hsu AL, Tang SL, Halgamuge SK. 2007. Using growing self-organizing maps to prove the binning process in environmental whole-genome shotgun equencing. Journal of Biomedicine and Biotechnology. 2008. doi:10.1155/2008/513701

Choi JH, Cho HG. 2002. Analysis of common k-mers for whole genome sequence using SSB-tree. Genome Information. 13 : 30-41

De Silva D, Alahakoon D, Dharmage S. 2007. Cluster analysis using the GSOM : patterns in epidemiology. IEEE International Conference on ICIAF. 5(7):63

– 69. doi : 10.1109/ICIAFS.2007.4544781

Federhen S. 2012. The NCBI taxonomy database. Nucleic Acids Research. 40: 136- 143. doi : 10.1093/nar/gkr1178

Han J, Kamber M, Pei J. 2012. Data mining concepts and techniques. 3th ed. Waltham (US) : Morgan Kaufmann Publishers

Harayama S, Kasai Y, Hara A. 2004. Microbial communities in oil-contaminated seawater. Current Opinion in Biotechnology. 15:205-214

Hsu AL, Halgamuge SK. 2002. Enhancement of topology preservation and hierarchical dynamic self-organizing maps for data visualisation. International Journal of Approximate Reasoning. 32(2003):259-279

Hsu Al, Tang SL, Halgamuge SK. 2003. An unsupervised hierarchical dynamic self-organizing approach to cancer class discovery and marker gene identification in microarray data. Bioinformatics. 19(16) : 2131-2140. doi : 10.1093/bioinformatics.btg296

Huson DH, Auch AF. Qi J, Schuster SC. 2007. MEGAN analysis of metagenomic data. Genome Research. 17 : 1 – 11. doi : 10.1101/gr/5969107

Kusuma WA. 2012. Combined approaches for improving the performance of de novo dna sequence assembly and metagenomic classification of short fragments from next generation sequencer [disertasi]. Tokyo (JP) : Tokyo Institute of Technology.

Meyerdierks A, Glockner FO. 2010. Metagenome analysis. Advances in Marine Genomics. 1 : 33 – 71. doi : 10.1007/978-90-481-8639-6_2

(51)

38

Nasser S, Brelan A, Harris FC, Nicolescu M. 2008. A fuzzy classifier to taxonomically group dna fragments within a metagenome. Annual Meeting of the NAFIPS 08. 8 : 1-6

O’Malley M. 2012. Metagenomics. Springer [Internet].[diunduh 2012 Nov 29]. Tersedia pada : http://www.maureenomalley.org/publications.html

Pati A, Heath LS, Kyrpides NC, Ivanova N. 2011. ClaMS : A classifier for metagenomic sequences. Standards in Genomic Science. 5 : 248 – 253. doi :10.4056/sigs.2075298

Prabhakara S, Acharya R. 2012. Unsupervised two-way clustering of metagenomic sequence. Journal of Biomedicine and Biotechnology. doi : 101.1155/2012/153647

Richter DC, Ott F, Auch AF, Schmid R, Hudson DH. 2008. MetaSim-sequencing simulator for genomics and metagenomics. PLoS ONE. 3(10). doi:10.1371/journal.pone.0003373

Rodriguez AA, Bompada T, Syed M, Shah PK, Maltsev N. 2007. Evolutionary analysis of enzymes using chisel. Bioinformatics. 23( 22)

Rosen G, Garbarine E, Caseiro D, Polikar R, Sokhansanj B. 2008. Metagenome fragment classification using n-mer frequency profiles. Advances in Boinformatics. doi : 10.1155/2008/205969

Sheaffer RL, Mendenhall W, Ott RL. 1990. Elementary survey sampling. 4th ed. Boston (US) : PWS – KENT Publishing Company

Teeling H, Waldmann J, Lombardot T, Bauer M, Glockner FO. 2004. TETRA : a web service and stand-alone program for the analysis and comparison of tetranucleotide usage pattern in sequence DNAs. BMC Informatics. 5(163). doi:10.1186/1471-2105-5-163

Uriarte EA, Martin FD. 2005. Topology preservation in SOM. International Journal of Applied Mathematics and Computer Sciences. 1(1) : 19 - 22 Venter JC, Remington K, Heidelberg JF, Halpern AL, Rusch D, Eisen JA, Wu D,

Paulsen I, Nelson KE, Nelson W et al. 2004. Environmental genome shotgun sequencing of the sargasso sea. Science. 304 : 66 – 74. doi : 10.1126/science.1093857

Vesanto J, Himberg J, Alhoniemi E, Parhankangas J. 2000.SOM toolbox for matlab 5. Helsinski University of Technology. [Internet].[diunduh 2013 Jan 10]. Tersedia pada : http:///www.cis.hut.fi/projects/somtoolbox/

Woyke T, Teeling H, Ivanova NN, Hunteman M, Richter M, Gloeckner FO, Boffelli D, Anderson IJ, Barry KW, Shapiro HJ et al. 2006. Symbiosis insights through metagenomic analysis of a microbial consortium. Nature. 443(7114): 950-5.

Wu H. 2008. PCA – based Linear Combinations of Oligonucleotide Frequencies for Metagenomic DNA Fragment Binning. IEEE Symposium on CIBCB. 8 (2008): 46-53

Wu X, Lee W, Tseng C. 2005. ESTmapper : efficiently aligning sequence DNAs to genomes. IEEE International Paralel and Distributed Processing Symposium. 204(2005) : 196 – 204. Doi : 10.1109/IPDPS.2005.204

(52)

(53)

40

Lampiran 1Daftar mikrob yang digunakan sebagai data latih

Reads Mikrob

1702 Reads `'Nostoc azollae' 0708 chromosome'

1283 Reads `Acetobacterium woodii DSM 1030 chromosome'

716 Reads `Acidaminococcus fermentans DSM 20731 chromosome'

1053 Reads `Acidithiobacillus ferrivorans SS3 chromosome'

1391 Reads `Acidovorax sp. JS42 chromosome'

1097 Reads `Acinetobacter sp. ADP1 chromosome'

1460 Reads `Advenella kashmirensis WT001 chromosome'

1133 Reads `Aequorivita sublithincola DSM 14238 chromosome'

865 Reads `Akkermansia muciniphila ATCC BAA-835 chromosome'

1186 Reads `Alistipes finegoldii DSM 17242 chromosome'

661 Reads `Aminobacterium colombiense DSM 12261 chromosome'

658 Reads `Anaerobaculum mobile DSM 13181 chromosome'

1118 Reads `Anaerolinea thermophila UNI-1'

525 Reads `Aquifex aeolicus VF5'

650 Reads `Arcanobacterium haemolyticum DSM 20595 chromosome'

1318 Reads `Belliella baltica DSM 15883 chromosome'

195 Reads `Blattabacterium sp. (Blaberus giganteus) chromosome'

199 Reads `Blattabacterium sp. (Blattella germanica) str. Bge'

199 Reads `Blattabacterium sp. (Cryptocercus punctulatus) str. Cpu chromosome'

184 Reads `Blattabacterium sp. (Mastotermes darwiniensis) str. MADAR chromosome'

218 Reads `Blattabacterium sp. (Periplaneta americana) str. BPLAN'

146 Reads `Buchnera aphidicola (Cinara tujafilina) chromosome'

188 Reads `Buchnera aphidicola str. Bp (Baizongia pistaciae) chromosome'

154 Reads `Buchnera aphidicola str. Cc (Cinara cedri)'

1176 Reads `Burkholderia ambifaria AMMD chromosome 1'

1055 Reads `Burkholderia cenocepacia HI2424 chromosome 1'

1268 Reads `Burkholderia glumae BGR1 chromosome 1'

1641 Reads `Caldilinea aerophila DSM 14535 = NBRC 104270'

370 Reads `Candidatus Azobacteroides pseudotrichonymphae genomovar. CFP2 chromosome'

884 Reads `Candidatus Chloracidobacterium thermophilum B chromosome chromosome 1'

1390 Reads `Candidatus Nitrospira defluvii'

764 Reads `Candidatus Protochlamydia amoebophila UWE25 chromosome'

3274 Reads `Candidatus Solibacter usitatus Ellin6076 chromosome'

799 Reads `Capnocytophaga canimorsus Cc5 chromosome'

853 Reads `Capnocytophaga ochracea DSM 7271 chromosome'

3373 Reads `Catenulispora acidiphila DSM 44928 chromosome'

1567 Reads `Cellulophaga algicola DSM 14237 chromosome'

385 Reads `Chlamydia muridarum Nigg'

351 Reads `Chlamydia trachomatis 434/Bu chromosome'

329 Reads `Chlamydia trachomatis A/HAR-13'

(54)

41

Reads Mikrob

342 Reads `Chlamydia trachomatis B/Jali20/OT chromosome'

342 Reads `Chlamydia trachomatis B/TZ1A828/OT chromosome'

341 Reads `Chlamydia trachomatis D-EC chromosome'

340 Reads `Chlamydia trachomatis L2b/UCH-1/proctitis chromosome'

351 Reads `Chlamydophila abortus S26/3'

1017 Reads `Chlorobium phaeobacteroides DSM 266 chromosome'

642 Reads `Chlorobium phaeovibrioides DSM 265 chromosome'

1571 Reads `Chloroflexus aggregans DSM 9485 chromosome'

1717 Reads `Chloroflexus sp. Y-400-fl chromosome'

1179 Reads `Coraliomargarita akajimensis DSM 45221 chromosome'

867 Reads `Corynebacterium aurimucosum ATCC 700975'

816 Reads `Corynebacterium diphtheriae 241 chromosome'

1010 Reads `Corynebacterium efficiens YS-314 chromosome'

1095 Reads `Corynebacterium glutamicum ATCC 13032'

827 Reads `Corynebacterium jeikeium K411 chromosome'

809 Reads `Corynebacterium kroppenstedtii DSM 44385 chromosome'

770 Reads `Corynebacterium pseudotuberculosis 267 chromosome'

2019 Reads `Cyclobacterium marinum DSM 745 chromosome'

460 Reads `Dehalococcoides ethenogenes 195'

532 Reads `Dehalogenimonas lykanthroporepellens BL-DC-9 chromosome'

809 Reads `Deinococcus geothermalis DSM 11300'

2278 Reads `Dyadobacter fermentans DSM 18053 chromosome'

601 Reads `Fervidobacterium nodosum Rt17-B1 chromosome'

1139 Reads `Flavobacterium branchiophilum FL-15'

1012 Reads `Flavobacterium columnare ATCC 49512 chromosome'

946 Reads `Flavobacterium indicum GPTSA100-9'