IMPLEMENTASI SUPER PAIRWISE ALIGNMENT PADA GLOBAL ALIGNMENT UNTUK SEKUENS DNA

(1)

IMPLEMENTASI SUPER PAIRWISE ALIGNMENT PADA GLOBAL ALIGNMENT

UNTUK SEKUENS DNA

Nama Mahasiswa : Arfan Pantua

NRP : 1207100704

Jurusan : Matematika FMIPA-ITS

Pembimbing : Prof. DR. Mohammad Isa Irawan, MT.

Abstrak

Analisis sekuen adalah inti dari bioinformatika, sedangkan pensejajaran sekuen adalah hal mendasar dalam analisis sekuen. Pe-mograman dinamis adalah algoritma yang sering digunakan dalam pensejajaran sekuen. Sekalipun algoritma ini menghasilkan keselarasan yang optimal namun butuh perhitungan yang lama karena kompleksitas dalam perhitungan. Untuk mengurangi kom-pleksitas tanpa menghilangkan akurasi, diusulkan metode Super Pairwise Alignment untuk mensejajarkan dua sekuen. Tetapi pada saat ini masih kesulitan mendapatkan software yang mengimplementasikan metode Super Pairwise Alignment (SPA) tersebut. Dalam tugas akhir ini akan diimplementasikan metode SPA dalam pensejajaran sekuen dengan tools yang digunakan untuk validasi adalah tools JEmboss. Pengujian dengan SPA menggunakan parameter sekuen lokal (a=100), θ = 0.5 dan θ0_{= 0.6 mendekati hasil} pada JEmboss dengan parameter yang digunakan gap opening (a=100) dan gap extension (b=10).

Keywords: Super Pairwise Alignment, Pensejajaran Global, Analisis Probabilitas

1. Pendahuluan

Salah satu pengenalan spesies pada bioinformatika yaitu melalui pensejajaran sekuens (sequence alignment). Pada per-masalahan mutasi sekuens, solusi untuk pensejajaran sekuens dapat menggunakan program dinamik. Algoritma alignment berbasis program dinamik merupakan suatu algoritma yang seringkali digunakan untuk menyelesaikan permasalahan op-timalisasi pada berbagai macam bidang. Beberapa algo-ritma program dinamik antara lain Needleman-Wunsch, Smith-Watherman. Kedua algoritma tersebut merupakan algoritma klasik dalam analisis sekuens.[1]

Berdasarkan hasil penelitian, kedua metode tersebut memi-liki beberapa kelemahan salah satunya adalah tingkat kecepatan komputasinya. Dari hasil penelitiannya, ditemukan metode baru yaitu Super Pairwise Alignment. Metode ini meng-gabungkan metode analisis kombinatorial dan probabilitas [5]. Berdasarkan hasil penelitian ini cukup menarik untuk dikaji lebih jauh dengan tinjauan aspek matematis, biologi maupun dari segi komputasionalnya. Hal ini kemudian menjadi acuan bagi penulis untuk mengkaji lebih dalam metode super pair-wise alignmentdengan mengambil contoh kasus mutasi struk-tur sequence DNA dengan menggunakan metode super pair-wise alignment.

Saat ini Software Pairwise berkembang cukup pesat antara lain BLAST, EMBOSS, CS-BLAST, FASTA, HMMER [2]. Pada Tugas Akhir ini diimplementasikan metode Super Pair-wise Alignmentsebagai software alternatif dalam pensejajaran sekuens. Software yang diciptakan ini bisa berjalan di stand alone computer sedangkan untuk uji validasi program

meng-gunakan software EMBOSS. Tujuan yang ingin dicapai dalam Tugas Akhir ini adalah membuat perangkat lunak untuk mense-jajarkan sekuen menggunakan metode Super Pairwise Align-ment. Sedangkan manfaat dari Tugas Akhir ini adalah sebagai dasar untuk menciptakan software mathITS sebagai tools alter-natif dalam pensejajaran sekuens disamping tools Emboss.

2. Dasar Teori 2.1. Klasifikasi Mutasi

Mutasi pada sekuens DNA dapat diklasifikasikan menjadi 4 tipe [3], yaitu :

1. Tipe I

Suatu mutasi yang disebabkan oleh perubahan nukleotida misalnya ”a” berubah menjadi ”g”.

2. Tipe II

Suatu mutasi yang terjadi karena ada bagian nukleotida yang berubah urutan posisinya misalnya bagian ”accgu” berubah urutan menjadi ”guacc”.

3. Tipe III

Suatu mutasi yang disebabkan oleh penyisipan segmen baru ke dalam sekuens misalnya penyisipan ”aa” di bagian tengah pada segmen ”gguugg” akan mengubah segmen menjadi ”gguaaugg”.

4. Tipe IV

Suatu mutasi yang terjadi karena penghapusan segmen nukleotida pada sekuens, misalnya menghapus nukleotida ”ag” dari segmen ”acaguua” sehingga segmen berubah menjadi ”acuua”.

(2)

Karena pada mutasi tipe I dan tipe II tidak mengubah posisi dari semua nukleotida maka mutasi ini disebut mutasi subti-tusi. Sedangkan untuk mutasi tipe III dan tipe IV yang bisa mengubah posisi nukleotida, maka disebut sebagai mutasi pe-mindahan.

2.2. Sequence Alignment

Hal yang sangat penting dalam sequence alignment adalah memutuskan pemindahan mutasi. Misalkan A, B adalah dua sequence yang didefinisikan

A= (a1, a2, · · · , ana), B= (b1, b2, · · · , bnb), C= (c1, c2, · · · , cnc)

(1) Penyisipan symbol ”-” ke dalam A,B bertujuan untuk memben-tuk dua sekuens baru, yaitu A’ dan B’. Selanjutnya, elemen-elemen dari A dan B menjadi range dari V5 = {0, 1, 2, 3, 4} = {a, c, g, t, −} dengan V4 adalah himpunan quaternary (him-punan yang terdiri dari 4 elemen) dan V5adalah himpunan yang terdiri dari 5 elemen.

2.3. Super Pairwise Alignment(SPA)

SPA mengkombinasikan estimasi statistik dan analisis kom-binatorik yang berhubungan dengan mutasi tipe insersi dan penghapusan antara string. Sekuens DNA atau RNA da-pat dianggap independen dan secara identik distribusi barisan variable random. Berdasarkan model statistik, SPA mem-prediksi keberadaan insersi maupun penghapusan dan panjang insersi maupun penghapusan tersebut bergantung pada similar-itas lokal sekuens input. Pada permasalahan ini, insersi maupun penghapusan dan panjang gap pada kedua sekuens DNA (RNA) diperiksa secara sempurna dan kompleksitas perhitungan SPA adalah O(n) dimana n adalah rata-rata panjang sekuens in-put. Jika semua insersi maupun penghapusan telah ditemukan, sekuens input disejajarkan, baik substitusi maupun trasnposisi dapat ditemukan [3].

2.3.1. Langkah-langkah SPA

Misalkan (A, B) adalah 2 sekuen yang diketahui. Setiap al-goritma memiliki penaksiran nilai parameter pada mode mutasi T. Tanpa terkecuali SPA. Secara spesifik, terlebih dahulu ten-tukan nilai parameter yang penting, yaitu n, h, θ, θ0_{, τ. Disini} n dipilih berdasarkan kekonvergenan hukum perluasan nilai atau teorema limit pusat. Secara khusus, kita tentukan n = 20, 50, 80, 100, dsb. θ, θ0_{dipilih berdasarkan tingkat galat dari} mutasi tipe I dan tipe II dan tingkat galat dari dua variabel be-bas yang acak. Dengan demikian kita pilih 0 < θ < θ0_{< 0, 75.} Untuk nilai parameter h, τ sebagai dua modifikasi lokal, kita pilih sebagai nilai proporsi dari n; yaitu τ = αn, h = βn, 0 < α, β < 0.5.

Langkah I : Mengestimasi posisi mutasi pertama i1di T

1. Tentukan i= j = 0 dan hitung w(A, B; i, j, n). Jika w(A, B; i, j, n)= w ≥ θ0,

maka misalkan ˆi1 = 0. Ini berarti mutasi shifting terjadi di awal interval [1,n]. Jika tidak dilanjutkan ke langkah ke(2).

2. Pada langkah ke(1) jika w ≤ θ, yang berarti tidak ada mutasi shifting di [1,n],kita letakkan titik awal di depan dan misalkan i = j = n − τ. Selanjutnya, kita hitung w(A, B; i, j, n). Jika

w(A, B; i, j, n)= w ≥ θ,

maka misalkan i = j = 2(n − τ)dan ulangi langkah (2) hingga

w(A, B; i, j, n) > θ. Misalkan, k1 adalah bilangan bulat yang memenuhi

w(A, B; i, j, n)= w ≥ θ,

jika i= j = k1(n − τ), dan w(A, B; i, j, n) > θ jika i= j = (k1+ 1)(n − τ). Kemudian lanjutkan ke langkah 3 atau 4.

3. Untuk i= j = (k1+ 1)(n − τ), jika w(A, B; i, j, n) > θ0, maka tentukan ˆi1 = (k1+ 1)(n − τ). Jika tidak demikian, maka lakukan tahap (4).

4. Mengikuti langkah 1-3, kita peroleh θ < w < θ0jika i = j = (k1+ 1)(n − τ). Dengan demikian, untuk n yang sama, hitunglah w0(A, B; i+h, j+h, n). Jika w0> w, hitung

ˆ i1berdasarkan persamaan n1 = h w0_{− w}( 3 4 − w) (2)

Jika w0 ≤ w ulangi langkah 1-4 untuk nilai h dan n yang cukup besar hingga diperoleh w0> w.

Dengan demikian, melalui langkah-langkah di atas kita da-pat mengestimasi ˆi1dan i1.

Langkah II : Estimasi l1berdasarkan estimasi ˆi1dari posisi mu-tasi pertama di T.

Secara khusus,

w(A, B; î1+ l, î1, n), w(A, B; î1, î1+ l, n), l = 1, 2, 3, . . . jika pasangan ( î1+l, î1) atau pasangan ( î1, î1+l) memenuhi w ≤ 0.3 atau 0.4, adalah fungsi sliding window yang berhubungan, maka l adalah panjang dari mutasi shift-ingnya. Secara khusus:

1. Jika w(A, B; î1+ l, î1, n) < θ, kita catat bahwa ˆl1 = −l dan kita masukkan l simbol maya ke dalam sekuen B mengikuti letak î1, sementara sekuen A dipertahankan in-variant.

2. Jika w(A, B; î1, î1+ l, n) < θ, kita catat bahwa ˆl1 = l dan kita masukkan l simbol maya ke dalam sekuen A mengikuti letak î1, sementara sekuen B dipertahankan in-variant.

Melalui penggunaan 2 tahap ini, kita dapat mengestimasi mode mutasi lokal T1= {(i1, l1)}, dan kesejajaran seragam lokal (C1, D1) yang dijabarkan sebagai berikut:

C1= (C1,1, A2,1), D1= (D1,1, B2,1)

Misalkan panjang vektor C1,1 dan D1,1 adalah ˆi1 + |l1|. Karena tidak terjadi mutasi pergeseran pada letak n per-tama dari A2,1, B2,1, kita misalkan L= ˆi1+ |l1|+ n adalah titik awal pada kesejajaran berikutnya.

(3)

Langkah III : Setelah mendapatkan estimasi (i1, l1), kita lan-jutkan untuk mengestimasi i2berdasarkan (C1, D1). Kita misalkan i = j = L1 dan hitung w(A, B; i, j, n) dengan mengulangi langkah (I) langkah 1-4 untuk mendapatkan estimasi ˆi2untuk i2.

Langkah IV : Estimasi l2 berdasarkan ˆi1, ˆl1, ˆi2. Disini kita menghitung

w(C1, D1; î2+ l, î2, n), w(C1, D1; î2, î2+ l, n), l = 1, 2, 3, . . . kita ulangi langkah II untuk memperoleh ˆl2 dan keseja-jaran lokal (C2, D2).

Langkah V : Melanjutkan proses di atas, kita peroleh sekuen ˆ

ik, ˆlk dan sekuen (Ck, Dk) yang berhubungan untuk se-tiap k = 1, 2, 3, . . . . Proses akan berhenti pada su-atu k0 sedemikian sehingga Ck0 = (C1,k0, A2,k0) dan

Dk0 = (D1,k0, B2,k0) memiliki mutasi pergeseran yang

ter-jadi pada (A2,k0, B2,k0). Misalkan Lk0 menotasikan

pan-jang sekuen C1,k0, D1,k0 dan i = j = Lk0. l yang

berkai-tan adalah panjang dari mutasi pergeseran jika pasangan ( îk0+ l, îk0) atau ( îk0, îk0+ l) memenuhi w ≤ θ dan kemudian

w(Ck0, Dk0; i, j, n

0_{) ≤ θ dimana n}0 _{panjang terpendek dari} A2,k0 dan B2,k0. Langkah terakhir kita samakan panjang

A2,k0 dan B2,k0. Dengan kata lain, jika panjang A2,k0 lebih

pendek dari pada B2,k0, masukkan beberapa simbol maya

diakhir A2,k0sehingga panjangnya sama dengan B2,k0[3].

2.4. Peningkatan Algoritma untuk mengestimasi posisi mutasi Posisi mutasi ˆs∗ adalah variable acak, dan jarak antara dua posisi mutasi yang berdekatan ikdan ik+1adalah juga variable acak. Operasi pada (2) tida memiliki sifat yang dapat menye-suaikan diri. Dengan kata lain, tidak dapat secara otomatis mencari posisi mutasi dengan pemisahan yang berbeda. Untuk menyelesaikan dua masalah tersebut, kita gunakan algoritma pembeda pada analisis regresi sebagai berikut :

Pada langkah ini digunakan wk= _n1

0w(k, n0) untuk

mengesti-masi posisi mutasi awal i1di T

1. Tentukan k= 0 dan hitung w(k, n0). Jika wk≥θ0(θ0∈ (0.6, 0.8)), maka misalkan ˆi1 = 0. Jika tidak lanjutkan ke langkah berikutnya.

2. Pada langkah ke(1) jika wk ≤ θ(θ ∈ (0.3, 0.5)), lan-jutkan untuk menghitung wk+1untuk setiap k= 0, 1, 2, . . .. Jika terdapat beberapa k yang berhubungan sedemikian hingga

wk≤θ, wk+1< θ,

untuk k = 0, 1, . . . , k1, kemudian lakukan analisis regresi pada titik-titik tersebut. Garis lurus yang berhubungan adalah garis horisontal dan Γ1 : y = ρ1, dimana nilai ρ1 adalah solusi dari persamaan

k1 X k=0 (wk−ρ1)2= min        k1 X k=0 (wk−ρ)2, ρ > 0        (3) maka σ2 1= 1 k1+ 1 k1 X k=0 (wk−ρ1)2 (4) adalah error dari regresi

3. Setelah garis lurus Γ1 ditentukan, lanjutkan untuk menghitung wk, k = k1 + 1, k1+ 2, k1+ 3, . . ., jika terda-pat titik k2, k3sedemikian hingga

( _{θ < w}

k< θ0 untuk setiap k2 < k < k3, θ0_{< w}

k untuk setiap k3 < k. kemudian lakukan analisis regresi berdasarkan data: wk, k = k2+ 1, k2+ 2, . . . , k3, k = k3+ 1, k3+ 2, k3+ 3, . . . .

(5) Garis lurus (pada analisis regresi) tersebut adalah

( _Γ

2: y= ρ2x+ ρ0₂, Γ3: y= ρ3,

secara berurutan, yang memenuhi kondisi : k3 X k=k2 (wk−ρ2k −ρ02) 2_{= min}        k3 X k=k2 (wk−ρk − ρ0)2, ρ, ρ0> 0        , (6) n0 X k=1 (wk3+k−ρ3) 2_{= min}        n0 X k=1 (wk3+k−ρ) 2_{, ρ > 0}        , (7) dimana n0≤ n0< na− k3. Kedua persamaan di (6) dan (7) dapat diselesaikan dengan metode kuadrat minimum.

4. Titik potong dari garis lurus Γ2 dan Γ3 adalah nilai ˆs yang kita butuhkan. Dengan menggantikan langkah (I) pada algoritma SPA dengan langkah (III) kita peroleh un-tuk meningkatkan algoritma SPA, yang merupakan algo-ritma pembeda pada analisis regresi [3].

2.5. Perancangan Sistem dengan Metodologi Berorientasi Ob-jek

2.5.1. Bahasa Pemrograman Java

Bahasa pemograman java (awalnya bernama bahasa pe-mograman Oak) menurut berbagai literatur, diperkenalkan ke hadapan komunitas pemograman di seluruh dunia, oleh James Gosling dari Sun Microsystem Inc. Tujuan pembuatan bahasa pemograman Java adalah untuk meningkatkan kemampuan ba-hasa pemograman C++ yang sebelumnya telah ada sehingga aplikasi-aplikasi (program komputer) yang dikembangkan den-gan bahasa pemograman tersebut mampu berjalan di atas berba-gai platform perangkat keras dan perangkat lunak (sistem op-erasi) yang berbeda. Hal ini merupakan terobosan yang cukup besar sebab sebelumnya aplikasi-aplikasi yang dikembangkan untuk sistem operasi(dan perangkat keras) tertentu hanya akan bisa berjalan dengan baik di atas sistem operasi (dan perangkat keras) tertentu pula [4].

(4)

Gambar 1: Diagram Alur Proses Pensejajaran

2.5.2. Unified Modeling Language(UML)

UML (Unified Modeling Language) saat ini adalah salah satu perkakas (tool) yang sangat bermanfaat untuk melakukan analisis dan perancangan sistem dalam konteks pemograman berorientasi objek. Dalam aplikasi-aplikasi bisnis, metodologi-metodologi pengembangan aplikasi yang menggunakan bahasa pemrograman terstruktur (structured programming language), DFD, dan ERD kurang dapat beradaptasi dengan kebutuhan dan harapan pengguna (user’s needs and expectations). Den-gan alasan itu, para pakar di bidang perancanDen-gan perangkat lunak pada sekitar tahun 1980-1990 mulai bekerja dengan ba-hasa pemrograman yang berorientasi objek (OOP [Object Ori-ented Programming]) seperti C++ dan Java. Dengan demikian, diperlukan metodologi dan tools yang lebih sesuai. Dalam hal ini, UML (Unified Modeling Language) yang merupakan metodologi kolaborasi antara metoda-metoda Booch, OMT (Object Modeling Technique), serta OOSE (Object Oriented Software Engineering) dan beberapa metoda lainnya, meru-pakan metodologi yang sering digunakan saat ini untuk men-gadaptasi maraknya penggunaan bahasa pemograman berori-entasi objek(OOP) [4].

3. Analisis dan Perancangan Sistem 3.1. Analisis Kerja sistem

Untuk mengetahui gambaran keseluruhan dari proses kerja perangkat lunak yang akan dibuat nantinya, maka diper-lukan langkah awal dalam pembuatan perangkat lunak yaitu melakukan analisis kerja sistem secara keseluruhan seperti pada 1.

3.2. Use Case Diagram

Use Case adalah Deskripsi tentang bagaimana sis-tem/perangkat lunak berperilaku pada user(actor). Sedangkan

Gambar 2: Use Case Diagram

Gambar 3: Class Diagram

use case diagram merupakan deskripsi tentang interaksi yang terjadi antara sistem dengan actor. Sehingga, dalam sistem ini kita dapatkan perilaku-perilaku actor adalah sebagai berikut :

1. User memasukkan input berupa dua sekuens DNA. 2. User menentukan parameter yang dibutuhkan dalam

proses pensejajaran.

3. User membandingkan hasil pensejajaran dengan uji coba berbagai parameter.

3.3. Class Diagram

Relasi keseluruhan kelas dalam sistem ini terlihat pada 3 3.4. Rancangan Interface Sistem

Rancangan interface pada penelitian ini terdiri dari empat form yaitu : form cover, form pensejajaran, form-form hasil pensejajaran, form loading. Form pensejajaran ini merupakan form utama dalam sistem ini. User dapat berinteraksi dengan

(5)

Gambar 4: Rancangan Interface Form Pensejajaran

Tabel 1: Tabel Data Kelas

Paket File Keterangan

Controller controller.java mengontrol jalannya program Model algoritma.java berisi algoritma SPA

View Alignment.java form utama

list Linklist.java menampung data sekuens

sistem melalui Form ini. Perancangan form terlihat pada Gam-bar 4

4. Implementasi Sistem

Pada tahap ini akan dilakukan penulisan kode program dalam kelas-kelas. Kelas-kelas yang telah dirancang diimplemen-tasikan dengan menggunakan bahasa pemrograman Java. Pada tabel 1 dapat dilihat daftar implementasi beberapa kelas utama yang ada pada perangkat lunak beserta keterangannya.

5. Uji Coba Sistem

5.1. Lingkungan Uji Coba Sistem

Lingkungan uji coba perangkat lunak yang dibangun dalam Tugas Akhir ini meliputi perangkat keras dan perangkat lunak yang digunakan. Spesifikasinya disajikan dalam Tabel 4.1.

Tabel 4.1. Lingkungan Uji Coba Sistem

Perangkat Keras Prosesor : Intel Pentium Dual Core Memory : 2.20 GHz, RAM 2 GB Perangkat Lunak Sistem Operasi : Linux Ubuntu 11.04 Tools pembangun : Netbeans 7.0

Tabel 2: Tabel Data Hasil Percobaan I

k 1 2 3 4 5 6 7 8 ik 59 148 588 823 861 907 983 1139 lk -2 -1 -3 -3 -3 1 -2 -2 k 9 10 11 12 13 14 15 16 ik 1579 1713 1756 1771 1871 2748 2793 2836 lk 2 6 -3 -3 -15 -4 2 4 k 17 18 19 20 21 22 23 24 ik 2851 3011 3364 3388 3585 4401 4699 5841 lk -20 -9 1 4 -1 29 4 -2 k 25 26 27 28 29 30 31 32 ik 6576 7888 7940 9556 9590 9640 9691 9811 lk 2 11 25 -7 -1 5 2 -5 k 33 34 35 36 37 38 39 40 ik 10960 11163 11182 11268 11348 11872 11944 11993 lk -4 -4 8 -1 1 -41 -2 7 k 41 42 43 44 45 46 47 48 ik 11915 12077 12128 12159 12183 12224 12281 12528 lk -17 5 2 5 18 8 -7 34 k 49 ik 12701 lk -3

Tabel 3: Tabel Data Hasil Percobaan II

k 1 2 3 4 5 6 7 8 ik 1 454 608 761 932 1176 3058 3235 lk -24 -4 3 21 6 -9 -27 36 k 9 10 11 12 13 14 15 16 ik 3421 3589 3742 4013 4249 4402 4558 4726 lk 18 3 9 33 -3 6 18 3 k 17 18 19 20 21 22 23 24 ik 4879 5032 5194 5347 5502 5709 5862 6108 lk 3 -12 3 5 -3 -3 6 -12 k 25 26 27 28 ik 6270 6784 6964 7137 lk 15 30 -23 -26

5.2. Uji Coba Program

Untuk percobaan pertama, data sekuens yang diambil dari Gen Bank adalah NC 003416.2 sebagai Necator americanus mitochondrion, complete genome dan NC 003415.1 seba-gai Ancylostoma duodenale mitochondrion, complete genome. Dalam pensejajaran ini, parameter yang dipilih adalah n= 20, θ = 0.4, θ0 _{= 0.6 dan n = 15, θ = 0.4, θ}0 _{= 0.6. Selanjutnya} untuk Jemboss dilakukan dengan menggunakan setting default dari EMBOSS (Needle) yaitu Matrix: DNAfull, gap open=10 dan gap extend=0.5. Hasil pada percobaan dapat dilihat pada 4 dan data hasil percobaan dapat dilihat pada 2.

Untuk percobaan kedua, data sekuens yang diambil dari Gen Bank adalah NC 014956.1 sebagai Human papillomavirus type 129, complete genomedan NC 014955.1 sebagai Human pa-pillomavirus type 130, complete genome. Dalam pensejajaran ini, parameter yang dipilih adalah n = 150, θ = 0.5, θ0 = 0.6 dan n = 50, θ = 0.5, θ0 _{= 0.6. Selanjutnya untuk Jemboss} dilakukan dengan menggunakan parameter match=9 dan mis-match=1 sedangkan gap open yang digunakan adalah 10 dan gap extension yang digunakan adalah 0.5 . Hasil pada per-cobaan dapat dilihat pada 5 dan data hasil perper-cobaan dapat dil-ihat pada 3.

(6)

Tabel 4: Tabel Hasil percobaan

Program Parameter Percobaan

Super Pairwise Alignment n=20 length: 13971

θ = 0.4 similarity: 10701 (76.6) %

θ0_{= 0.6}

gaps: 521 (3.73) %

θ = 0.4 similarity: 5443 (39.3) %

θ0_{= 0.6}

gaps: 209(1.51) %

Jemboss a=10 Died: Sequences too big.

b=0.5

EMBOSS a=10 length: 13987

b=0.5 similarity:11620 (83.1) %

gaps: 648 (4.6) % skor: 49003.0

Tabel 5: Tabel Hasil percobaan

Program Parameter Percobaan

θ = 0.5 similarity: 3662 (48.6) %

θ0_{= 0.6}

gaps: 364 (1.78) %

θ = 0.5 similarity: 3290 (39.2) %

θ0_{= 0.6} _{gaps: 2124(25.3) %}

Jemboss a=100 length: 7446

b=10 similarity:3922 (52.7) %

gaps: 285 (3.8) % skor: 2384

Dari percobaan pertama menunjukkan bahwa tingkat similaritas meng-gunakan pendekatan SPA dengan n = 20, θ = 0.4, θ0 _{= 0.6 yaitu} sebesar 76.6 % mendekati dengan hasil pada tools Emboss sebesar 83.1 % . Namun yang perlu diperhatikan adalah penentuan param-eter sangat berpengaruh terhadap hasil pensejajaran. Dimana ketika parameter yang digunakan n = 15, θ = 0.4, θ0 _{= 0.6, hasil yang} diperoleh menjauhi hasil yang diperoleh tools Emboss. Demikian juga pada percobaan kedua dengan parameter n = 150, θ = 0.5, θ0 _{= 0.6} yaitu sebesar 48.6 % mendekati dengan hasil pada tools Jemboss sebe-sar 52.7 % , dibandingkan ketika parameter yang digunakan n= 50, θ = 0.5, θ0 _{= 0.6, hasil yang diperoleh menjauhi hasil yang diperoleh} tools Jemboss.

6. Kesimpulan dan Saran 6.1. Kesimpulan

1. Dari hasil pensejajaran dengan menggunakan algoritma Super pairwise Alignment, Necator americanus mitochondrion, plete genome dan Ancylostoma duodenale mitochondrion, com-plete genome diperoleh hasil similaritas sebesar 76.6%. Berbeda dengan tools JEmboss, yang tidak mampu melakukan proses pensejajaran terhadap pasangan sekuen ini dikarenakan memori yang dibutuhkan terlalu besar. Namun jika dibandingkan dengan Emboss maka hasil pensejajaran mendekati hasil yang diperoleh oleh tools Emboss yaitu 83.1 %. Untuk perolehan gap penseja-jaran dengan Emboss diperoleh jumlah gap sebanyak 648 atau (4.6 %) dari panjang sekuens terakhir, sedangkan perolehan gap pensejajaran dengan SPA diperoleh jumlah gap sebanyak 521

atau (3.73%) dari panjang sekuens terakhir. Hal ini dapat disim-pulkan bahwa kecepatan kebutuhan memori lebih rendah diband-ingkan tools JEmboss.

2. Pemilihan parameter dalam pensejajaran menggunakan metode SPA masih menjadi kendala. Hal ini dapat terlihat dari percobaan yang dilakukan, dimana untuk parameter n= 20, θ = 0.4, θ0 ₌ 0.6 memiliki hasil pensejajaran yang berbeda dengan parame-ter n = 15, θ = 0.4, θ0 _{= 0.6. Sekalipun dalam Tugas Akhir} ini metode untuk mengoptimalkan estimasi posisi mutasi yaitu metode regresi linear dimasukkan dalam pembuatan software.

6.2. Saran

1. Ketepatan pemilihan parameter berpengaruh dalam optimalisasi

hasil pensejajaran. Pada permasalahan berbeda, user harus

menentukan parameter yang tepat dan tentu saja hal pemilihan banyaknya parameter menimbulkan kesulitan dan waktu cukup lama dalam proses pensejajaran. Permasalahan ini dapat di-atasi dengan menggunakan modifikasi lokal pada pensejajaran sekuens [3].

References

[1] Attwood, T., Parry-Smith, D., 2011. Introduction to Bioinformatics. Cam-bridge University Press, New York.

[2] Elrod, Susan L, S., D, W., 2002. Terjemahan Schaums Outline Teori dan Soal Genetika. Penerbit Erlangga, Indonesia.

[3] Nankai, S. S., Tuszynski, 2008. Theory and Mathematical Methodes for Bioinformatics. Springer Vierlag, San Francisco.

[4] Nugroho, A., 2009. Rekayasa Perangkat Lunak Menggunakan UML dan Java. Indonesia.

[5] ShenShi-yi, Adam, Y. P.-i. H., Yang, J., 2002. Super pairwise align-ment (spa): An efficient approach to global alignment for homologous se-quences. Computational Biology 9 (3).