• Tidak ada hasil yang ditemukan

Model Optimisasi pada Bioinformatik

N/A
N/A
Protected

Academic year: 2023

Membagikan "Model Optimisasi pada Bioinformatik"

Copied!
58
0
0

Teks penuh

(1)

DISERTASI

p

S-••·•er

Oleh Di. erikn

EFFENDI

108110004/Ilmu Matematika

111m~r~im1m111

17000364

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

MEDAN 2016

(2)

MODEL OPTIMISASI PADA BIOINFORMATIK

DISERTASI

Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Doktor dalam Program Studi Doktor Ilmu Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Universitas Sumatera Utara

Oleh EFFENDI

108110004/Ilmu Matematika

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

MEDAN 2016

(3)

Nama Mahasiswa Nomor Pokok Program Studi

Effendi 108110004

Doktor Ilmu Matematika

i, bing

(Prof. Dr. Herman Mawengkang) Promotor

Prof. Dr. Anton Abdulbasah Kamil) Co-Promotor

(Prof. Dr. Herman Mawengkang)

Tanggal lulus: 18 Februari 2016

(Prof. Dr. Opim Salim S, M.Sc) Co-Promotor

(4)

ABSTRAK

Model biomolekular disajikan dengan suatu graph G(V, E), dimana setiap vertek v pada himpunan V (v E V) disajikan dalarn bentuk biomolekul, sede- mikian hingga sebagai genom, dan setiap edge e pada himpunan E (e E E) yang merupakan suatu interaksi atau hubungan antara vertek-vertek di V. Graph tak berarah G (V, E), yang mana setiap vertek yang disajikan oleh genom dan setiap edge disajikan sebagai interaksi binary (bernilai binary) a tau suatu inte- raksi dengan suatu 1iilai confidence (nilai yang kontinu) antara dua genom. De- ngan mendefinisikan dua biomolekular dalam bentuk graph yaitu G1 (Vi, E1) dan G2(½,E2), dimana

½ =

{vt,vt,v;,.}, ½

=

{vf,vi,,v~} dan E1

=

{eLe½,,e;}, E2

= {

ei,

e~,,

e~} di modelkan dalarn bentuk graph bipartisi. Metode yang di- gunakan dalam penelitian adalah dengan pendekatan model graph dari untaian annotated ( annotated sequence) yang memuat garis dan interaksi edge. Himpunan dari k untaian annotated dan model input sebagai mixed graph, himpunan vertek dari graph yang merupakan basis dari untaian. Himpunan dari edge alignment yang tak berarah ( undirected) dari dua untaian input yang berbeda dimana him- punan codes annotation dari untaian yang mana interaksi edge diantara vertek dan untaian yang sama. Struktur alignment dari suatu hirnpunan untaian an- notation untuk suatu alignment sedemikian hingga bobot dari edge ditambahkan dengan bobot dari interaksi matching adalal1 maksirnal. Suatu pendekatan poly- hedral pada penyelesaian optimal untuk mixed integer nonlinier programming.

Kata kunci: Graph bipartisi, Sequence alignment, Integer non linear programming

11

(5)

Biomolecular models presented by a graph G (V, E), where each node v in the set v (v E V} are presented in the form of biomolecules, such that as the genome, and each edge e in the set V (v E V) which is a interaction or relationship between the nodes in V. Undirected graph G(V, E), where each node is presented by the genome, and each edge is presented as a binary interaction {valued binary) or an interaction with a confidence value (value continuously) between the two genomes. By defining two biomolekular in the form of graph is G1 (Vi, E1)and G2M,E2} where

,Vi =

{vf,vJ,,v;n}, ½

=

{vr,v~,,v!} and E1

=

{eLe~,,e~}, E2

= {

et, e~, , e~} is modeled in the form of graph bipartisi. The method used in this research is the graph model approach of the strands annotated ( annotated sequences} outlining and interactions edge. The set of k strand. of annotated and input model as a mixed graph, the set of vertex of the graph which is the base of the strand. The set of the undirected edge alignment (undirected} of the two strands of different inpids which set of codes annotation of strands which interactions between the edge and garlands same vertex. Strucforal alignment of a set of strands annotation

to

an alignment such that the weight of the edge is added

to

the weight of interaction is a maxim'ttm matching. A polyhedral approach the optimal sol'ldion for mitred integer nonlinear programming.

Keywords: Graph bipartisi, Sequence alignment, Integer non linear programming

iii

(6)

KATA PENGANTAR

Alhamdulillahi rabbil 'ala.min, puji syukur penulis haturkan kehadirat Allah SWT atas limpahan berkah clan karunia-Nya, sehingga penulis clapat menyelesaikan skripsi dengan judul "Model Optimisasi pada Bioinformatik". Shalawat beserta salam semoga selalu tercurahkan kepacla Baginda Rasulullah SAW yang telah menebarkan ilmu dan iman clalam cahaya Islam. Penulis menyampaikan ungkapan terima kasih clan penghargaan yang tulus kepada yang terhormat:

Bapak Prof.Dr. Runtung Sitepu,SH,M.Hum selaku Rektor Universitas Sumate- ra Utara yang telah memberikan kesempatan kepacla penulis untuk rnengikuti Program Studi Doktor Ilnm Matematika, Fakultas MIPA,Universitas Sumatera Utara.

Bapak Dr. Sutarrnan, 11.Sc, selaku Dekan Fakultas MIPA,Universitas Sumatera Utara, yang telah memberikan kesempatan pada penulis untuk menjacli peserta Program Studi Doktor Ilmu Matematika angkatan 2010, clan telah memberikan masukan dan saran sehingga selesinya desertasi ini.

Bapak Prof. Dr. Herman Mawengkang, Selah.7.1 Ketua Program Studi S3 Ilmu Matematika dan selaku Promotor, atas ketulusan hati clan keiklasanya dalam membimbing, dan mendukung dan mengarahkan penulis dalam pembahasan isi clan penulisan hingga selesainya desertasi ini.

iv

(7)

san hati dan keiklasanya dalam membimbing, dan mendukung dan mengarahkan penulis dalam pembahasan isi dan penulisau hingga selesainya desertasi ini.

Bapak Prof.Dr. Anton Abdulbasah Kamil, Selaku Co Promotor, atas ketulu- san hati dan keiklasanya dalam membimbing, dan mendukung dan mengarahkan penulis dalam pembahasan isi clan penulisan hingga selesaiuya desertasi ini.

Bapak Prof. Dr. Saib Suwilo, M.Sc selaku ketua komisi penguji, atas keikhlasan clan kesabaran serta ketulusan hati dalam memberikan bimbingan dan dorongan clari awal hinga selesainya clisertasi ini.

Bapak Dr. Marwan Ramli, M.Si selaku Komisi Penguji ata5 ketulusan ha.ti dalam memberikan masukkan clan arahan, untuk perbaikan mengenai isi disertasi ini.

Ketua Program Studi Matematika Universitas Anda.las, Ketua Jurusan Materna~

tika Universitas Andalas, Dekan FMIPA Universitas Andalas, dan Rektor Univer- sitas Andalas, yang telah memberikan secara moril dan memberikan kesempatan kepada penulis melanjutkan pendidikan pada program studi Doktor Ilmu Mate- matika FMIPA Universitas Sumatera Utara.

Seluruh Staf Pengajar Program Studi Doktor Ilmu Matematih--a FMIPA Universi- tas Sumatera Utarn.

Buat sahabat-sahabatku, dan seluruh teman-teman Progran1 Studi Doktor Ilmu Matematika., yang tidak disebutkan satu persatu, yang memberi semangat dan dorongan dan doanya kepada penulis.

V

(8)

RIWAYAT HIDUP

Effendi dilahirkan di Medan pada tanggal 16 Februari 1957 dari bapak yang berna- ma Bachtiar sjarief (Alm) dan ibu Sumami Ahmad sebagai anak ke dua dari dua bersaudara. Penulis menamatkan sekolah dasar pad.a tahun 1969 di SD Negeri 18 Banda Aceh. Selanjutnya penulis menyelesaikan sekolah lanjut pertama di SMP Negeri 1 Banda Aceh pada tahun 1972, menyelesaikan sekolah menengah atas pada tahun 1975 di SMA Negeri 2 Banda Aceh. Pada tahun 1977 menjadi mahasiswa di Jurusan Matematika Universitas Sumatera Utara dan selesai tahun 1984. Pada tahun 1985 diterima sebagai staf pengajar pada FMIPA Universitas Andalas Padang. Penulis menikah pada tahun 1985 dan dikaruniai seorang putri.

Pada tahun 2010: penulis menyelesaikan pendidikan jenjang S-2 di Jurusan Mate- matika F1\1IPA USU. Pa.da tahun 2016 penulis menyelesaikan pendidikan jenjang S-3 di Jurusan Matematika FMIPA USU.

Vll

(9)

-

DAFTAR ISI

Halaman

PERNYATAAN ABSTRAK ABSTRACT

KATA PENGANTAR RIWAYAT HIDUP DAFTAR ISI

BAB 1 PENDAHULUAN 1.1 Latar Belakang 1. 2 Perumusan Ma.c:,alah 1.3 Tujuan Penelitian 1.4 Keutamaan Penelitian BAB 2 TINJAUAN PUSTAKA

2.1 Model Graph untuk Struktur RNA Alignment

2.2 Model Integer Linear Programming untuk Struktur RNA Align- ment

2.3 Relaksasi Lagrange BAB 3 LANDASAN TEORI

3.1 Teori Graph 3.2 Aljabar Linier 3.3 Aljabar

3.4 Convexity

3.5 Linier Programming

3.5.1 Integer linear programming

Vlll

1

11

iii iv vii

Vlll

1 1 4

5 6 G

10 13 16 16 20 22 23 23 25

(10)

3.5.2 Mixed integer nonlinear programming 26

3.5.3 Metode branch-and-bound 27

BAB 4 PENDEKATAN POLYHEDRAL UNTUK SEQUENCE ALIGN-

MENT 29

4.1 Polyhedral Geometry 29

4.2 Pasangan Alignment {Pairwise Alignment} 31 4.2.1 Penscoran pasangan alignment (scoring pairwise align-

men~ 32

4.2.2 Fungsi score dengan menggunakan gap 33

4.3 Multiple Alignment 34

4.3.1 Score multiple alignment (scoring multiple alignment) 35 4.4 Struktur Alignment

4.5 Traces

4.5.1 Pasangan traces 4.5.2 Score pa..:,angan trace

4.5.3 .Multiple sequence alignment 4.5.4 Score multiple trace

4.6 Struktur Trace

4.6.1 Sc..ore struktur trace 4.6.2 Gap trace

BAB 5 PEMODELAN 5.1 Contact Map 5. 2 Model Matematika

5.2.1 Integer linear programming 5.3 Algorithma

lX

36 38 38 39 39 40 41 41 42 43 43 46 46 51

(11)

1.1 Latar Belakang

PENDAHULUAN

Frederick Miescher seorang ilmuan Swiss pada Tahun 1869, telah mene- mukan subtansi dalam sel yang dinamakan nuclein, yang sampai saat ini disebut DNA (Deoxyribonucleic acid)(Dahl dan Friedrich, 2005). Pada abad ke 20 tepat- nya pada tahun 1953 salah sa.tu penemuan besar dalam bidang biologi khususnya masalah struktur double helix DNA oleh Watson dan Crick (Klug, 2004). Setiap helix (untnia..11) disusun oleh mononukleotida. yang terdiri dari deoksi pentosa, purin a.tau pirimidin dan fosfat, dimana antara mononukleotida yang satu dengan yang birrnya dihubungkan oleh ikatan fosfodiester 3& ETJH dan 5& ETM_ Sedang- kan untaia:a yang satu deugan untaian kedua dihubungkan oleh ikatan hidrogen antara basa nitrogen pada masing masing untaian. DNA berperan dalam menu- runkan sifat keturunan. Hubungan DNA, RNA dan protein digambarkan sebagai berikut, yang disebut sebagai sentral dogma dalarn biologi molekul.

DNAREPUI<ASI

*

TAN.'II<RIPSIRNA

*

TRANSLASipRQTEIN

DNA menyimpan kode genetik dari organisme yang merupakan sumber in- formasi yang akan ditranskripsi ke RNA, yang kemudian diterjemahkan kedalam protein, yang terjadi di dalam sel (Kellis, 2012). Sequence Alignment merupakau prosedur dasar (implisit atau eksplisit) tingkah laku pada studi Biologi yang mem-

1

(12)

2

bandingkan dua atau lebih seq1.ience biologi (DNA, RNA, atau protein)( Rosen- berg, 2009). Biologi sequence yang terdiri dari primer DNA seq1-tence yang disebut juga dengan genetic seq1.tence atau nucleotide sequence clan asarn amino sequence yang disebut juga dengan peptide sequence atau protein sequence. DNA mengatur pembentukan dari asam amino sequence dan menentukan gambaran dan penga- turan gene serta menentukan aspek utama dari proses kehidupan.

Sequence Alignment merupakan prosedur pembanding dari dua atau lebih sequence secara mendalam untuk sesuatu deretan dru·i karakter individual atau karakter pola pada order yang sama dari sequence. Dua sequence aligned dapat ditulis dalam dua baris. Karakter yang identik atau similar pada kolom yang sama dan karakter yang tidak identik dapat diperoleh salah satu pada kolom yru1g sama seba.gai suatu mismatch atau gap yang berseberangan pa.da sequence yru1g lainnya.

Pada suatu alignment yang optimal, karakter yang nonidentik dan gap memba:wa banyaknya kru·akter identik atau similar yang dapat dikerjakaJ.1 kedalam catatan yang vertikal. Sequence alignment mernpunyai dua tipe yaitu, global alignment upaya align/menyelaraskan setiap elemen dalam untaian genetik, paling berguna ketika untaian genetik dalam pertirnbangru1 adalah kira-kira dalam ukuran yang sama. Global alignment juga dapat mengakhiri perbedaan/kesenjangan dan lokal alignment adalah upaya urutan daerah sequence yang mengandung motif urutan yang sama dalam kontek yang lebih besar. Global Alignment dan Local Alignment dalam untaiannya dapat dilihat sebagai berikut;

(13)

Konsep Contact Map Overlap (CMO) telah dikembangkan untuk sequence alignment dalam pendekatan rmtuk pengertian fungsi baru dari protein dengan melihat jika keserupaan pada beberapa protein yang diketahui (Kellis, 2012). Con-

tact Map dari suatu protein adalah suatu graph dengan suatu node untuk setiap residu asam amino dan suatu edges untuk setiap pa.sang dari non-adjacent residue yang mana jarak yang merupakan suatu permulaan.

Penulis mencoba mengembangkan model mixed integer non linier program- ming dengan Contact Map Overlap untuk mendapatkan penyelesaian yang op- timal dengan cara Lagrange dan Branch-and-Bound, menggunakan syarat pada fungsi objek dan kendala.

Optimisasi kombinatorik adalal1 salah satu rnetode pencarian untuk penye- lesaian yang optimal yang bersumber pada persoalan ruang diskrit. Graph mem- buktikan bahwa pada setiap sesuatu yang <la.pat dipakai sebagai abstraksi untuk suatu range yang luas dari suatu persoalan optimisasi dan peughitungan biolo- gi. Dalam reucana desertasi iui akan dibuat suatu model mixed integer nonlinier

programming dari struktur sequence alignment untuk mendapatkan penyelesaian yang la.yak (Feasible Solution).

1.2 Perumusan Masalah

Model yang berkembang pada Bioinformatik adalah model Integer linear programming clan penggunaannya ( Hidden M arcov Model). Pendekatan didasarkan kepada rumusan persoalan sebagai integer liuier program kemudian relaxing pada cara Lagrange yang sesuai dengan himpunan kendala. Model optimal dari kom-

(14)

PERPUSTAKAA .

•·AkHI

Pada bab II ini disajikan teori dasar matematika yang berhubungan dengan model, dan hasil terdahulu yang berkaitan dengan Integer linear programming.

2.1 Model Graph untuk Struktur RNA Alignment

Definisi 2.1.1 (Bauer et al., 2001). Misalkan

I:

bebernpa a~fabet yang tidak tcr-

masuk gap karakter "_,, dan misalkan

I:: = I: LJ{ - } .

Himpuno,n S dari k string s1, s2, .•• , sk pada

I:

dikatakan A

=

{s1, s2, .. . , sk} suafo multiple alignment dari

untaian di S, jika dan hanya jika memenuhi kondisi:

a.

Untaian

s: ,

1 ::; i ::; k pada alphabet ~,.

b.

Semua u,ntaian

s:

memp1.myai panjang yang sama

\A\.

c. Untaian tanpa s: tanpa "_" yang berhubungan dengan si, unfak 1 ::; i ::; k.

d. Tidak terdapat index j sedemikian hingga

s/

dikatakan pada kamkter ke j pada untaian si .

--

""·

- -

'

1

<

·i

<

k oleh

s1

Dengan mendefinisikan pemetaan Mi(j) sebagai pemetaan dari

s1

pada po--

sisi pada alignment dan oleh Mi-l (j) pemetaan dari posisi pada alignment pada posisi sesungguhnya pada nntaian. Jika

st I= "-"

dan

s7' I= ".}';

1

~

j

~ iAI

maka dikatakan s~i_

10) adalah ligned pada s~

1

_ 1(i) dan pada gap untuk yang lainnya.

6

(15)

Defi.nisi 2.1.2 (Bauer et al., 2005). Himpunan S dari k string s1, s2 , ... ,

.ri

su- atu alignment A yang terdiri dari string

s1, s

2, ••• , sk dari himpunan G(A) terdiri semua gap dari alignment A. Misalkan a .fungsi score untaian dan suatu gap fungsi pinalty 1 , maka jumlah dari pasangan gap (gapped sum-of-pair}(GSPS}

score dari A didefinisikan oleh,

k-l . k . IAI . .

GSPS(A,a, 1 )

= ~~---· ~--

L,._; L...., a(st,s;3)

+

~ ~1(g)

J -i+l L...., i-1 L....,

~ ~0~

Defi.nisi 2.1.3 (Bauer et al., 2005). Misalkan S

=

s1, s2, ..• ,

,c/

seqttence dengan panjang n pada alphabet

E =

{A, C, G, U, -}. Suatu pasangan basa (i,j) disebut interaksi_, jika si -=f. - dan Sj -=f. - dan jika (i,j) membenfok .matu pasangan

Watson Crick.

Definisi 2.1.4 (Bauer et al., 2005). Misalkan S

= s1,

s2, ... , sk seq,tence dengan panjang n pada alphabet

E =

{A, C, G, U, -} pasangan (sh si) disebut interaksi jika i

<

j dan neucleotide i interaksi (saling mempengaruhi} dengan j, kasus yang paling banyak pasangan (G, C), (A, U) atau (G, U).

Himpunan p interaksi disebut annotation dari untaian s. Dua interaksi (sk, s1) dan (sm, s0 ) dikatakan inconsistent, jika satu bagian basa, bentuk suatu pseudoknot jika "cross" setiap lainnya jika k

<

m

<

l

<

o atau m

<

k

<

o

<

l, pasangan (s,p) disebut suatu sequence annotated.

Defi.nisi 2.1.5 (Bauer et al., 2005). Seq_uence Alignment A

=

{s1, s2, ••• , sk}

dari k sequence, dua sequence annotated (

i,

pi) dan ( si, pi), dua interaksi ( st, st) E

pi dan

(s{, s{)

E

pi,

suatu struktur match jika

si,

adalah aligned dengan s1.n dan

sl

(16)

8

adalah aligned dengan Sn. Dua struktur match (si, st), (~, sf) dan (s~, s~)(s!n, s~) inconsistent jika k = m, l = m, k = n atau l = n.

Definisikan suatu fungsi score T :

I:

4 ⇒ R menugaskan suatu score pada quadruples dari karakter penyajian manfaat dari matching dua interaksi.

Suatu diagram adalah graph berlabel pada himpunan vertek [n]

=

{1, 2, 3, ... , n} dengan derajat lebih kecil sama dengan satu, diagram disajikan dalam bentuk gambar titik pada garis horizontal dan busur (arcs) (i, j), dimana i < j, pada bidang setengah diatas. Panjang dari busur (i, j) adalah s

=

j - i clan panjang s disebut dengan s busur.

Suatu k-crossing adalah suatu himpunan dari k busur yang berbeda (i1,j1 ), (i2,J2), (i3,j3), ... , (ik,Jk) sedemikian hingga,

Suatu diagram tanpa k-crossing disebut juga dengan k-noncrossing diagram atau k-noncrossing partial matching. Suatu k-nesting adalah suatu himpunan dari k-bus1..tr yang berbeda sedemikian hingga,

Suatu diagram tanpa k-nesting disebut k-nonesting diagram.

Suatu k-noncrossing diagram tanpa ada titik terasaing (isolated point) dise- but juga k-noncrossing matching (Reidys, 2011).

Himpunan dari k annotated untaian {(s1,p1), (s2

,r), ... ,

(sk,Jf)}, model masuk dalam model Struktur graph Gs

=

(V, L), dimana V himpunan vertex

(17)

dari graph yang merupakan bac;;is dari sequ,ence yang ditulis vj untuk unsur ke j dari sequence ke i. L edges alignment yang tidak berarah ( undirected alignment) antara dari dua input yang berbeda. Garis l E £, l

= (vi, v{),

l

=J

j disajikan alignment dari karakter ke k pada alignment i dengan karakter ke l pada sequence ke j. Himpunan £ii semua garis antarn sequence i dan j, source node dan target node dari garis l oleh s(l) dan t(l), untuk l

=

(vi, v{), s(l)

=

vi dan t(l)

=

v{.

Graph Gs adalah graph k-bipartisi.

Selain graph tak berarnh untaian dan interaksi edges graph yang diperbe- sar dengan himpunan D dari busur berarah sebagai Consecufruity dari karakter dalam string yang sama, yang memiliki busur yang bergerak dari setiap simpul ke tetangga (simpul terdekat) yaitu D

=

{(v;, v(i+l)): 1 ~ i ~ k, 1 ~ j ~

/ii}

Himpunan

vL ... , vf,

membangun busur gap

at,

himpunan dari entrian G adalah partisi ke dalam himpunan bagian yang berbeda Gii dengan i, j

=

1, 2, ... , k, i =/= j dan Gii

= {a1!n

E G : 1 ~ l ~

m

~ i}; dua busur gap

Suatu path campuran ( mixed path) pada graph Gs adalah untaian yang bergantian v1, e1 , v2 , e2 , . . . dari vertek Vi E V dan garis atau edge ei E LU D, path campuran jika memuat paling sedikit satu busur di D clan satu garis di£, path campuran disebut dengan cycle campuran jika dimulai dan berakhir pada vertek yang sama.

Dua interaksi edge (vL vt) E pi dan

(vfn,

v~) E

pi

membentuk suatu interaksi match jika terdapat dua e1

= ( vi, v!n)

dan e2

= ( vf, vl)

sehingga e1 dan e2 tidak cross satu sama lainnya.

(18)

10

2.2 Model Integer Linear Programming untuk Struktur RNA Align- ment

Untuk dua interaksi edges i

=

(i1, i2) E

Pi

dan j

=

(}i, h) E P2 dikatakan realized pa.da alignment A jika dan hanya jika. alignment edges (i1 , j1 ) dan (i2,j2 ) di-realized oleh A, sehingga dapat dalam bentuk integer linear programming se- bagai berikut.

Bentuk struktur sekunder dari RN A, setiap vertex incidensi pada paling banyak satu edges interaction, titik ujung setiap interaction match mempunyai realisasi oleh edges alignment dan tidak ada edges alignment di conflict. Maka rumusan untuk ILP dapat ditulis dalam bentuk,

·m.ax

LL

wlmylm

+ L

WmX'.m.

mEAlEA m.EA

I:x

1 ~ 1, VI EJ

lEA

Ytm.

=

Yml, \fl, m E A, l < rn

L

Ylm ~ Xm, \Im E A

lEA

x,y ~ Ointeger

(2.2.1) (2.2.2) (2.2.3) (2.2.4) (2.2.5)

dimana, jika Xm

=

1, jika edges alignment m adalah part dari alignment, dimana Yzm

=

1, jika edges alignment terialisasi interaction match (l, m). Himpunan A memuat semua himpunan bahagian dari edges alignment, sehingga semua pa- sangan dari element dari suatu kekususan himpunan bahagian crossing untuk setiap yang lainya (Bauer et al., 2004).

Untuk dua interaksi edges i

=

(i1, i2) E I{ dan j

= U1,

j2) E I'j dikatakan realized pada alignment L jika dan hanya jika L memuat alignment edges l

=

(19)

Sehingga untuk model Integer Linear Programming (ILP) dapat ditulis dalam bentuk,

jEN iEN\{j}

Kenda.la

L

WjXj :::; c

jEN

jEN

0 ::;: Yij :::; Xj :::; 1, i, j E N, j -/ i, Yii

=

Yii, i, j E N, j

>

i

Xj,Yij E {0, l}, i,j EN, j-/ i

(2.2.12)

Dari persamaan 2.2.11 dan 2.2.12 variabel Yii

=

l hanyajika Xj

=

l. Dengan menggunakan met.ode iterasi dapat ditulis sebagai berikut (Caprara dan Lancia, 2002):

max

L E

q1mXtXm

lEL mEL

Kenda.la x Ex

Ext:::;

1, V/EJ

lEl

I:lEIYlm:::; Xm, VJ E J, m E £

Ylm

=

Yml, Vl, m E £, l

<

m x, y

2'.

0, integer

(2.2.13)

(2.2.14)

Model suatu pendekatan untuk multiple struktur alignment dikembangkan oleh (Bauer et al., 2007) dengan menggunakan (Caprara et al., 1999) dan (Caprara dan Lancia, 2002): diperoleh sebagai berikut:

(20)

13

Kendala ~lELnM Xt ~

IL n Ml -

1, VMEM

LXt+

Ca= 1, 1 ~ i, j ::; k,

i-/=

j (2.2.15)

aE di s(l)+-->s(l)

El,mEL Ylm

:=; Xt

\/l E L

Ylm

=

Yml \:fl EL x,y,cE{0,1}

2.3 Relaksasi Lagrange

Suatu pendekatan Relaksasi Lagrange untuk persoalan multiple sequence alignment untuk penyelesaian yang optimal pad.a. masalah Integer linear program- ming. Masalah yang terfokus pada persoalan sumber daya penjadwalan (resource scheduling). Sumber daya penjadwalan yang merupakan komponen kritikan dari industri informasi sistem, struktur dari sistem penjadwalan mempengaruhi seciu-a langsung bagaimana rancangan fungsi produksi dan membawa keluar. Metode yang paling banyak saat ini untuk masalah sumber daya penjadwalan salah sa- tunya adalah pendekatan yang pada dasarnya membuat suatu keputusan pada beberapa bagian besar dan sukarnya dalam pemodelan optimisasi atau pendis- tribusian pada struktur organisasi yang ada sekarang yang sesuai. Ketepata.11 dan keakuratan pada struktur alignment RN A dengan progresive optimisasi Lagr8.llge.

(21)

Lemma 2.3.1 (Bauer dan Klau, 2004). Persoalan pada persamaan 2.2.1 s/d 2.2.5 dapat diselesaikan dalam waktu O(IAl2).

Bukti 1 Andaikan Xn

=

0, maka persamaan untuk semita Ylm

=

0, imtuk Xn

=

1 dengan memilih untuk optimal untuk sem1w m EA diberikan,

(2.3.16) VIE J

x, y

2:

0 integer

untuk setiap rn E A, dengan menghitung harga maksimum dari edges alignment yang dapat berkemungkinan realize, harga maksimum memuat bobot Wm ditambah dengan interaksi match yang terbaik yang dapat menjadi realize, jika m bagian dari penyelesaian. Misalkan Pm merupakan harga maksimum dari edges alignment m dan misalkan Y*tm adalah realize interaksi match.

Langkah ked11,a, tenittkan semua harga optimal penyelesaiannya,

(2.3.17)

x

2:

0 integer

(22)

BAB3

LANDASAN TEORI

Pada bab II ini disajikan teori dasar matematika yang berhubungan dengan rno- del,seb11gai a.lat untuk mendukung suatu model yang dihara.pkan.

3.1 Teori Graph

Suatu Graf G didefinisikan oleh dua himpunan berhingga yang tak kosong V( G) elementnya disebut dengan vertics ditulis dengan notasi v dan h.impwian berhingga yang tak kosong E( G) elemennya disebut dengan edges dihubungi oleh dua vertic vi dan Vj ditulis dengan notasi e dan suatu fungsi Jc mengaitkan cle- ngan setiap edge di E(G) dengan pa.sang tak terurut V(G) sehingga suatu graph dinotasikan G

=

(V(G), E(G), Jc). Bila Vi dan vi dua titik ujung vertic yang dihubuugi oleh e maka titik vi dan Vj titik vi clan Vj disebut dengan adjacent (ketetanggan) clan e disebut dengan inci,dent (bersisian) titik vi dan titik vi, jika titik vi

=

Vj disebut dengan loop dan jika ei dan ei dua titik yang sama dise- but dengan parallel. Suatu graph disebut dengan simple graph jika graph tidak mempuuyai loop clan multiple edge (sisi ganda). ½(G) ke ½(G).

Graph H adalah subgraph G jika V(H) ~ V(G), E(H) ~ E(H) dan

fs

adalah pembatasan dari

.fc

pada E(H) ditulis H ~ G, sedangkan H CG disebut dengan proper subgraph.

Graph G1

=

(½(G),E1(G),fci) dan G2

=

(½(G),E2(G),fa2 ) dikatakan 16

(23)

Isomorphi jika dua pemetaan yang bijection: I.() dari clan b dari, E1 ( G) ke E2 ( G), untuk e E E1(G) dan vi,Vj E ½(G), edge o(e) untuk titik ujung l.()(vi) dan 'P(vJ)

di G2 jika clan hanya jika edge e mempunyai titik ujung vi dan Vj di G1 .

Graph lengkap adalah graph sederhana. sedemikian hingga dua vertics di- hubung,i oleh edge di tulis secara umum Kn.

Suatu walk dari graph G

=

(V(G), E(G), Jc) adalah suatu barisan dalam bentuk ( v0 , e1 , v1 , . . . , ek, vk) dimana k 2: 0, vi vertex dari G dan ei adalah edge dari G sedemikian hlngga untuk i

=

0, ... , n -1, dimana vi dan vi+1 adalah titik ujung dari ei+l, vertex v0 dan Vn ujung dari walk juga disebut link dari walk.

Suatu cycle adalah suatu path tertutup dengan panjang 2: 1 suatu path dengan bentuk (vo, e1, v1, •.. , ek, v0) dimana k 2: 1, dan vertex v;, untuk i

=

0, 1, ... , k - l yang semuanya berbeda. Bilangan bulat n adalah panjang dari cycle, Walk dan trail adalah suatu cycle yang tidak mempunyai panjang yang sama dengan nol. Degree dari suatu graph G adalah bilangan dari edge di G yang inciden dengan v sebagai titik ujung.

Jika dua titik u dan v dikatakan terhubung jika terdapat walk dari u ke v.

Graph G dikatakan graph terhubung jika setiap pasang titik u dan v terhubung di G. Subgraph G terhubung maksimal disebut dengan komponen.

Graph G adalah Bipartisi jika hlmpunan dari vertex <la.pat dibagi kedalam dua hlmpunan bagian yang saling asing sedemikian hlngga setiap edge mempunyai ujung vertex pada setiap himpunan bagian. Graph Bipartisi ditulis G

=

(Vi ( G) U

(24)

18

½ (

G), E ( G)), dimana

½ (

G) dan ½ ( G) dua himpunan bagian dari vertex dan E(G) himpunan bagian dari edge.

Suatu clique dari graph tak berarah G

=

(V, E) adalah himpunan maksimal dari pasangan vertex yang bertetangga (adjacent) ,himprman dari pasangan vertex yang tidak bertetangga (nonadjacent) disebut suatu himpunan bebas (indepen-

dent). Suatu clique pada graph G

=

(V, E) adalah himpunan bagian dari node Ve ~ V sedemikian hingga setiap pasang node u, v E Ve adalah tetangga di G, dengan kata lain G[Vc] adalah suatu graph komplek .

Matching pada suatu graph adalah suatu himpunan dari edge dengan sifat tidak ada vertex incident dengan lebih besar sama dengan satu edge pada him- punan. Suatu vertex yang mana incident dengan suatu edge pada suatu himpunan dikatakan saturated. Suatu matching perfact jika dan hanya jika setiap vertex sa- turated, yaitu jika dan hanya jika setiap vertex incident dengan tepat satu edge dru·i matching.

Suatu matching M dari graph G adalah suatu himpunan bagian dari E( G) sedemikian hingga terdapat dua edge dari M tidak mempunyai titik ujung secara umum. Suatu matching dengan k-edge disebut dengan k-matching. Misalkan d bilangan bulat posit.if, Suatu matching disebut defect-d matching jika covers exactlyjV(G)dl vertex dari G. Suatu defect-0 matching disebut perfect matching dan defect-1 disebut dengan near-perfect matching (West, 2001).

Suatu covering dari graph G adalah himpunan bahagian S dari V ( G) se-- demikian hingga setiap edge dari G memprmyai paling sedikit satu ujung di S.

(25)

Suatu covering S* adalah suatu minimum covering jika G tidak mempunyai cove- ring S dengan

ISi <

IS*/. Order dari minimum covering disebut dengan covering number ditulis f3*(G) (Roger dan Liu, 1999).

Misalkan G graf terhubung dan Go subgraf dari G (Go ~ G). Suatu edge dari G relatif pad.a Go adalah suatu path P

=

(v1, e1, v2, e2, V3, ... , en-1, vn) yang mana didalam vertex (jika. ada) yang mempunyai drajat dua di G, misalnya P ketemu Go tepat di titik ujung. Pada kejadian khusus, edge dari P dengan panjang satu bukan merupakan edge dari G0 • Suatu edge adalah genap (ganjil), jika panjang dari P genap (ganjil). Jika P suatu edge dari G, maka ditulis G - P graf di proleh dari G oleh pencoretan edge clan titik di dalam dari P. Suatu edge dari P terbuka (tertutup) jika titik ujung dari P berbeda (sama). Misalkan G suatu graf dan Go subgraf dari G ( Go ~ G), maka edge decomposisi dari G digambarkan sebagai suatu sequence dari subgraf dari G yaitu, Go atu C G1 C

G2 C ... C Gv

=

G, dimana Gi

=

Gi-lpi· Kita teruskan rnernbangun secara induktiv suatu sequence dari graf menurut: jika Gs-1 telah siap dengan suatu kontruksi, dengan menambahkan ke-r oleh suatu penggabungkan dua tertex di

Gs-1 dengan path dan tidak ad.a vertex yang lain secara umurn dengan Gs-1•

Mixed graf adalah suatu graf G

=

(V(G), E(G), Jc), dimana V(G) adalah suatu himpunan yang tak kosong dari vertexs dan E(G) adalah himpunan yang tak. kosong dari edges dan / a adalah himpunan arcs.

Suatupath adala.h mixed graf jika sequence bergantian (vo, eo, vi, ... , en-1, vn) dari vertex dan arcs atau edge sedemikian hingga salah satu ei

= {

vi, vi+ 1 } E E ( G)

(26)

20

a tau ei

=

{vi, vi+ 1 } E

f

c untuk semua i, 0 :S: i :S: n dan semua vertex dan semua edge pada path yang berbeda. Suatu path disebut mixed graf jika memuat paling sedikit satu satu arc di

Jc

dan satu edge di E(G).

Suatu mixed graph terhubung kuat ( strongly ronnected) jika untuk setiap pasang u, v E V dimana terdapat suatu path di G dari u ke v dan dari v ke u. Suatu path P bersama dengan suatu edge (arcs) dan suatu vertex v disebut dengan mixed cycle jika v clan vertex pertama pada path sama dan jika P bersama dengan v dan edge (arc) adalah suatu mixed path. Suatu mixed path P ( mixed cycle C) ditentukan oleh himpunan dari arcs dan edge di P (di C), Panjang dari suatu mixed path P ( cycle C) adalah jumlah dari edge dan arcs yang ada ditulis dengan

!Pl (IC!).

Ukuran dari mixed path (cycle C) adalah jumlah dari edges di E yang ada.

3.2 Aljabar Linier

Misalkan B

=

{x1, x2, ... , Xn} himpunan vektor-vektor x1, x2, ... , Xn di ru- ang vektor di R"'. Suatu vektor X di R:1- dika.takan kombinasi linier dari vektor- vektor jika dan hanya jika X

= {

a1X1

+

a2x2

+ ... +

anxn} untuk skalar riil a1 , a2 , ••• , an, Jika B himpunan vektor-vektor di ruang vektor R"' ruang baha- gian dari semua kombinasi linier dari vektor-vektor disebut ruang bahagian yang dibangun oleh B ditulis (B).

Suatu himpunan vektor-vektor { x1 , x2, ... , Xn} di ruang vektor H!" di katakan tak beba.s linier (bergantung linier) jika dan hanya jika skalar riil a1, a2, ... , an,

(27)

Suatu garis L ditentukan oleh dua titik x1 dan x2 , dua titik P dan titik Q terletak pada garis L (P =f= Q) dan misalkan vektor a sejajar dengan garis L jik.a dan hanya jika PQ

//a,

jika dan hanya jika PQ

= a>.., >..

=f= 0. Jika >..

=

0

maka P

=

Q. Dengan menggunakan koordinat vektor clapat clitulis persamaan PQ

=

a>.. sehingga P - Q = a>.. atau P = Q

+ a>..,

disebut persamaan vektor untuk garis L(Dahl, 1997).

3.3 Aljabar

Suatu fungsi cp dipetakan dari X into Y adalah suatu relasi antara X clan Y clengan sifat setiap x EX anggota pertama tepat satu pasangan terurut (x, y) di cp. Sedemikian hingga fungsi disebut juga pernetaan clari X into Y. Ditulis cp: X...,. Y clan digambarkan seba,gai (x,y) E cp oleh cp(x)

=

y. Domain clari

<.p adalah himpunan X dan himpunan Y adalah codomain dari cp. Range clari <.p

adalah cp[X]

=

{cp(x): x EX} (Judson, 2009).

Suatu fungsi cp : X - t Y adalah satu ke satu jika cp(x1)

=

cp(x2 ) hanya bila x1

=

x2 . Fungsi cp onto Y jika range dari <p adalah Y.

Misalkan (S, *) dan (S', *) binary aljabar struktur. Suatu isornorphis clari S dengan S' adalah suatu fungsi satu ke satu dengan mapping cp S onto S' sedimikian hingga, cp(x *Y)

=

cp(x)

*'

cp(y) untuk sernua x, y ES. Jika. seclemikian hingga suatu pemetaan <p ada, rnaka S dan S' Isomorphic binary struktur ditulis S ~ S' (Judson, 2009).

(28)

23

3.4 Convexity

Misalkan dua titik-titik x1 dan x2 E Rn, himpunan dari semua titik x

=

(1 - >..)x1

+

>-.r2 sedemikian hingga O ::;

>.. ::;

1 disebut (tertutup) dengan segmen garis diantara x1 dan x2 dan ditulis dengan [a, b].

Suatu himpunan C E R disebut Convex jika memuat suatu segmen garis antara dua titik x1 dan x2 dengan kata lain jika (1 - >..)x1

+ >..x

2 E C dimana x1 dan x2 E C, 0 ::; ,\ ::; 1.

Suatu h.impunan dan E E ~ , terdapat suatu himpunan convex yang me- muat E di R'i 1 irisan dari semua himpunan convex yang memuat E disebut dengan Convex hull dari E ditulis conv E (Dahl, 1997).

3.5 Linier Programming

Pada persoalan Linier programming diberikan suatu system Ax::; b meru- paJcan pertaksamaan tinier dan fungsi object linier f(x)

=

cT x, akan menentukan suatu penyelesaian yang fisibel x* dimana fungsi object maksimum atau mini- mum. Suatu matrik A E gnxn, dengan vektor b E Rm dan vektor c E R,'t yang berhubungan dengan persoalan tinier programming ditulis dalam bentuk;

max cT x kendala Ax ::; b

atau

max{cT x: Ax::; b}

(29)

Penyelesaian fisibel x* disebut dengan penyelesaian yang optimal jika cT x- ~ cT x* untuk semua penyelesaian fisibel x*, jika linier programming tidak mem- punyai penyelesaian yang .fisibel disebut dengan infisibel. Untuk linier program- ming duality teory, untuk setiap linier programming:

max{cT x: Ax~ b}

(P)

clan

(D)

P disebut dengan persoalan primal sedangkan D disebut dengan dual, dual dari D adalah P.

Sifat: misalkan P

=

max{cTx: Ax~ b} clan D

=

min{cTb: yTA

=

c'T, y ~

O} maka:

a. Jika P dan D rnempunyai penyelesaian fisibel, maka rnernpunyai penyele- saian yang optimal dari fungsi object sama.

b. Jika P infisibel, rnaka D salah satu infisibel atau tak terbatas.

c. Jika P tak terbata-:;, maka D infisibel.

Dari definisi optimality himpunan dari penyelesaian yang optimality program linier pada suatu polyhedron Q

=

{x E R : Ax ~ b} maka adalah suatu face dari polyhedron (Le clan Leyffer, 2012).

(30)

25 3.5.1 Integer linear programming

Integer Linier Programming didefinisi sebagai,

max cT x kendala Ax ::s; b, x bilangan bulat.

Strategi penyelesaian dari ILP adalah penyelesaian pendekatan atau penye- lesaian dengan LP-relaksasi dari ILP.

Teorema 3.5.1 (Farka's).- Misalkan suat·u matrik A E Rm,n dengan vektor kolom

a1 , a2, ... , ak, dan vektor b E Rm. Suatu sistem persamaan linier Ax

=

b, mem- punyai penyelesaian jika dan hanya jika yTb

=

0, untuk semua y E Rn, dengan

yTaj

=

0, j

=

1, 2, ... , n.

Teorema 3.5.2 Misalkan suafo matrik A E H:71,n, dengan vektor b E H:71, Suat-u sistem persamaan linier Ax

=

b, x ~ 0, mempunyai penyelesaian jika dan hanya jika yTb ~ 0, untuk setiap y E R1i dengan yT A ~ 0.

(31)

3.5.2 Mi.reed integer nonlinear programming

Bentuk umum dari Mixed Integer Nonlinier Programming dapat ditulis dalam bentuk;

min f(x, y)

s.t. 9i(x, y) ~ 0, i

=

1, 2, ... , q

(3.5.1)

X E X ~ Rn' y E y ~ zm

dimana f : X x Y - R, 9i : X x Y - R (i

=

1, ... , q), hi : X x Y - R (1: = 1, ... , 1) clan zm himpunan dari vektor bilangan bulat di R:1 Andaikan X himpuna.n convex yang tak kosong di ~ clan Y himpunan bilangan bulat berhingga di

zm.

Untuk bentuk Mixed Integer Nonlinier Programming convex dima.na.

f

dan

g convex pada (x, y) dan persarnaan konstrain absen sehingga bentuk menjadi,

min f(x, y) s.t.g(x, y) ~ 0,

xEX~Rn, yEY~zm

(3.5.2)

jika

f

clan gis keduanya convex di x clan linier di y Persamaan 3.5.1 menjadi

min f(x)

+

cTy

s.t. gi(x)+b;y ~O, i= l, ... ,q

X E X ~ Rn' y E y ~ zm

(3.5.3)

(32)

27

3.5.3 Metode bmnch-and-bound

Branch-and-Bound untuk Persamaan 3.5.1 dasar pada relaxasi yang konti- nus dari mixed integer nonlinier programming, oleh relaxasi integrality dari vari- abel y, diperoleh nonlinier programming dalam bentuk,

min f(x, y) s.t. g(x, y)

:s;

0 h(x, y)

=

0

x EX s;;; Rn, y E conv(Y),

(3.5.4)

jika. a dan

/3

batas atas dan batas bawah dari y, dengan menggunakan asumsi untuk mixed integer nonlinier programming.

Asumsi(l)

a. X s;;; Rn adalah himpunan compact convex dan Y adalah himpunan bilangan bulat berhingga;

b. f dan 9i (i

=

1, ... , q) adalah convex dan suatu fungsi yang dapat dide- frensialkan dari (x, y), clan ~ (i

=

1, ... , l) adalah suatu fungsi linier dari (x, y);

c. Kualifikasi kriteria dari nonlinier programming dipenuhi.

Bender Decomposisi

Bender Decomposisi populer dalam penyelesaian permasalahan mixed integer non- linier programming. Untuk pengembangan dari Bender Decomposisi untuk penye-

(33)

lesaian dari pertaksamaan konstrain convex mixed integer nonlinier programming problem.

Dengan penambahan dari persamaan konstrain, Misalkan

S

=

{(x, y) EX x YI g(x, y) ::; 0}

Dan

V

= {

y E Y I terdapat x E X sedemikian lringga g ( x, y) ::; 0}

Untuk y EV menurut subproblem nonlinier programming, min f(x, y)

s.t. g(x, y) ::; 0, (3.5.5)

xEX

Untuk y EV, penyelesaian optimal dari Persamaan 3.5.5, nilai optimal 3.5.5 membuktikan batas atas dari Persamaan 3.5.2, dimana memerlukan asumsi pada Persamaan 3.5.5 untuk mendapatkan; Asumsi 3.5.2, Untuk y E V, penyelesaian optimal dari Persamaan 3.5.5 adalah titik regular yaitu vektor gradian dari kon- strain aktiv pada penyelesaian yang optimal sehlngga bebas linier.

(34)

BAB4

PENDEKATAN POLYHEDRAL UNTUK SEQUENCE ALIGNMENT

Pembahasan Pendekatan Polyhedral untuk pad.a sequence alignmet menggunagan definisi, notasi sesuai dengan rujukan dari Kececioglu et al., Reinert, Lenhof et al dan Alexander.

Aljabar Linier merupakan salah satu bahagian dari Ilmu Matematika yang banyak digunakan pad.a ilmu terapan, salah satu bagian dari aljabar linier yang dikenal adalah Sistem Persamaan Linier (SPL). Sistem Persamaan Linier terdiri dari dua bahagian yaitu; Sistem Persamaan Linier yang non homogen dengan bentuk

E

aijXj

=

bi, j

=

1, 2, ... , n dan mempunyai tiga bentuk penyelesaian yaitu penyesaian tunggal, banyak penyelesaian dan tidak mempunyai penyelesaian sedangkan Sistem Persamaan Linier yang homogen dengan bentuk

E

aiixi

=

0, j

=

1, 2, ... , n, selalu mempunyai penyelesaian yaitu penyeksaian yang trivial dan non trivial.

4.1 Polyhedral Geometry

Polyhedron adalah himpunan bagian PC R!1' dari bentuk P = P(A, b) = {x E _RnjAx

:S:

b} Untuk matriks A E R(mxn) dari vektor baris clan vektor b E Rm

dan polytope adalah convex hull dari ruang berhingga dari titik-titik di ~.

29

(35)

Teorema 4.1.1 (Schrijver, 1986). Untuk X ~ R:1' dan x E conv. hull X, dimana terdapat vektor affin yang bebas linier x1 , x2 , • • • , Xn E X dengan x E conv.hull

Teorema 4.1.2 (Schrijver, 1986). Misalkan {x1, x2 , • • · , Xn}: y E

Jr:\

maka 1.

y > 0 kombinasi linier dari vektor vektor yang bebas linier dari x1 , x2 , • • • , Xn.

2. Terdapat hyperplane {xlcx

=

O}, memuat k - 1 vektor vektor yang bebas linier x1, x2, · · · , Xn sedemikian hingga cy :::;; 0 dan cx1, cx2, · · · , CXn

2:

0, dimana

Corollary 4.1.3 (Schrijver, 1986). Suatu convex cone adalah polyhedral jika dan hanya jika membangu.n berhingga.

Corollary 4.1.4 (Schrijver, 1986}. Suatu himp1.man P dari vektor vektor pada

ruang Euclidean adalah polyhedron. Jika dan hanya jika P

=

Q

+

C untuk polytop Q dan polyhedron cone C.

I

Corollary 4.1.5 (Schrijver, 1986). Misalkan A Matrik dan b vektor, ada vektor

x 2:: 0 dengan Ax

=

b jika dan hanya jika yb 2:: 0 untuk setiap vektor baris y dengan yA 2:: 0.

Corollary 4.1.6 (Schrijver, 1986). Misalkan A Matrik dan b vektor. Maka Ax:::;;

0 dari pertaksamaan linier yang mempunyai penyelesaian x, jika dan hanya jika yb

2:

0 untuk setiap vektor baris y

2:

0 dengan yA

=

0.

(36)

n.jii ff 1µ,,xu1t~ ]

1 31

~"81£1TAS SUMATERA ~ -

Corollary 4.1.7 (Schrijver, 1986}. Misalkan A Matrik dan b vektor, maka Ax :S b mempunyai penyelesaian x

2':

0, jika dan hanya jika yb

2':

0 untuk setiap vektor

baris y

2':

0 dengan yA

2':

0.

4.2 Pasangan Alignment (Pairwise Alignment)

Definisi 4.2.1 (Reinert, 1999}. Misalkan

I:

adalah suatu alphabet berhingga tanpa karakter blank

=' -

1 dan misalkan

I:" =

EU{'-'}. Jika S1 dan S2 dua sequence pada

E

dengan panjang n1 dan n2 maka pasangan alignment dari A dari S1 dan S2 dua string S1, S2 E

I:"*

dalam penyajian dimensi matrik 2 x n memenuhi sifat:

b. Sequence S[' diberikan dari Si jika terpisah dari blank.

c. Tidak ada kolom hanya memuat karakter blank jika maka max{nl, n2} :S

Untuk notasi infix dari sequence Si dari posisi k ke posisi l dengan Si(k,l)·

Dua karakter pada EA disebut dengan aligned pad.a A, jika dimana tempat yang baik pad.a kolom yang sama dengan urutan alignment. Suatu pasangan dari karak- ter aligned yang disebut dengan substitusi atau mismatch jika a =/:, b dan tidak satupun dari dua karakter adalah karakter blank dan match a

=

b, suatu insertion jika a

=' -'

atau deletion b

=' -'.

(37)

4.2.1 Penscoran pasangan alignment (scoring pairwise alignment)

Pasangan alignment dari 51 dan 52 seba.gai A(51, 52), himpunan semua alignment antara 51 dan 52 ditulis dengan A2(51, 52) dan himpunan semua align- ment antara dua seq_uence A.

Definisi 4.2.2 {Reinert, 1999). Suatu fungsi sc: A2 - R disebut dengan align- ment fungsi score. Jika A suatu alignment dari d1w sequence, mak,a sc(A) disebnt score alignment dari A. Optimal alignment score dari dua sequence 51, 52 didefi- nisikan sebagai scapt(S1, S2)

=

CJJ)t AEA2(Si,Sz)sc(A), dirnana CJJ)t E { min, max} tak bebas pada fungsi sc.

Suatu.fungsi score m·utasi menentukanjumlah untuk setiap pasang (a, b) dari huruf di

LI\

score dari aligning. Secara umum ada dua earn untuk mendefinisikan fungsi score mutasi:

a. Bentuk dari keserupaan score {similarity score) sim :

LI\

x

LI\ _,

R, di- mana pasangan yang berhubungan dengan kimia sama denga.n penugasan suatu score tinggi dan pasangan yang berhubungan dengan kimia tidak sama dengan penugasan suatu score rendah. Score memerlukan karakter blank (sim('-',a) dan sim(a,' -')) dengan menggunakan konstanta b yang sama.

b. Bentuk dari jarak score {distance score} dist :

LI\

x

LI\

---+

Ro,

dimana pasangan yang berhubungan dengan kimia sama dengan penugasan suatu score rendah (distance) dan pasangan yang berhubm1ga11 dengan kimia tidak

(38)

33

sama dengan penugasan suatu score tinggi. Score memerlukan karakter

blank (dist('-', a) dan dist(a,' -')) dengan menggunakan konstanta c yang sama.

Diberikan sedemikian hingga suatu matrik score paling mudah dimengerti

fungsi score alignment adalah jumlah dari individu jarak atau keserupaan score, yaitu:

n

scd: A2-+ R?.o dengan scd(A)

=

Ldist(a1,ia2,i),

i=l

yang mana juga diketahui sebagai bobot edit distence dan

n

scs : A2 -+ R dengan scs(A)

= L

sim(a1,ia2,i)

i=l

Fungsi score distence selalu dalam bentuk matrik.

4.2.2 Fungsi score dengan menggunakan gap

Jika menggunakan hanya mutasi score matrik fungsi score dengan men- jalankan berturut-turut dari insertion dan delection sebagai bilangan kejadian bebas, clan setiap penugasan suatu score.

Misalkan kejadian mutasi tunggal tidak merubah sequence pada titik tunggal tetapi perubahan pada bahagian yang panjang, menjalankan berturut-turut dari insertion atau delection pada alignment suatu gap.

(39)

Definisi 4.2.3 (Reinert, 1999}. Suatu gap dengan panjang l pada suatu align-

ment A ada mak,Simal, dengan menjalankan berturut-turut dari karakter blank l pada satu, baris a'ft;'nment.

Keserupaan dari fungsi score distence untuk pasangan alignment dengan gap sebagai kombinasi dari jumlah score dari match, mismatch dan indel pada alignment dan suatu fmigsi harga gap gd(l) : N -+ R>o atau 9s(l) : N -+ R<o

- -

diberikan harga dari suatu gap dengan panjang l pada alignment. Score distance dengan gap didefinisikan:

n

scd9 : A.2 --+ R2o dengan scd9 (A)

= L

dist(a1,ia2,i)

+ L

gd(l)· < #gap

i=l i>O

dengan panjang l di A.

Dan keserupaan score dengan gap biasanya didefinisikan sebagai,

n

SC89 : A2 --+ R dengan SC89(A)

=

I:sim(a1,ia2,i)

+

Lgs(l) · #gap

i=l i>O

dengan panjang l di A

4.3 Multiple Alignment

Definisi 4.3.1 (Reinert, 1999). Misalkan

E" = EU{'-'}. E

alphabet berhing- ga tanpa karakter blank '-' dan misalkan

E" = EU{'-'}.

Jika S1, S2, ... , Sk merupakan k sequence pada

E

dengan panjang n1, n2, ... , nk maka multiple align- ment A dari S1 , S2 , ••• , Sk adalah matrik berdimensi k x nA

=

(aii) yang memuat k string

st' st' ... ' st

E

E*

mempunyai sifat,

(40)

36

Jumlah bobot dari sepasang score

Sepasang fungsi score alignment sc, jumlah bobot dari sepasang score secara sederhana jumlah atas jumlah bobot dari score dari semua pasangan projeksi dari alignment A.

k-1 k

wsop: Ak---+ R dengan wsop(A)

= L L

wi,j · sc(Ai,j).

i=l j=lc+l

4.4 Struktur Alignment

Pada struktur seqv,ence alignment tidak hanya diambil kedalam keterangan primery tetapi juga struktur sekunder dari seqnencc. RN A merupakan type single strand melekul yang mana fold intermelekuler pada bentuk suatu bilangan hy- drogen bond pasangan basa. pada umumnya C-G dan basa A-U. Ini pasangan basa yang dise but dengan complementary dan bcrbeda pada bilangan dari ben- tuk hydrogen bond. Pasangan C-G membentuk tiga hydrogen bond cenderung lebih stabil dari pada pasangan A-U, yang hanya dua bentuk. Ini disebut juga pasangan basa Watson-Crick pendekatan coplanar dan biasanya menupuk pada basa yang lain karena pada ruang tiga dimensi, RN A secara umum membentuk double helix.

Definisi 4.4.1 (Reinert, 1999). Misalkan S sequence pada

:El\

dengan panjang m. Pasangan ( i, j) dengan l ::; i

<

j ::; m disebut interaksi jika Si

-I-' -'

dan si

-I-' -'.

Himpunan P dari interaksi disebut annotasi dari S. fl,ua interaksi (i,j), (k, l) pada suatu annotasi pada conflict jika i

=

k atau i

=

l atau j

=

k atau j

=

l. Suatu secondary struktur adalah suatu annotasi dengan tidak ada

(41)

4.5 Traces

4.5.1 Pasangan traces

Suatu pasangan alignment A(S1, S2) dari dua sequence S1 dan S2. Dengan menyarnakan karakter S1 dan S2 sebagai vertex V dari graph komplek bipartisi G =(VE, 'lj1)

=

Kn1,n2 danV

=

S1 U S2 dimana Si= {si,j: 1 ~ j ~ ni}, G meru- pakan input alignment graph. Edges di G disebut dengan edges alignment dan kemungkinan mismatch atau match dari karakter pada dua sequence, mismatch pada alignment di A realize edges di E dan terhubung pada karakter aligned dan himpunan semua edges di E realize oleh alignment sebut dengan trace.

I'v1isalkan e EE ditulis start(e) dengan posisi (indek) dari huruf di S1 dimana yaitu e dan f (e =I=- J) dengan sifat irreflexive, transitive dan partial order'---<'.

Definisi 4. 5.1 (Reinert, 1999). Dua edges alignment e dan

f

E E adalah e ---<

f

jika kedua start di Si, dan end di Sj, dan jika

start (e)>start (f) start (e)=start (f)

dan dan

end(e }~ end{!) end(e}< end(f)

Dua edges alignment e dan

f

dikatakan conflict jika salah satu e ---<

f

dan

f

---< e.

Teorema 4.5.1 (Reinert, 1999). Misalkan G

=

(V, E, 'lj;) suai'!L perluasan align- ment graph (extended alignment graph/EAG}, misalkan T ~ E dan misalkan GI\= (V, E, 'lj;) dan EAG disebabkan oleh T. Maka T adalah suatu trace jika dan hanya jika dimana tidak ada mixed cycle kritikal di GI\.

Referensi

Dokumen terkait

Suatu putusan hakim merupakan suatu pernyataan yang dibuat secara tertulis oleh hakim sebagai pejabat Negara yang diberi wewenang untuk itu yang diucapkan dimuka persidangan

Berbagai upaya dan strategi yang dilakukan sekolah tersebut agar menjadi sekolah yang lebih maju baik dari segi akademik maupun keterampilan peserta didik untuk mencetak lulusan

Saya tidak ingin mendapatkan masalah dengan klien jika saya tidak memenuhi keinginan klien untuk berperilaku menyimpang dari standar profesional.. Saya khawatir jika klien saya

Untuk kelompok mahasiswa yang memiliki akreditasi PS S1 B atau C dipisahkan lagi secara bertahap oleh status perguruan tinggi asal, jenis kelamin, sumber biaya pendidikan dan

 Dato’ Onn menulis surat kepada Utusan Melayu menyeru orang Melayu mengadakan kongres dan menubuhkan United Malays Organization (U.M.O) untuk menentang Malayan Union..

Buang air besar tidak pada tempat yang tepat seperti jamban atau WC 2.. Menurut Bapak/Ibu dimana tempat Buang Air Besar

Bagi guru, diharapkan pembelajaran matematika interaktif berbasis komputer ini dapat membantu guru dalam menyampaikan materi matematika pada siswa dan dapat menciptakan

PSDKP yang didelegasikan ke Dinas Kelautan dan Perikanan Provinsi, berupa 1.119 POKMASWAS yang aktif membantu kegiatan pengawasan SDKP, dengan rincian