Pengembangan hidden semi markov model dengan distribusi durasi state empiris untuk prediksi struktur sekunder protein

(1)

PENGEMBANGAN HIDDEN SEMI MARKOV MODEL

DENGAN DISTRIBUSI DURASI STATE EMPIRIS UNTUK

PREDIKSI STRUKTUR SEKUNDER PROTEIN

TOTO HARYANTO

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(2)

PERNYATAAN MENGENAI TESIS DAN SUMBER

INFORMASI

Dengan ini saya menyatakan bahwa tesis : Pengembangan Hidden Semi

Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Protein Sekunder adalah karya saya dengan arahan dari komisi pembimbing dan

belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Bogor, Januari 2011

Toto Haryanto

(3)

ABSTRACT

HARYANTO, TOTO. The Development of Hidden Semi Markov Model with Empirical State Duration Distribution for Protein Secondary Structure Predictions. Under direction of AGUS BUONO and ANTO SATRIYO NUGROHO

This research aimed to develop Hidden Semi Markov Model (HSMM) with long-duration distribution of state empirically and theoretically to predict protein secondary structure. Data used in this study are subset data taken from database of secondary protein structure in DSSP program with three secondary protein structures of alpha-helix (H), betha-sheet (B), and coil (C). Accuracy of the predicted protein structure with HSMM is compared with Hidden Markov Model (HMM) standard. The results showed that the HSMM generally provides a prediction accuracy 72. 1% , 35.3% and 63,1% for H, B and C respectively. The accuracy of standard HMM is 98.4% for (B), 1% for (B) and 6.4% for (C). The use of empirical state duration distribution gives better accuracy on average compared a theoretical state duration distribution. Use of the empirical state duration distribution provides accuracy 71.2% for (H), 37.1% for (B) and 64.0% for (C). Use of theoretical state duration distribution provides accuracy 75% for (H), 30.2 % for (B) and 60.6% for (C). Less accuracy in betha-sheet prediction with HSMM was caused by high of the dispute between distribution in training data and testing data.

(4)

RINGKASAN

HARYANTO, TOTO. Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein. Dibimbing oleh AGUS BUONO dan ANTO SATRIYO NUGROHO.

Protein merupakan unsur yang sangat esensial dalam makhluk hidup. Secara hierarki, struktur protein dapat dikelompokkan menjadi protein primer, protein sekunder dan protein tersier. Struktur primer berupa untaian asam amino pembentuk protein, sedangkan struktur sekunder adalah segmentasi asam amino berupa alpha-helix (H), betha-sheet (B) dan coil (C). Adapun struktur protein tersier adalah struktur sekunder yang telah mengalami proses pelipatan atau

folding. Fungsi protein akan terlihat, apabila telah membentuk struktur tersiernya. Pembentukan struktur protein dari primer sampai tersier dapat dilakukan dengan menggunakan X-Ray Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. Meskipun kedua teknik tersebut mampu mendapatkan struktur baru, akan tetapi membutuhkan biaya yang relatif mahal. Oleh karena itu, berbagai teknik komputasi banyak digunakan untuk menentukan struktur suatu protein terutama struktur sekunder.

Di sisi lain, karakteristik dari sekuens asam amino sebagai struktur protein primer sangat cocok dengan tipe data yang digunakan pada pembuatan model dengan menggunakan Hidden Markov (HMM) untuk memprediksi struktur sekunder suatu protein. Pada prediksi struktur sekunder protein dengan Hidden Markov Model (HMM) informasi state hanya diperoleh dari satu observasi yang dalam hal ini adalah asam amino. Padahal, pada kenyataannya bisa saja suatu

state dapat menyimpan informasi lebih dari satu observasi atau bahkan suatu

sekuens observasi sebagai informasi. Oleh karena itu, dalam prediksi struktur sekunder protein terdapat pendekatan yang dikenal dengan Hidden Semi Markov Model (HSMM). Pada HSMM, satu state dapat membangkitkan suatu sekuens observasi. Ciri dari HSMM yang terpenting adalah adanya durasi state sebagai informasi dalam proses pelatihan dalam membuat model.

Pada penelitian kali ini, prediksi struktur sekunder protein diimplementasikan dengan algoritme yang telah memiliki kompleksitas

O((MD+M2)T) dan menggunakan beberapa jenis distribusi durasi maksimum

yang akan diperoleh secara empiris dari data latih yang diambil maupun dengan menggunakan distribusi teoritis. Hasil akurasi yang didapatkan akan dibandingkan dengan hasil akurasi HMM standar. Di samping itu, penelitian ini akan mengkaji pengaruh selisih distribusi durasi terhadap nilai akurasi yang dihasilkan pada model Hidden Semi Markov Model (HSMM).

(5)

Data untuk proses pelatihan terdiri atas 42556 residu asam amino, sedangkan data pengujian sebanyak 14057 residu. Dari data latih tersebut dibuat beberapa model baik dengan model HMM maupun model HSMM dengan delapan distribusi durasi yang digunakan. Enam dari delapan menggunakan distribusi empiris dan dua menggunakan distribusi teoritis dengan fungsi kepekatan peluang. Selanjutnya model yang telah didapatkan tersebut divalidasi dengan melakukan pengujian.

Pengujian HSMM dilakukan dengan 8 skenario pengujian dengan menggunakan 100% , 90%, 75% dan 50% panjang durasi. Pengujian HSMM juga dilakukan dengan menggunakan durasi yang ditetapkan yaitu 21 dan 15. Pada HSMM dengan menggunakan distribusi teoritis yaitu distribusi dengan fungsi kepekatan peluang eksponensial negatif dan fungsi kepekatan peluang dengan distribusi normal.

Hasil penelitian menunjukkan bahwa secara umum prediksi dengan menggunakan model HSMM memberikan akurasi yang lebih tinggi bila dibandingkan dengan akurasi prediksi menggunakan HMM standar. Ini terlihat dari nilai akurasi prediksi untuk HSMM sebesar 56,9% sedangkan pada prediksi struktur sekunder protein menggunakan HMM menghasilkan akurasi sebesar 35,3%. Penggunaan distribusi durasi secara empiris mampu merepresentasikan kondisi data yang sebenarnya sehingga dalam prediksi akurasi struktur sekunder protein menghasilkan akurasi sebesar 57,4% sementara penggunaan distribusi teoritis menghasilkan akurasi sebesar 55,2%. Secara detail akurasi masing-masing struktur protein dengan distribusi empiris adalah 71,2% , 37,1% dan 64,0% untuk alpha-helix (H), betha-sheet (B) dan coil (C). Adapun prediksi dengan distribusi teoritis menghasilkan akurasi 75,0% untuk struktur alpha-helix(H), 30,2% untuk betha-sheet(B) dan 60,6% untuk coil (C). Pada hasil prediksi, struktur betha-sheet memberikan nilai akurasi yang paling rendah. Setelah dilakukan perbandingan selisih distribusi data latih dan data uji diperoleh bahwa struktur betha-sheet memiliki selisih yang paling besar dibandingkan dengan selisih distribusi alpha-helix dan coil. Hal ini juga didukung oleh besarnya perbedaan distribusi empiris dan teoritis yang dimiliki oleh struktur betha-sheet.

Prediksi struktur sekunder protein dengan Hidden Markov Model dan Hidden Semi Markov Model (HSMM) belum dapat mengakomodasi kondisi data yang tidak seimbang. Dengan demikian, jumlah data uji yang paling sedikit akan menyebabkan akurasi yang rendah. Oleh karena itu, penelitan berikutnya sebaiknya dilakukan metode pada HSMM yang dapat menanggulangi ketidakseimbangan data ini.

(6)

©

Hak Cipta Milik IPB, tahun 2011 Hak Cipta dilindungi Undang-Undang

(7)

PENGEMBANGAN HIDDEN SEMI MARKOV MODEL

DENGAN DISTRIBUSI DURASI STATE EMPIRIS UNTUK

PREDIKSI STRUKTUR SEKUNDER PROTEIN

TOTO HARYANTO

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(8)

(9)

Judul Penelitian : Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein

Nama : Toto Haryanto

NIM : G651080091

Disetujui Komisi Pembimbing

Dr. Ir. Agus Buono, M.Si, M.Kom. Dr. Eng Anto Satriyo Nugroho

Ketua Anggota

Diketahui

Ketua Program Studi Dekan Sekolah Pascasarjana

Ilmu Komputer

Dr. Ir. Agus Buono, M.Si, M.Kom Prof. Dr. Ir. Khairil A. Notodiputro, M.S.

(10)

PRAKATA

Alhamdulillah segala puji penulis panjatkan ke hadirat Allah Subhanahu wa

ta‘ala atas segala rahmat, kasih sayang dan cinta-Nya sehingga tesis ini berhasil diselesaikan. Shalawat dan salam semoga senantiasa tercurah pada teladan kita Nabi Muhammad Shallallahu alaihi wasallam, kerabat, sahabat dan umatnya. Judul yang dipilih dalam karya ilmiah ini ialah Pengembangan Hidden Semi Markov Model dengan Distribusi Durasi State Empiris untuk Prediksi Struktur Sekunder Protein.

Terima kasih penulis ucapkan kepada Bapak Dr. Ir. Agus Buono, M.Si, M.Kom dan Bapak Dr. Eng Anto Satriyo Nugroho selaku pembimbing atas arahan dan masukannya. Ucapan terima kasih juga penulis sampaikan kepada Bapak Dr. Ir. Iman Rusmana, M.Si selaku penguji pada sidang tesis kali ini. Penulis mengucapkan terima kasih kepada Departemen Ilmu Komputer IPB yang telah memberikan beasiswa selama melaksanakan studi S2. Penulis juga mengucapkan terima kasih kepada dosen dan seluruh staf Departemen Ilmu Komputer IPB atas dukungan dan bantuan yang telah diberikansertarekan-rekan S2 (Pak Aziz, Pak Defiana, Pak Altien, Pak Aristoteles dan Pak Rossy) atas kebersamaannya selama penulis menyelesaikan studi.

Di samping itu, penulis mengucapkan terima kasih kepada keluarga khususnya istri dan anakku tercinta atas kesabaran dan kasih sayang selama penulis melakukan studi S2. Ucapan terima kasih juga penulis ucapkan kepada Ibunda tercinta atas Do’a dan segala perhatiannya. Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu proses penelitian ini. Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2011

(11)

RIWAYAT HIDUP

Penulis lahir di Kota Mangga, Indramayu pada tanggal 17 November 1982, anak dari pasangan Caca Goembira (alm) dan Iyus Rusyati. Penulis merupakan anak kedua dari empat bersaudara.

Tahun 2001 penulis lulus dari SMU Negeri 1 Cirebon dan pada tahun yang sama melanjutkan program sarjana ke Institut Pertanian Bogor (IPB), Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) melalui jalur Undangan Seleksi Masuk IPB (USMI) dan lulus pada tahun 2006. Pada Tahun 2008, penulis meneruskan studi S2 dan diterima di Program Studi Ilmu Komputer Pascasarjana IPB.

(12)

DAFTAR ISI

DAFTAR TABEL ………...iv

DAFTAR GAMBAR ……...v

I PENDAHULUAN ... viii

1.1 Latar Belakang ... 1

1.2 Penelitian Terkait ... 4

1.3 Tujuan Penelitian ... 4

1.4 Ruang Lingkup Penelitian ... 4

II TINJAUAN PUSTAKA ... 5

2.1 Struktur Protein ... 5

2.2 Prediksi Struktur Sekunder Protein ... 9

2.3 Hidden Markov Model (HMM) ... 10

2.4 Algoritme Baum-Welch ... 11

2.5 Algoritme Viterbi ... 13

2.6 Hidden Semi Markov Model ... 14

III METODE PENELITIAN ... 17

3.1 Kerangka Pemikiran ... 17

3.2 Studi Pustaka ... 18

3.3 Perumusan Masalah dan Hipotesa Awal ... 19

3.4 Pendefinisian Metode Penelitian ... 19

3.5 Pengambilan Data Struktur Sekunder Protein ... 19

3.6 Pembuatan Model dengan HMM Standar ... 20

3.7 Pembuatan Model dengan Hidden Semi Markov Model (HSMM) ... 21

3.8 Pengujian ... 21

(13)

IV HASIL DAN PEMBAHASAN ... 23

4.1 Praproses dan Pengkodean Data ... 23

4.2 Skenario Pengujian ... 23

4.2.1Pengujian skenario 1 dengan panjang durasi state 100% dari total panjang dengan alpha = 54, betha = 15 dan coil = 35 ... 25

4.2.2Pengujian skenario 2 dengan panjang durasi state 90% dari total panjang dengan alpha = 48, betha = 14 dan coil = 31 ... 25

4.2.3Pengujian skenario 3 dengan panjang durasi state 75 % dari total panjang dengan alpha = 40, betha = 11 dan coil = 26 ... 26

4.2.4Pengujian skenario 4 dengan panjang durasi state 50 persen dari total panjang dengan alpha = 27, betha = 8 dan coil = 18 ... 27

4.2.5Pengujian skenario 5 dengan panjang durasi state maksimum 21 ... 28

4.2.6Pengujian skenario 6 dengan panjang durasi state maksimum 15 ... 28

4.2.7Pengujian skenario 7 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang eksponensial negatif ... 29

4.2.8Pengujian skenario 8 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang normal dengan rataan geometrik . 30 4.3 Perbandingan akurasi Hidden Semi Markov Model (HSMM) ... 31

4.4 Analisis Error Identifikasi Struktur sekunder protein ... 32

4.4.1Matriks Konfusi Skenario 1 ... 32

(14)

4.6 Matriks Konfusi Hidden Markov Model (HMM) Standar ... 42

4.7 Perbandingan Akurasi Prediksi HSMM dan HMM Standar ... 43

4.8 Pengaruh Distribusi Empiris Durasi State terhadap Akurasi HSMM ... 43

4.9 Perbandingan Distribusi Teoritis dan Empiris pada Data Pelatihan ... 47

V SIMPULAN DAN SARAN ... 51

5.1 Simpulan ... 51

5.2 Saran ... 51

DAFTAR PUSTAKA ... 53

(15)

DAFTAR TABEL

Halaman

1. Asam amino, singkatan, simbol dan karakteristik ... 6

2. Codon pembentuk protein ... 7

3. Skenario pengujian struktur sekunder protein ... 24

4. Perbandingan akurasi tertinggi setiap skenario pengujian ... 31

5. Matriks konfusi pengujian skenario 1 ... 32

9. Matriks Konfusi Skenario 5 ... 36

(16)

DAFTAR GAMBAR

Halaman

1. Proses pembentukan protein ... 5

2. Contoh urutan asam amino pembentuk suatu protein ... 6

3. Contoh susuan asam amino hormon prolaktin pada manusia ... 8

4. Gambar struktur sekunder protein : (a). alpha-helix (H), (b). betha-sheet (B) dan (c). coil (C) ... 8

5. Struktur tersier protein ... 9

6. Bentuk umum HSMM (Yu 2009) ... 15

7. Diagram alur penelitian prediksi struktur sekunder protein ... 18

8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp (Define Secondary Structure of Protein) ... 20

9. Ilustrasi HMM untuk prediksi strukutr protein sekunder (Martin et al. 2005) ... 20

10. Pemodelan prediksi struktur sekunder protein dengan menggunakan Hidden Semi Markov Model (HSMM) ... 21

11. Visualisasi hasil praproses dan pengkodean ... 23

12. Perbandingan akurasi prediksi struktur protein total pada skenario1 model HSMM dan HMM standar ... 25

13. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 2 model HSMM dan HMM standar ... 26

(17)

20. Perbandingan akurasi setiap skenario model HSMM ... 31

21. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HSMM skenario 1 ... 33

29. Perbandingan akurasi prediksi struktur sekunder protein model HSMM dengan durasi empiris dan teoritis ... 41

(18)

31. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HMM standar ... 42

32. Perbandingan Akurasi prediksi struktur sekunder protein model HSMM dan HMM standar ... 43

33. Visualiasi distribusi empiris struktur alpha-helix (H) pada data latih dan data uji ... 44

34. Visualiasi distribusi empiris struktur betha-sheet (B) pada data latih dan data uji ... 44

35. Visualiasi distribusi empiris struktur coil (C) pada data latih dan data uji ... 45

36. Selisih distribusi durasi state empiris antara data pelatihan dan data pengujian untuk model HSMM ... 46

37. Selisih distribusi durasi state empiris antara data pelatihan dan data pengujian untuk model HSMM dengan RMSD ... 46

38. Visualiasi perbandingan distribusi teoritis dan empiris struktur alpha-helix (H) pada data latih ... 47

39. Visualiasi perbandingan distribusi teoritis dan empiris struktur betha-sheet (B) pada data latih ... 48

40. Visualiasi perbandingan distribusi teoritis dan empiris struktur coil (C) pada data latih ... 48

41. Perbandingan selisih distribusi durasi state teoritis dan empiris pada data latih untuk struktur alpha-helix (H), betha-sheet (B) dan coil (C) ... 49

(19)

(20)

I PENDAHULUAN

1.1 Latar Belakang

Protein, RNA dan berbagai fitur dalam genome dapat diklasifikasikan menjadi suatu keluarga tertentu sesuai dengan sekuensnya. Protein merupakan aktor utama pada makhluk hidup yang memiliki berbagai fungsi yang sangat penting. Protein terbentuk dari sekuens asam amino pembentuknya dengan karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai struktur primer, sekunder dan tersier (Polanski dan Kimmel 2007). Para ahli di bidang Biologi mengatakan bahwa protein berasal dari kombinasi tiga huruf (triplet) dari Asam Deoksiribosa (DNA) yang disebut dengan codon (Jones dan Pevzner 2004).

Struktur primer dari protein adalah urutan sekuens asam amino penyusun protein yang dihubungkan melalui ikatan peptida. Struktur sekunder adalah sejumlah rangkaian asam amino yang membentuk struktur tiga dimensi lokal baik struktur alpha-helix (H), betha-sheet (B) maupun coil (C). Adapun struktur tersier adalah gabungan dari berbagai struktur sekunder setelah terjadi proses pelipatan (folding).

Peranan protein sangat terlihat pada saat telah melakukan pelipatan (protein folding) dalam bentuk tiga dimensi (3D) sebagai struktur tersier. Namun, struktur tersier (3D) tersebut ditentukan oleh struktur sebelumnya baik primer maupun struktur sekundernya. Oleh karena itu, penentuan struktur sekunder protein ini menjadi bidang kajian yang banyak dilakukan di bidang Bioinformatika.

(21)

komputasi digunakan untuk melakukan prediksi struktur sekunder protein berbasis model komputasi, salah satunya adalah Hidden Markov Models (HMM).

Di sisi lain, karakteristik dari sekuens asam amino sebagai struktur protein primer sangat cocok dengan tipe data yang digunakan pada pembuatan model dengan menggunakan Hidden Markov untuk memprediksi struktur sekunder suatu protein. Menurut Eddy (1998), Hidden Markov Model (HMM) merupakan suatu kelas dari model probabilistik yang secara umum dapat diaplikasikan untuk permasalahan deret waktu atau sekuens yang bersifat linear. Sejalan dengan itu, HMMs merupakan metode yang dianggap memiliki kesuksesan dalam menyelesaikan permasalahan di dalam analisis sekuens meskipun dari sisi kompleksitas masih sulit untuk ditentukan secara manual (Won et al. 2007).

Martin et al. (2005) mengatakan bahwa di dalam memprediksi struktur sekunder protein dapat dilakukan dengan dua metode, yaitu:

 Membandingkan model yang telah ada dengan struktur yang akan

diprediksi atau dikenal dengan comparative modelling

 Metode de novo, yaitu apabila tidak terdapat model yang tersedia untuk dibandingkan dengan struktur yang akan diklasifikasikan.

Pada penelitian ini yang akan dilakukan adalah membuat model untuk mengklasifikasikan struktur sekunder protein. Untuk membangkitkan model tersebut, akan digunakan HMM akan yang telah secara luas diimplementasikan untuk menyelesaikan permasalahan dalam analisis sekuens. Di antara beberapa permasalahan yang terdapat di dalam prediksi struktur sekunder protein ialah masih terbatasnya model untuk dijadikan acuan dalam memprediksi protein sekunder karena ukuran data sangat besar. Penambahan jumlah data model bisa saja dilakukan, namun besarnya ukuran data akan membutuhkan waktu yang lama dan sulit untuk mencapai konvergen dari model yang bangkitkan pada saat melakukan proses pelatihan atau training.

(22)

adalah asam amino. Padahal, pada kenyataannya bisa saja suatu state dapat menyimpan informasi lebih dari satu observasi atau bahkan suatu sekuens observasi sebagai informasi. Oleh karena itu, dalam prediksi struktur sekunder protein terdapat pendekatan yang dikenal dengan Hidden Semi Markov Model (HSMM). Pada HSMM, satu state dapat membangkitkan suatu sekuens observasi. Ciri dari HSMM yang terpenting adalah adanya durasi state sebagai informasi dalam proses pelatihan dalam membuat model.

Hidden Semi Markov Model (HSMM) diperkenalkan pertama kali oleh Ferguson (1980) yang diaplikasikan untuk konversi teks ke suara. Yu dan Kobayashi (2003) melakukan penelitian untuk memperbaiki Algoritme pada HSMM yang dikenalkan oleh Ferguson. Hasilnya adalah kompleksitas algoritme yang diusulkan lebih efisien dibandingkan dengan yang dibuat pertama kali oleh Ferguson. Awalnya, kompleksitas algoritme pada HSMM yang diperkenalkan oleh Ferguson adalah O((MD2+M2)T). Dengan M adalah banyaknya state, D adalah durasi maksimum antar state dan T adalah panjangnya observasi. Yu dan Kobayashi berhasil mengefisienkan algoritme tersebut sehingga kompleksitasnya menjadi O((MD+M2)T) dan mengimplementasikannya untuk menganlisa trafik suatu alamat website. Pada tahun 2006, Yu dan Kobayashi kembali melakukan penelitian dan mengimplementasikan algoritme yang diusulkannya tersebut pada

chipfield-progammable gate-array (FPGA).

Prediksi struktur sekunder protein dengan Hidden Semi Markov Model (HSMM) pertama kali diperkenalkan oleh Schmidler et al. (2000) sebagai metode baru dalam prediksi struktur sekunder protein. Aydin et al. (2006) juga melakukan penelitian untuk memprediksi struktur sekunder protein dengan distribusi durasi maksimum sebanyak 50. Namun, keduanya masih menggunakan algoritme dengan kompleksitas sebagaiamana yang dijelaskan oleh Ferguson.

Pada penelitian kali ini, prediksi struktur sekunder protein diimplementasikan dengan algoritme yang telah memiliki kompleksitas

O((MD+M2)T) dan menggunakan beberapa jenis distribusi durasi maksimum

(23)

menggunakan distribusi secara teoritis. Hasil akurasi yang didapatkan akan dibandingan dengan hasil akurasi HMM standar.

1.2 Penelitian Terkait

Prediksi struktur sekunder protein dengan Hidden Semi Markov Model (HSMM) pertama kali diperkenalkan oleh Schmidler et al. (2000). Hasil akurasi prediksi struktur sekunder protein adalah 61,8 % untuk alpha-helix(H) dan 61,3 % untuk betha-sheet (B) dan 65,9 % untuk coil (C). Pada penelitian tersebut panjang durasi yang digunakan adalah 30 dengan kompleksitasnya adalah

O((MD2+M2)T). Aydin et al. (2006) melakukan penelitian untuk melakukan

prediksi struktur sekunder protein pada sekuens tunggal. Hasil akurasi yang diperoleh adalah 65, 9 % untuk alpha-helix(H), 45,4 % untuk betha-sheet(B) dan 81,3 % untuk coil (C).

1.3 Tujuan Penelitian

Penelitian ini bertujuan untuk mengembangkan Hidden Semi Markov Model (HSMM) yang telah memiliki kompleksitas lebih efisien untuk memprediksi struktur sekunder protein kemudian membandingkan hasil akurasi tersebut dengan penggunaan Hidden Markov Models (HMM) standar. Di samping itu, penelitian ini juga bertujuan untuk melihat pengaruh distribusi panjang durasi

state sebagai informasi biologi dalam proses pelatihan model HSMM yang

dilakukan terhadap hasil akurasi yang diperoleh.

1.4 Ruang Lingkup Penelitian

(24)

II TINJAUAN PUSTAKA

2.1 Struktur Protein

Protein merupakan bagian yang sangat penting pada setiap makhluk hidup. Proses untuk mendapatkan protein dinamakan dengan translasi. Setiap makhluk hidup memiliki kode genetik yaitu DNA (deoxyribonucleic acid) yang tersusun dari basa nitrogen adenin (A), guanin (G), thymine (T) dan cytosine (C). Melalui proses transkripsi, DNA tersebut ditranskripsikan menjadi RNA (ribonucleic acid). RNA mengalami proses translasi untuk kemudian menghasilkan protein (Jones dan Pevzner 2004). Secara ringkas proses terbentuknya protein dapat dilihat pada Gambar 1.

Gambar 1. Proses pembentukan protein

Protein merupakan elemen dasar dari suatu organisme yang dibentuk dari asam amino. Terdapat 20 asam amino dengan struktur kimia yang berbeda (Polanski dan Kimmel 2007). Susunan asam amino pembentuk protein dapat dilihat pada Tabel 1.

Asam amino tersebut terbentuk dari tiga huruf (triplet) dari kombinasi Asam Deoksirobosa (DNA) yang disebut dengan codon. Codon triplet pembentuk protein dapat dilihat pada Tabel 2. Satu protein protein terdiri atas sejumlah sekuens asam amino. Ilustrasi dari pembentukan satu protein berdasarkan sekuensnya dapat dilihat pada Gambar 2.

translasi transkripsi

(25)

DNA : TAC CGC GGC TAT TAC TGC CAG GAA GGA ACT

RNA : AUG GCG CCG AUA AUG ACG GUC CUU CCU UGA

Protein : Met Ala Pro Ile Met Thr Val Leu Pro Stop

Gambar 2. Contoh urutan asam amino pembentuk suatu protein

Gambar 2 merupakan ilustrasi proses pembentukan protein mulai dari urutan sekuens DNA sampai dengan proses translasi yang dapat menghasilkan suatu protein.

Tabel 1. Asam amino, singkatan, simbol dan karakteristik Asam Amino Singkatan Simbol Karakteristik

Alanine Ala A Nonpolar, hydrophobic

Arginine Arg R Polar, hydrophilic

Asparagine Asn N Polar, hydrophilic

Aspartic acid Asp D Polar, hydrophilic

Cystein Cys C Polar, hydrophilic

Glutamine Gln Q Polar, hydrophilic

Glutamic acid Glu E Polar, hydrophilic

Glycine Gly G Polar, hydrophilic

Histidine His H Polar, hydrophilic

Isoleucine Ile I Nonpolar, hydrophobic

Leucine Leu L Nonpolar, hydrophobic

Lysine Lys K Polar, hydrophilic

Methionine Met M Nonpolar, hydrophobic

Phenylalanine Phe F Nonpolar, hydrophobic

Proline Pro P Nonpolar, hydrophobic

Serine Ser S Polar, hydrophilic

Threonine Thr T Polar, hydrophilic

Tryptophan Trp W Nonpolar, hydrophobic

Tyrosine Tyr Y Polar, hydrophilic

(26)

Tabel 2. Codon pembentuk protein

U C A G

U

UUU Phe

UUC Phe

UUA Leu

UUG Leu

UCU Ser

UCC Ser

UCA Ser

UCG Ser

UAU Tyr

UAC Tyr

UAA Stop

UAG Stop

UGU Cys

UGC Cys

UGA Stop

UGG Trp

C

CUU Leu

CUC Leu

CUA Leu

CUG Leu

CCU Pro

CCC Pro

CCA Pro

CCG Pro

CAU His

CAC His

CAA Gln

CAG Gln

CGU Arg

CGC Arg

CGA Arg

CGG Arg

A

AUU Ile

AUC Ile

AUA Ile

AUG Met

ACU Thr

ACC Thr

ACA Thr

ACG Thr

AAU Asn

AAC Asn

AAA Lys

AAG Lys

AGU Ser

AGC Ser

AGA Arg

AGG Arg

G

GUU Val

GUC Val

GUA Val

GUG Val

GCU Ala

GCC Ala

GCA Ala

GCG Ala

GAU Asp

GAC Asp

GAA Glu

GAG Glu

GGU Gly

GGC Gly

GGA Gly

GGG Gly

Struktur protein terdiri atas struktur primer, struktur sekunder dan struktur tersier ( Polanski dan Kimmel 2007). Struktur primer dari suatu protein adalah rangkaian asam amino pembentuknya di sekitar rantai polipeptida. Database

(27)

(b)

(a) (c)

Gambar 3. Contoh susunan asam amino hormon prolaktin pada manusia

Struktur sekunder adalah struktur protein yang ditentukan oleh bentuk alpha-helix (H), betha-sheet (B) dan coil (C) penyusunnya. Struktur sekunder diperoleh dari sekuens asam amino, yang terikat dengan ikatan péptida. Dari sekuens asam amino tersebut, akan membentuk tiga kemungkinan segmen yaitu alpha-helix (H) yang bentuknya berpilin, betha-sheet (B) yang bentuknya lurus atau coil (C). Contoh bentuk ketiganya dapat dilihat pada Gambar 4. Gambar struktur sekunder protein tersebut didapatkan dengan menggunakan perangkat lunak RasMol Versi 2.7.4.2 sebagai perangkat lunak untuk memodelkan struktur protein yang bersifat free software.

Gambar 4. Gambar struktur sekunder protein : (a). alpha-helix (H), (b). betha-sheet (b) dan (c). coil (c)

(28)

tersier protein seperti dilihat pada Gambar 5 dengan menggunakan perangkat lunak RasMol Versi 2.7.4.2 .

Gambar 5. Struktur tersier protein

Data struktur tersier protein dapat diperoleh dari suatu database yang bernama Protein Data Bank (PDB). Dari data ini protein dapat divisualisasikan dalam bentuk tiga dimensi. Fungsi protein akan terlihat apabila sudah melakukan pelipatan atau protein folding. Protein merupakan molekul kompleks dengan struktur tiga dimensi (3D) yang dikenal dengan struktur tersier. Namun, demikian struktur kompleks tersebut dibangun dari struktur primer yang terdiri atas sekuens asam amino pembentuknya ( Polanski dan Kimmel 2007).

2.2 Prediksi Struktur sekunder protein

Struktur sekunder protein merupakan tahap awal dari proses prediksi struktur tiga dimensi (3D) suatu protein. Prediksi struktur sekunder protein bertujuan untuk mendapatkan informasi segmen alpha-helix (H), betha-sheet (B) atau coil (C) dari untaian asam amino primer yang membentuknya.

(29)

Crystallography dan Nuclear Magnetic Resonance (NMR) spectroscopy. (Albert

et al. 2007). Cara ini akan menghasilkan struktur protein secara tepat dan sangat memungkinkan menghasilkan struktur baru. Cara kedua adalah dengan pendekatan heuristic yaitu dengan comparative modelling yang hasilnya berupa prediksi. Prediksi struktur protein dengan menggunakan pendekatan heuristik ini, tidak akan menghasilkan penemuan struktur protein baru karena pendekatan ini hanya melakukan perbandingan antara data yang kita miliki dengan model yang sudah ada.

2.3 Hidden Markov Model (HMM)

Hidden Markov Model (HMM) merupakan model probabilistik yang dapat diaplikasikan untuk menganalisis model deret waktu atau sekuens linear (Eddy 1998). Pada sekitar tahun 1990, untuk membandingkan dua buah sekuens data biologi baik DNA atau RNA digunakan perbandingan pasangan antara dua sekuens yang akan disamakan. Namun, terdapat kendala yang ada apabila dua sekuens tersebut tidak sama di samping kesulitan apabila adanya sekuens baru (Baldi dan Brunak 2001). HMMs adalah salah satu pendekatan yang digunakan untuk memodelkan kumpulan sekuens tersebut. HMMs telah banyak dikembangkan pada banyak permasalahan seperti speech recognition (Rabiner 1989).

Menurut Rabiner (1989), aplikasi pada HMMs pada akhirnya akan direduksi untuk menyelesaikan tiga jenis permasalahan, yaitu :

1. Jika diberikan suatu model λ=(A,B,π), bagaimana menghitung

peluang dari sukuens observasi O = O1,O2,...OT yang dinotasikan dengan P(O|λ)

2. Jika diberikan suatu model λ=(A,B,π), bagaimana memilih state

sekuens I = I1,I2,...IT sehingga P(O,I|λ) sebagai peluang bersama

dari sekuens observasi O = O1,O2,...OT dan state sekuens tersebut memiliki nilai maksimum

(30)

dengan

λ

adalah model HMM

A adalah Matriks peluang transisi,

B adalah Matriks peluang emisi dan

π

adalah Matriks peluang awal / Matriks priority O = O1,O2,...OT adalah variabel observasi

λ) |

P(O _{adalah peluang variabel observasi jika diberikan model}

Hidden Markov Model (HMMs) menggambarkan distribusi peluang dari sejumlah sekuens yang tidak terbatas (Eddy 1998). Nama "Hidden Markov Model" berawal dari fakta bahwasannya state dari sekuens merupakan orde pertama dari rantai Markov sebagai variabel yang tidak teramati. Adapun sekuens dari simbol (seperti A,C,G,T/U) merupakan variabel yang secara langsung dapat diobservasi. Pada kasus analisis sekuens dari data biologi, state sekuens akan berasosiasi dengan label biologis yang bermakna (seperti: struktur pada posisi lokus 42) (Eddy 1998).

2.4 Algoritme Baum-Welch

Algoritme Baum-Welch merupakan salah satu algoritme yang digunakan untuk melakukan pelatihan dalam melakukan estimasi parameter model dari HMMs yang dinotasikan sebagai . Algoritme ini mampu melakukan perbaruan nilai Matrikss peluang transisi A, Matriks peluang emisi B dan Matriks prioritas

π . Algoritme ini disebut juga dengan nama forward-backward algorithm.

Berikut adalah prosedur Algoritme Baum-Welch (Dugad dan Desai 1996)

Inisialisasi : set nilai λ=(A,B,π). Algoritme ini akan memperbaiki

nilai λsecara iteratif sampai konvergen.

prosedur forward : definisikan α_t(i)= p(O₁=O₁,O₂,...O_t,i_t=i|,λ)sebagai

(31)

) (o b π = (i)

αt i i 1 ………...……….………...……….………..(1)

   

 



N

= i ij t + t j +

t (j)=b (o ) α(i)a

α

1 1

1 . ………...….…....……(2)

prosedur backward :definisikan t(i)= P(Ot+1,Ot+2,...,OT |it = i,λ)adalah

peluang observasi parsial sekuens dari t + 1 sampai T dengan state i pada saat t dan model λ. Secara efisien dapat dihitung :

1

= (i)

T , 1iN ………...………...…...(3)



N = j + t + t j ij

t(i) = a b (o ) (j)

1

1 ...(4)

Dengan menggunakan α dan , akan ditentukan dua variabel, yaitu _t(i) dan

j) (i,

ξt dengan persamaan sebagai berikut:

           



N = i t t t t t (i) (i) α (i) (i) α = (i) 1 ...(5)

 

N = i N = j + t j + t ij t + t j + t ij t t ) (o (j)b (i)a α ) (o (j)b (i)a α = j) (i, ξ 1 1 1 1 1 1 ...(6)

Dengan mengasumsikan model saat inisialisasi adalah λ=(A,B,π), maka, update

nilai baru untuk mereestimasi parameter adalah:

(i) =

πi 1 , 1 i N …...(7)



  1 1 1 1 T = t t T = t t ij

(i)

j)

(i,

ξ

=

(32)



   T = t t T vk O t t j (i) (i) k b t 1 1 )

( 1 j N , 1k  M _…...(9)

dengan

λ

adalah model HMM

A adalah matriks peluang transisi,

B adalah matriks peluang emisi dan

π

adalah matriks peluang awal / matrik priority O = O1,O2,...OT adalah variabel observasi

λ) |

P(O _{adalah peluang variabel observasi jika diberikan model}

λ

) (i

t



_{adalah peluang parsial dari sekuens observasi O}₁_{, O}₂_{,… O}_t_{sampai dengan}

state ke-i pada saat ke-t

(i)

T adalah peluang parsial dari sekuen dari t + 1 sampai dengan T (dimana T

= t-1) pada state ke-i pada saat t

2.5 Algoritme Viterbi

Algoritme Viterbi digunakan untuk mendapatkan state yang optimal sehingga peluang suatu observasi adalah yang paling maksimal. Berikut adalah langkah-langkah algoritme Viterbi.

Inisialisasi

……… ………...………..(10)

Proses rekusif

untuk dan

(33)

Terminasi

………(12)

Proses menemukan kemungkinan nilai peluang paling besar dari suatu observasi yang

berakhir pada saat t = T

Backtracking

sehingga , …….(13)

Membaca (decoding) path sekuens terbaik dari vektor

2.6 Hidden Semi Markov Model

Hidden Semi Markov Model (HSMM) adalah bentuk perluasan dari Hidden Markov Model (HMM) yang mempertimbangkan durasi suatu observas terhadap state yang dimiliki. Pada HSMM, panjang durasi D pada suatu state

(34)

[image:34.612.164.473.85.200.2]

Gambar 6. Bentuk umum HSMM (Yu 2009)

Pada HSMM terlihat bahwa suatu state dapat membangitkan lebih dari satu observasi atau bahkan sejumlah sekuens observasi. Sepanjang observasi T, setiap state pada HSMM akan memiliki panjang durasi state dengan nilai tertentu. Pada prediksi struktu protein sekunder observasi ini merupakan sekuens dari asam amino yang membentuk protein sedangkan state adalah struktur protein yang akan diidentifikasi atau diprediksi. Berikut ini adalah tahap algoritme pada HSMM (Yu dan Kobayashi 2006)

Proses Forward

(35)

Proses Backward

Penentuan State Optimal

(36)

III METODE PENELITIAN

3.1 Kerangka Pemikiran

Protein merupakan aktor utama pada makhluk hidup yang memiliki berbagai fungsi yang sangat penting. Protein terbentuk dari asam amino pembentuknya dengan karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai struktur primer, sekunder dan tersier (Polanski dan Kimmel 2007). Prediksi struktur sekunder protein memiliki peranan yang penting sebelum protein tersebut mengalami pelipatan. Di antara model yang digunakan untuk melakukan prediksi struktur protein ini adalah Hidden Markov Model (HMM).

Umumnya proses pelatihan untuk membuat model pada HMMs dapat dilakukan dengan Algoritme Baum-Welch. Proses pelatihan ini tidak mempertimbangkan durasi state atau panjang segmen dari setiap struktur baik alpha-helix (H), betha-sheet (B) atau coil (C). Aydin et al. (2006) melakukan penelitian untuk memprediksi struktur sekunder protein dengan mempertimbangkan panjang durasi state atau panjang segmen tiap struktur protein tersebut yang dikenal dengan Hidden Semi Markov Model (HSMM). Namun demikian, pada penelitian tersebut panjang segmen ditetapkan dengan nilai tertentu dan bagaimana menentukan nilainya tidak disebutkan. Padahal panjang segmen struktur bisa diperoleh secara empiris dari data latih yang digunakan.

Di sisi lain, Hidden Semi Markov Model (HSMM) yang pertama kali diperkenalkan oleh Ferguson memiliki kompleksitas sebesar O((MD2+M2)T)

dengan M adalah Matriks transisi, T adalah sekuens observasi dan D adalah panjang durasi state (Yu dan Kobayashi 2003). Algoritme ini kemudian diefisienkan sehingga kompleksitasnya menjadi O((MD+M2)T dan kebutuhan alokasi memori memiliki kompleksitas O(MT) (Yu dan Kobayashi 2003).

(37)

[image:37.612.101.477.192.614.2]

dan dibandingkan dengan akurasi Hidden Markov Model (HMM) standar. Model HSMM pada penelitian ini menggunakan distribusi panjang durasi state baik secara empiris maupun teoritis. Penelitian ini juga akan melihat pengaruh distribusi panjang durasi state terdapat nilai akurasi prediksi struktur sekunder protein. Diagram alur penelitian ini secara umum dapat dilihat pada Gambar 7.

Gambar 7. Diagram alur penelitian prediksi struktur sekunder protein

3.2 Studi Pustaka

Studi pustaka dilakukan untuk mencari riset-riset terbaru yang terkait dengan penelitian yang akan dilakukan. Dari riset yang telah dilakukan tersebut, penggunaan Hidden Markov Model (HMM) memang telah banyak digunakan

perumusan masalah pendefinisian metode penelitian pengambilan data data latih

data uji

data latih tanpa panjang

durasi state

data latih dengan beberapa panjang durasi state

Pelatihan Pelatihan

pengujian perhitungan dan perbandingan akurasi dokumentasi selesai Model HMM Model HSMM tahap pelatihan

(38)

untuk komputasi dalam bidang Biologi khususnya melakukan prediksi struktur sekunder protein. Akan tetapi, penggunaan durasi state dan bagaimana pengaruh panjang durasi state atau panjang segmen struktur protein terhadap akurasi proses prediksi masih belum banyak dilakukan.

3.3 Perumusan Masalah dan Hipotesa Awal

Perumusan masalah dilakukan sebagai kerangka untuk melakukan penelitian ini. Berdasar permasalahan tersebut, akan diusulkan suatu pendekatan untuk mencari solusinya. Dalam hal ini, penggunaan panjang durasi state pada Hidden Semi Markov Model (HSMM) dapat meningkatkan akurasi dibandingkan dengan HMM standar dan penggunaan beberapa nilai panjang segmen atau panjang durasi state akan mempengaruhi nilai akurasi.

3.4 Pendefinisian Metode Penelitian

Setelah dilakukan perumusan masalah, maka dipilih metode penelitian yang sesuai dengan permasalahan yang ditemukan. Metode penelitian yang digunakan dalam penelitian ini dapat dilihat pada Gambar 7.

3.5 Pengambilan Data Struktur sekunder protein

Proses prediksi struktur sekunder protein ini diawali dengan pengambilan data sekuens protein sekunder yaitu DSSP dari alamat

webstitehttp://swift.cmbi.ru.nl/gv/dssp/ yang merupakan database assignment

struktur sekunder protein. Pemilihan ini didasarkan bahwa DSSP mencakup semua data protein yang ada di Protein Data Bank (PDB). Data struktur sekunder protein yang diambil terdiri atas 42556 residu yang telah tersegmentasi menjadi 8 segmen struktur sekunder. Namun pada penelitian ini, segmen direduksi menjadi tiga, yaitu alpha-helix (H), betha-sheet (B) dan coil (C) (Aydinet al. 2006). Segmen hasil reduksi adalah {I,H,G} alpha-helix(H), {E,B} betha-sheet (B) , segmen lainnya menjadi coil (C).

(39)

sebelum digunakan untuk data pelatihan dan data pengujian terlebih dahulu dilakukan proses parsing dan pengkodean. Kedua proses tersebut dilakukan dengan memudahkan dalam proses komputasi. Hasil dari parsing dan pengkodean adalah pasangan asam amino dan assigment struktur sekunder protein yang telah dikodekan dalam bentuk bilangan integer. Format data dengan ekstensi .dssp merupakan file teks yang terdiri atas beberapa bagian. Gambar 8 merupakan contoh format data .dssp

Gambar 8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp (Define Secondary Structure of Protein)

3.6 Pembuatan Model dengan HMM standar

Pada tahap ini dilakukan proses pembentukan model dari data latih baik dengan HMMs standar dan Hidden Semi Markov Model (HSMM). Prediksi struktur sekunder protein ini, model arsitektur HMM dapat diilustrasikan pada Gambar 9.

Gambar 9. Ilustrasi HMM untuk prediksi strukutr protein sekunder (Martin et al. 2005)

Barisan H-B dan C menunjukkan model hidden state yang merepresentasikan alpha-helix (H), betha-sheet (B) dan coil (C), sedangkan barisan di bawah panah adalah barisan sekuens asam amino sebagai sekuens observasi (observable sequence). Hasil dari proses pemodelan ini adalah matriks transisi dan matriks emisi yang telah memiliki nilai tertentu untuk dijadikan

# RESIDUE AA STRUCTURE_{BP1 … … … X-CA Y-CA Z-CA}

… … I H … … … … … …

… … D H … … … … … …

… … E H … … … … … …

… … G C

(40)

model dalam proses prediksi. Model tersebut kemudian akan disimpan dalam repositori.

3.7 Pembuatan Model dengan Hidden Semi Markov Model (HSMM)

Pemodelan prediksi struktur sekunder protein dengan HSMM berbeda dengan HMM standar. Pada pemodelan dengan HSMM, durasi state oleh observasi tertentu sangat dipertimbangkan. Pada HSMM tidak terjadi transisi suatu state terhadap dirinya sendiri. Ilustrasi pemodelan prediksi struktur sekunder protein dengan HSMM dapat dilihat pada Gambar 10.

Gambar 10. Pemodelan prediksi struktur sekunder protein dengan menggunakan Hidden Semi Markov Model (HSMM)

3.8 Pengujian

Tahap pengujian dilakukan untuk melihat akurasi dari prediksi yang dilakukan. Pengujian dilakukan baik dengan menggunakan data uji untuk melihat hasil klasifikasi. Hasil pengujian dilakukan dengan menghitung presentase data yang benar dikelaskan dibandingkan dengan semua data uji. Formula untuk melakukan pengujian dapat dilihat pada persamaan (28).

...(28)

3.9 Riset Pendahuluan

Riset pendahuluan dilakukan untuk mengetahui distribusi setiap segmen baik alpha-helix (H), betha-sheet (B) dan coil (C). Distribusi pada awalnya dilakukan dengan pembangkitan menggunakan pendekatan teoritis. Akan tetapi

…….. ……..

OT

d1 d2

1 2 3 4 5 6 ……...

H B

dn

in

observasi

waktu

durasi state sekuens transisi

(41)

permasalahannya adalah dengan pembangkitan nilai distribusi ini masih belum merepresentasikan kondisi data yang sebenarnya.

(42)

IV HASIL DAN PEMBAHASAN

4.1 Praproses dan Pengkodean Data

Data struktur sekunder protein yang diperoleh dari database masih memiliki format tertentu berekstensi (.dssp) sehingga harus dilakukan praproses dan pengkodean terlebih dahulu. Setiap satu file berekstensi .dssp akan diambil sekuens asam amino dan struktur sekundernya. Praproses dan pengkodean dilakukan agar data tersebut dilakukan untuk memudahkan proses komputasi pada tahap berikutnya. Adapun data tersebut pada memiliki format sebagai berikut:

# RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA.

Header pada kolom ketiga dan keempat yaitu {AA} dan {STRUCTURE}

yang akan diambil sebagai pasangan data asam amino dan struktur sekunder protein . Baik {AA} maupun {STRUCTURE} akan dikodekan ke dalam suatu bilangan integer. Gambar 11 adalah visualisasi praproses dan pengkodean data.

Gambar 11. Visualisasi hasil praproses dan pengkodean

Hasil dari praproses dan pengkodean adalah pasangan sekuens asam amino dan struktur sekunder protein dari setiap residu asam amino. Format data lengkap struktur sekunder protein dapat dilihat pada Lampiran 1.

4.2 Skenario Pengujian

Skenario pengujian dilakukan untuk melakukan kombinasi pengujian sehingga dapat diketahui model Hidden Markov untuk mendapatkan hasil akurasi yang terbaik. Dengan demikian, model tersebut yang nantinya akan diambil untuk melakukan proses prediksi struktur sekunder protein .

# RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-C … … D H … … … … … … … … E H … … … … … … … … G C … … … … … … … … L C … … … … … …

AA = [ D E G L ... ... ... ... ]

ST = [ H H C C ... ... ... ... ]

AA = [ 4 7 8 11 ... ... ... ... ]

(43)

Pada penelitian ini, skenario pengujiannya adalah melakukan pengujian dengan mempertimbangkan persentase beberapa distribusi panjang durasi state

yang diperoleh secara empiris dari data pelatihan dan pengujian dengan distribusi secara teoritis. Panjang durasi state yang didapatkan dari hasil pelatihan atautraining yaitu segmen alpha-helix (H) dengan panjang durasi maksimal adalah 54 residu, betha-sheet (B) dengan panjang durasi maksimum 15 residu dan coil dengan panjang durasi maksimum adalah 35 residu. Dari panjang masing-masing segmen ini kemudian diujikan dengan kombinasi mulai 100% panjang segmen, 90% , 75% dan 50%.

Di samping menggunakan persentase distribusi durasi state, skenario pengujian juga dilakukan dengan pengunaan panjang durasi state tertentu. Dalam hal ini pengujian dilakukan dengan panjang durasi state adalah 21 dengan mengasumsikan frekuensi state yang berjumlah kurang dari 10 diabaikan. Adapun pada Hidden Markov Model standar pengujian dilakukan dengan menggunakan Algoritme Viterbi. Hasil akurasi baik dengan HMM standar dan HSMM kemudian akan dibandingkan.

Data uji yang dilakukan pada pengujian ini sebanyak 43 sekuens yang merupakan 23,5 persen dari data secara keseluruhan. Adapun sebanyak 76,5 persen digunakan sebagai data latih. Skenario pengujian detail dapat dilihat pada Tabel 3. Jumlah residu dalam pengujian struktur alpha-helix (H) sebanyak 6053 residu, betha-sheet (B) sebanyak 2834 dan coil (C) sebanyak 5153 residu.

Tabel 3. Skenario pengujian struktur sekunder protein

Skenario Panjang durasi state Distribusi durasi state

1 100 %

Empiris

2 90 %

3 75 %

4 50 %

5 21

6 15

7 fungsi kepekatan peluang eksponensial negatif

(44)

4.2.1 Pengujian skenario 1 dengan panjang durasi state 100% dari total panjang dengan alpha = 54, betha = 15 dan coil = 35

Pengujian pada skenario 1 ini bertujuan untuk membandingkan akurasi prediksi struktur sekunder protein dengan menggunakan panjang durasi maksimum dari setiap segmen baik alpha, betha maupuan coil. Panjang maksimum segmen alpha pada skenario ini adalah 54 residu, segmen betha 15 residu dan segmen coil 35 residu yang diperoleh secara empiris dari data latih. Prediksi pada skenario 1 ini membandingkan hasil akurasi berdasarkan model yang diperoleh pada HMM standar dan model setelah dilakukan perbaikan parameter dengan menggunakan Hidden Semi Markov Model (HSMM). Akurasi pada HSMM ditentukan dengan membandingkan seluruh struktur yang diidentifikasi dengan struktur pada data sebenarnya tanpa melihat akurasi tiap segmen. Akurasi prediksi yang diperoleh dengan HSMM adalah 64,2% sedangkan dengan HMM standar menghasilkan akurasi 53,8%. Perbandingan akurasi tersebut dapat dilihat pada grafik Gambar 12.

Gambar 12. Perbandingan akurasi prediksi struktur protein total pada skenario1 model HSMM dan HMM standar

4.2.2 Pengujian skenario 2 dengan panjang durasi state 90% dari total panjang dengan alpha = 48, betha = 14 dan coil = 31

(45)

coil adalah 31. Perbandingan akurasi untuk HMM standar dan Hidden Semi Markov Model (HSMM) skenario 2 dapat dilihat pada grafik Gambar 13.

Gambar 13. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 2 model HSMM dan HMM standar

Berdasar hasil percobaan, terlihat bahwa model yang diperoleh dengan menggunakan HSMM lebih baik dibandingkan dengan HMM standar. Hal ini terlihat dari rata – rata akurasi proses prediksi struktur sekunder protein yang secara umum menghasilkan nilai lebih tinggi bila dibandingkan dengan rata-rata akurasi HMM standar. Gambar 12, dapat dilihat bahwa akurasi prediksi struktur sekunder protein dengan HSMM memiliki akurasi 64,1%, sedangkan akurasi dengan HMM standar menghasilkan akurasi 53, 8%.

4.2.3 Pengujian skenario 3 dengan panjang durasi state 75 % dari total panjang dengan alpha = 40, betha = 11 dan coil = 26

Pengujian pada skenario 3 dilakukan dengan menggunakan 75% dari panjang state masing-masing segmen baik alpha-helix, betha-sheet dan coil. Masing-masing panjang segmen tersebut adalah 40 residu alpha-helix, 11 residu betha-sheet dan 26 residu coil. Perbandingan hasil pengujian skenario 3 dapat dilihat pada Gambar 14.

(46)

4.2.4 Pengujian skenario 4 dengan panjang durasi state 50 persen dari total panjang dengan alpha = 27, betha = 8 dan coil = 18

Pengujian pada skenario 4 dilakukan dengan menggunakan panjang durasi

state 50 persen dari panjang total dengan durasi alpha-helix adalah 27 residu, betha-sheet 8 residu dan coil 18 residu. Hasil akurasi prediksi struktur sekunder protein model HSMM pada skenario adalah 63,8% sedangkan akurasi dengan model HMM standar sebesar 53,8%. Perbandingan hasil akurasi model HSMM dan HMM standar untuk skenario 4 dapat dilihat pada Gambar 15.

(47)

4.2.5 Pengujian skenario 5 dengan panjang durasi state maksimum 21

Berbeda dengan keempat skenario sebelumnya, pada skenario 5 ini, pengujian dilakukan dengan menggunakan panjang durasi state tertentu dengan mengasumsikan bahwa segmen/state yang memiliki frekuensi kurang dari 10 tidak diperhitungkan. Dalam skenario ini, pengujian dilakukan dengan menggunakan durasi state maksimum 21. Artinya untuk semua segmen baik alpha-helix, betha-sheet maupun coil akan diambil distribusi panjang durasi maksimumnya sama dengan 21. Hasil akurasi prediksi struktur sekunder protein dengan model HSMM sebesar 63,4% sedangkan akurasi prediksi dengan HMM standar sebesar 53,8%. Bila dibandingkan dengan empat skenario sebelumnya hasil prediksi dengan HSMM di skenario 5 ini relatif lebih kecil. Hal ini dikarenakan dengan ditetapkannya distribusi panjang durasi state ada kemungkinan hilangnya informasi dari setiap segmen tersebut. Grafik Gambar 16 memperlihatkan hasil perbandingan akurasi skenario 5.

4.2.6 Pengujian skenario 6 dengan panjang durasi state maksimum 15

(48)

panjang durasi 15 sebesar 63,3%. Hasil ini masih sama dengan pengujian dengan skenario 5. Adapun hasil akurasi dengan model HMM standar menghasilkan akurasi sebesar 53,8%.

Hasil prediksi yang pada Gambar 17 memperlihatkan bahwa akurasi prediksi model HSMM dengan distribusi panjang durasi 15 sebesar 63,3%. Hasil ini masih sama dengan pengujian dengan skenario 5. Adapun hasil akurasi dengan model HMM standar menghasilkan akurasi sebesar 53,8%.

4.2.7 Pengujian skenario 7 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang eksponensial negatif

Pengujian pada skenario 7 ini distribusi panjang state dibangkitkan dengan menggunakan distribusi teoritis. Distribusi yang digunakan adalah fungsi kepekatan peluang eksponensial negatif. Hasil pembangkitan ini kemudian digunakan pada proses pelatihan untuk melakukan reestimasi parameter pada HSMM. Akurasi hasil prediksi struktur sekunder protein pada pengujian skenario 7 dapat dilihat pada grafik Gambar 18.

(49)

4.2.8 Pengujian skenario 8 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang normal dengan rataan geometrik

Pada skenario 8, nilai peluang dari panjang durasi state menggunakan distribusi peluang normal, akan tetapi rataan panjang segmen yang digunakan dihitung dengan rataan geometrik. Hal ini disebabkan karena panjang segmen yang diperoleh dari data latih memang tidak menyebar secara merata. Hasil prediksi pada pengujian dari model HSMM pada skenario 8 dapat dilihat pada grafik Gambar 19.

(50)

Hasil prediksi dengan model HSMM dengan distribusi teoritis dengan fungsi kepekatan peluang normal adalah 61,7%. Hasil ini relatif kecil diantara skenario yang digunakan dalam proses prediksi struktur sekunder protein .

4.3Perbandingan akurasi Hidden Semi Markov Model (HSMM)

Secara umum, dari seluruh skenario pengujian yang dilakukan, terlihat bahwa model yang dihasilkan dengan menggunakan Hidden Semi Markov Model dapat menambah tingkat akurasi bila dibandingkan dengan Hidden Markov Model Standar. Namun demikian, rataan tingkat akurasi yang dihasilkan dari tujuh skenario pengujian tersebut masih relatif rendah. Perbandingan akurasi tertinggi setiap skenario pengujian dapat dilihat pada Tabel 4 berikut:

Tabel 4. Perbandingan akurasi tertinggi setiap skenario pengujian

Skenario 1 2 3 4 5 6 7 8

Akurasi tertinggi 64,4 64,1 63,8 63,8 63,4 63,3 64 61,7

Pada Tabel 3 terlihat bahwa akurasi yang paling tinggi berada pada skenario 1. Pada skenario tersebut panjang durasi state yang digunakan adalah distribusi empiris dengan presentase 100% distribusi panjang segmen alpha, betha dan coil. Hal ini beralasan karena dengan mengambil 100% panjang durasi ini informasi dari setiap segmen terwakili.

(51)

4.4 Analisis Error Identifikasi Struktur Sekunder Protein

Analisis error dilakukan untuk mengetahui bagaimana akurasi dari setiap segmen kelas/struktur yang dihasilkan dan mengetahui distribusi kelas yang salah diprediksi. Akurasi setiap segmen kelas/struktur yang dihasilkan pada proses identifikasi struktur sekunder protein dibuat dalam bentuk matriks konfusi. Matriks konfusi memperlihatkan persentasi struktur alpha-helix (H) , betha-sheet (B) dan coil (C) yang dikenali sesuai dengan kelasnya.

4.4.1 Matriks Konfusi Skenario 1

Matriks konfusi hasil pengujian skenario 1 memperlihatkan persentasi akurasi setiap kelas baik (H), (B) maupun (C) dengan Hidden Semi Markov Model (HSMM). Pada skenario ini durasi state yang digunakan adalah distribusi empiris dengan menggunakan 100% panjang maksimum durasi setiap state. Hasil Matriks konfusi dapat dilihat pada Tabel 5.

Tabel 5. Matriks konfusi pengujian skenario 1

kelas hasil prediksi akurasi prediksi (%) H B C

k

el

as as

al H 4401 295 1357 72, 7

B 978 1040 816 36,7

C 1495 417 3241 62,9

Berdasar hasil prediksi dari Matriks konfusi, terlihat bahwa dari 6053 residu asam amino yang memiliki struktur alpha-helix, ternyata 4401 residu yang terprediksi dengan benar, sedangkan sisanya terprediksi di kelas betha-sheet (B) sebanyak 295 residu dan coil sebanyak 1357 residu. Adapun struktur betha-sheet (B) dan coil (C) masing-masing diprediksi sesuai dengan kelasnya sebanyak 1040 residu dan 3241 residu. Akurasi prediksi setiap segmen struktur dapat dilihat pada grafik Gambar 21.

(52)

Gambar 21. Akurasi prediksi struktur sekunder protein tiap segmen kelas alpha-helix, betha-sheet dan coil model HSMM skenario 1

4.4.2 Matriks Konfusi Skenario 2

Prediksi tiap segmen struktur alpha-helix (H), betha-sheet (B) dan coil (C) pada skenario 2 ini menggunakan 90% panjang durasi state. Matriks konfusi pada pengujian skenario 2 dapat dilihat pada Tabel 6 untuk menggambarkan sebaran hasil identifikasi struktur sekunder protein baik alpha-helix (H), betha-sheet (B) maupun coil (C).

kelas hasil prediksi akurasi prediksi

(%) H B C

kela

s asal

H 4396 295 1362 72,6

B 973 1043 818 36,6

C 1491 420 3242 62,9

Pada pengujian dengan 90% durasi state, terlihat bahwa dari sebanyak 4396 residu asam amino yang memiliki struktur alpha-helix (H), mampu diprediksi sesuai dengan strukturnya. Adapun struktur betha-sheet (B) dan coil masing-masing diprediksi dengan benar sebanyak 1043 residu dan 3242 residu.

(53)

betha-sheet (B) dan coil dengan nilai 72, 6%. Adapun akurasi betha-sheet (B) dan coil (C) masing-masing sebesar 36,8% dan 62,9%.

4.4.3 Matriks Konfusi Skenario 3

Matriks konfusi skenario 3 menunjukkan hasil identifikasi struktur protein dengan model HSMM yang menggunakan panjang durasi state 75 % dari panjang total tiap struktur kelasnya. Hasil prediksi berupa Matriks konfusi dapat dilihat pada Tabel 7.

kelas hasil prediksi _akurasi

prediksi (%) H B C

kela

s asal

H 4394 295 1364 72,6

B 972 1019 843 36

C 1498 412 3243 62,9

(54)

4.4.4 Matriks Konfusi Skenario 4

Matriks konfusi skenario 4 menunjukkan hasil identifikasi struktur protein dengan model HSMM yang menggunakan panjang durasi state 50 % dari panjang total tiap struktur kelasnya. Apabila dibandingkan dengan hasil identifikasi pada Matriks konfusi sebelumnya ternyata penggunaan 50 % panjang durasi state tidak memberikan kenaikan akurasi yang siginifikan. Matriks konfusi hasil prediksi pengujian skenario 4 dapat dilihat pada Tabel 8.

prediksi (%) H B C

kela

s a

sal H 4391 254 1408 72,5

B 1003 966 865 34, 1

C 1525 360 3268 63, 4

(55)

4.4.5 Matrik Konfusi Skenario 5

Matriks konfusi skenario 5 menunjukkan hasil identifikasi struktur protein dengan model HSMM yang menggunakan panjang durasi tertentu. Dalam hal ini panjang durasi state yang ditentukan adalah 21. Matriks konfusi pada skenario 5 dapat dilihat pada Tabel 9.

Tabel 9. Matriks Konfusi Skenario 5

prediksi (%) H B C

kela

s asal

H 4274 317 1462 70,6

B 950 1062 822 37,4

C 1421 429 3303 64,1

(56)

Penggunaan durasi state tertentu ini, memberikan akurasi prediksi yang berbeda bila dibandingkan dengan penggunaan presentasi panjang duras state. Dapat dilihat bahwa akurasi struktur alpha-helix (H) menurun dari sekitar 72% pada penggunaan presentase durasi state menjadi kurang lebih 70%. Sementara akurasi beta-sheet dan coil justru sedikit menaik masing-masing 37,4% dan 64,1%. Menurunnya akurasi alpha diduga disebabkan oleh hilangnya informasi durasi state dengan pemotongan panjang durasi yang hanya 21 ini. Padahal segmen alpha-helix memiliki distribusi dengan panjang maksimum terbesar.

4.4.6 Matriks Konfusi Skenario 6

Matriks konfusi skenario 6 menunjukkan hasil identifikasi struktur protein dengan model HSMM yang menggunakan panjang durasi tertentu, yaitu 15. Hasil identifikasi dalam Matriks konfusi diperlihatkan pada Tabel 10.

prediksi (%) H B C

ke

la

s asa

l H 4007 359 1687 66,2

B 792 1177 865 41,5

C 1228 443 3482 67,6

(57)

skenario 6. Dibandingkan dengan skenario durasi empiris lainnya, penggunaan panjang durasi state sebesar 15 ini berdampak pada turunnya akurasi untuk prediksi struktur alpha-helix (H). Ini terlihat dari jumlah residu yang hanya 4007 diprediksi dengan benar atau 66,2% saja. Adapun akurasi betha-sheet (B) dan coil (C) justru mengalami kenaikan mencapai 41,5% dan 67,6%. Grafik akurasi prediksi struktur sekunder protein dapat dilihat pada Gambar 26.

4.4.7 Matriks Konfusi Skenario 7

Matriks konfusi skenario 7 memperlihatkan hasil identifikasi struktur protein untuk model HSMM dengan peluang durasi state yang digunakan adalah distribusi dengan fungsi kepekatan peluang eksponensial negatif. Hasil Matriks konfusi dapat dilihat pada Tabel 11.

prediksi (%) H B C

k

el

as as

al H 4717 218 1118 77,9

B 1209 834 791 29,4

C 1800 357 2996 58,1

(58)

betha-sheet (B) dan coil justru menurun masing-masing 29,4 % dan 58,1%. Secara visual akurasi prediksi skenario 7 dapat dilihat pada grafik Gambar 27.

4.4.8 Matriks Konfusi Skenario 8

Matriks konfusi skenario 8 memperlihatkan hasil identifikasi struktur protein untuk model HSMM dengan peluang durasi state yang digunakan adalah distribusi peluang normal. Akan tetapi rataan yang digunakan untuk menghitung fungsi kepekatan peluang adalah rataan geometrik. Ini dilakukan karena panjang segmen tiap struktur protein memiliki sebaran yang tidak normal. Hasil Matriks konfusi dapat dilihat pada Tabel 12.

prediksi (%) H B C

kela

s asal

H 4362 183 1508 72,1

B 1032 878 924 31,0

C 1577 331 3245 63,0

(59)

[image:59.612.184.457.136.312.2]

(B) dan coil (C) menghasilkan akurasi masing-masing sebesar 31% dan 63%. Gambar 28 memperlihatkan grafik akurasi untuk pengujian skenario 8.

4.5 Perbandingan Akurasi Prediksi HSMM Distribusi Empiris dan Teoritis

(60)

[image:60.612.171.464.95.237.2]

Gambar 29. Perbandingan akurasi prediksi struktur sekunder protein model HSMM dengan durasi empiris dan teoritis

[image:60.612.198.442.444.612.2]

Gambar 29 memperlihatkan bahwa hasil akurasi prediksi alpha-helix (H) lebih tinggi pada penggunaan durasi teoritis, namun pada prediksi betha-sheet (B ) dan coil, penggunaan durasi empiris memberikan akurasi yang lebih tinggi. Secara umum perbandingan akurasi rata-rata prediksi alpha-helix(H), betha-sheet (B) dan coil (C) dengan durasi empiris dan teoritis dapat dilihat pada grafik Gambar 30.

(61)

4.6 Matriks Konfusi Hidden Markov Model (HMM) Standar

Hasil pengujian juga dilakukan terhadap model dengan HMM standar untuk mengetahui tingkat akurasi yang dihasilkan. Akurasi prediksi setiap struktur protein dapat dilihat pada Matriks konfusi Tabel 13.

Tabel 13. Matriks Konfusi Prediksi dengan HMM Standar

kelas hasil prediksi akurasi prediksi (%)

H B C

kela

s ssa

l H 5957 11 85 98,4

B 2715 28 91 1

C 4815 21 334 6,4

[image:61.612.183.456.406.614.2]

Tabel 13 memperlihatkan bahwa proses identifikasi menunjukkan hasil yang tidak seimbang. Hal ini terlihat bahwa untuk struktur betha-sheet (B) dan coil (C) hampir sama sekali tidak dikenali sebagai kelasnya meskipun dalam mengidentifikasi alpha-helix(H) mencapai 98,4%. Dapat dilihat bahwa akurasi betha-sheet (B) hanya 1% dan coil (C) yang hanya 6,4% (Gambar 31).

(62)

4.7 Perbandingan Akurasi Prediksi HSMM dan HMM Standar

[image:62.612.188.459.242.405.2]

Perbandingan akurasi HSMM dan HMM dilakukan untuk menunjukkan keunggulan HSMM dibandingkan HMM standar. Dapat dilihat (Gambar 32) bahwa meskipun pada prediksi alpha-helix (H) akurasi HMM jauh lebih tinggi, namun tidak diikuti oleh akurasi struktur lainnya. Dengan demikian, secara rata-rata akurasi prediksi struktur sekunder protein dengan HSMM manghasilkan akurasi sebesar 56,9% sedangkan HMM standar menghasilkan akurasi sebesar 35,3%.

Gambar 32. Perbandingan Akurasi prediksi struktur sekunder protein model HSMM dan HMM sSandar

4.8 Pengaruh Distribusi Empiris Durasi State Terhadap Akurasi HSMM Pada proses pelatihan model HSMM dilakukan dengan mempertimbangkan distribusi durasi state yang digunakan baik secara empiris maupun teoritis. Secara keseluruhan rata-rata akurasi struktur alpha-helix (H) dengan distribusi empiris paling tinggi dibandingkan dengan betha-sheet (B) dan coil (C). Rata-rata akurasi struktur (H) dari skenario satu sampai delapan adalah 71,2%, struktur (B) 37,1% dan struktur (C) 64,0%. Terlihat bahwa akurasi struktur betha-sheet (B) paling rendah.

(63)

[image:63.612.140.481.86.228.2]

Gambar 33. Visualiasi