III METODE PENELITIAN - Pengembangan hidden semi markov model dengan distribusi durasi state em

3.1 Kerangka Pemikiran

Protein merupakan aktor utama pada makhluk hidup yang memiliki berbagai fungsi yang sangat penting. Protein terbentuk dari asam amino pembentuknya dengan karakteristik yang berbeda. Struktur protein dapat dilihat secara hierarki sebagai struktur primer, sekunder dan tersier (Polanski dan Kimmel 2007). Prediksi struktur sekunder protein memiliki peranan yang penting sebelum protein tersebut mengalami pelipatan. Di antara model yang digunakan untuk melakukan prediksi struktur protein ini adalah Hidden Markov Model (HMM).

Umumnya proses pelatihan untuk membuat model pada HMMs dapat dilakukan dengan Algoritme Baum-Welch. Proses pelatihan ini tidak mempertimbangkan durasi state atau panjang segmen dari setiap struktur baik alpha-helix (H), betha-sheet (B) atau coil (C). Aydin et al. (2006) melakukan penelitian untuk memprediksi struktur sekunder protein dengan mempertimbangkan panjang durasi state atau panjang segmen tiap struktur protein tersebut yang dikenal dengan Hidden Semi Markov Model (HSMM). Namun demikian, pada penelitian tersebut panjang segmen ditetapkan dengan nilai tertentu dan bagaimana menentukan nilainya tidak disebutkan. Padahal panjang segmen struktur bisa diperoleh secara empiris dari data latih yang digunakan.

Di sisi lain, Hidden Semi Markov Model (HSMM) yang pertama kali diperkenalkan oleh Ferguson memiliki kompleksitas sebesar O((MD²+M²)T)

dengan M adalah Matriks transisi, T adalah sekuens observasi dan D adalah panjang durasi state (Yu dan Kobayashi 2003). Algoritme ini kemudian diefisienkan sehingga kompleksitasnya menjadi O((MD+M²)T dan kebutuhan alokasi memori memiliki kompleksitas O(MT) (Yu dan Kobayashi 2003).

Penelitian ini mengusulkan untuk membuat model dengan menggunakan Hidden Semi Markov Model (HSMM) yang telah diefisienkan kompleksitasnya

dan dibandingkan dengan akurasi Hidden Markov Model (HMM) standar. Model HSMM pada penelitian ini menggunakan distribusi panjang durasi state baik secara empiris maupun teoritis. Penelitian ini juga akan melihat pengaruh distribusi panjang durasi state terdapat nilai akurasi prediksi struktur sekunder protein. Diagram alur penelitian ini secara umum dapat dilihat pada Gambar 7.

Gambar 7. Diagram alur penelitian prediksi struktur sekunder protein 3.2 Studi Pustaka

Studi pustaka dilakukan untuk mencari riset-riset terbaru yang terkait dengan penelitian yang akan dilakukan. Dari riset yang telah dilakukan tersebut, penggunaan Hidden Markov Model (HMM) memang telah banyak digunakan

perumusan masalah pendefinisian metode penelitian pengambilan data data latih data uji data latih tanpa panjang durasi state data latih dengan beberapa panjang durasi state

Pelatihan Pelatihan pengujian perhitungan dan perbandingan akurasi dokumentasi selesai Model HMM Model HSMM tahap pelatihan tahap pengujian mulai

untuk komputasi dalam bidang Biologi khususnya melakukan prediksi struktur sekunder protein. Akan tetapi, penggunaan durasi state dan bagaimana pengaruh panjang durasi state atau panjang segmen struktur protein terhadap akurasi proses prediksi masih belum banyak dilakukan.

3.3 Perumusan Masalah dan Hipotesa Awal

Perumusan masalah dilakukan sebagai kerangka untuk melakukan penelitian ini. Berdasar permasalahan tersebut, akan diusulkan suatu pendekatan untuk mencari solusinya. Dalam hal ini, penggunaan panjang durasi state pada Hidden Semi Markov Model (HSMM) dapat meningkatkan akurasi dibandingkan dengan HMM standar dan penggunaan beberapa nilai panjang segmen atau panjang durasi state akan mempengaruhi nilai akurasi.

3.4 Pendefinisian Metode Penelitian

Setelah dilakukan perumusan masalah, maka dipilih metode penelitian yang sesuai dengan permasalahan yang ditemukan. Metode penelitian yang digunakan dalam penelitian ini dapat dilihat pada Gambar 7.

3.5 Pengambilan Data Struktur sekunder protein

Proses prediksi struktur sekunder protein ini diawali dengan pengambilan data sekuens protein sekunder yaitu DSSP dari alamat

webstitehttp://swift.cmbi.ru.nl/gv/dssp/ yang merupakan database assignment

struktur sekunder protein. Pemilihan ini didasarkan bahwa DSSP mencakup semua data protein yang ada di Protein Data Bank (PDB). Data struktur sekunder protein yang diambil terdiri atas 42556 residu yang telah tersegmentasi menjadi 8 segmen struktur sekunder. Namun pada penelitian ini, segmen direduksi menjadi tiga, yaitu alpha-helix (H), betha-sheet (B) dan coil (C) (Aydinet al. 2006). Segmen hasil reduksi adalah {I,H,G} alpha-helix(H), {E,B} betha-sheet (B) , segmen lainnya menjadi coil (C).

Data yang diperoleh dari alamat tersebut masih memiliki ekstensi format dengan ekstensi .dssp (Define Secondary Structure of Protein). Oleh karena itu,

sebelum digunakan untuk data pelatihan dan data pengujian terlebih dahulu dilakukan proses parsing dan pengkodean. Kedua proses tersebut dilakukan dengan memudahkan dalam proses komputasi. Hasil dari parsing dan pengkodean adalah pasangan asam amino dan assigment struktur sekunder protein yang telah dikodekan dalam bentuk bilangan integer. Format data dengan ekstensi .dssp merupakan file teks yang terdiri atas beberapa bagian. Gambar 8 merupakan contoh format data .dssp

Gambar 8. Contoh Format Data Struktur sekunder protein dari file dengan ekstensi. dssp (Define Secondary Structure of Protein)

3.6 Pembuatan Model dengan HMM standar

Pada tahap ini dilakukan proses pembentukan model dari data latih baik dengan HMMs standar dan Hidden Semi Markov Model (HSMM). Prediksi struktur sekunder protein ini, model arsitektur HMM dapat diilustrasikan pada Gambar 9.

Gambar 9. Ilustrasi HMM untuk prediksi strukutr protein sekunder (Martin et al. 2005)

Barisan H-B dan C menunjukkan model hidden state yang merepresentasikan alpha-helix (H), betha-sheet (B) dan coil (C), sedangkan barisan di bawah panah adalah barisan sekuens asam amino sebagai sekuens observasi (observable sequence). Hasil dari proses pemodelan ini adalah matriks transisi dan matriks emisi yang telah memiliki nilai tertentu untuk dijadikan

# RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-CA

… … I H … … … … … …

… … D H … … … … … …

… … E H … … … … … …

… … G C

model dalam proses prediksi. Model tersebut kemudian akan disimpan dalam repositori.

3.7 Pembuatan Model dengan Hidden Semi Markov Model (HSMM)

Pemodelan prediksi struktur sekunder protein dengan HSMM berbeda dengan HMM standar. Pada pemodelan dengan HSMM, durasi state oleh observasi tertentu sangat dipertimbangkan. Pada HSMM tidak terjadi transisi suatu state terhadap dirinya sendiri. Ilustrasi pemodelan prediksi struktur sekunder protein dengan HSMM dapat dilihat pada Gambar 10.

Gambar 10. Pemodelan prediksi struktur sekunder protein dengan menggunakan Hidden Semi Markov Model (HSMM)

3.8 Pengujian

Tahap pengujian dilakukan untuk melihat akurasi dari prediksi yang dilakukan. Pengujian dilakukan baik dengan menggunakan data uji untuk melihat hasil klasifikasi. Hasil pengujian dilakukan dengan menghitung presentase data yang benar dikelaskan dibandingkan dengan semua data uji. Formula untuk melakukan pengujian dapat dilihat pada persamaan (28).

...(28)

3.9 Riset Pendahuluan

Riset pendahuluan dilakukan untuk mengetahui distribusi setiap segmen baik alpha-helix (H), betha-sheet (B) dan coil (C). Distribusi pada awalnya dilakukan dengan pembangkitan menggunakan pendekatan teoritis. Akan tetapi

…….. …….. OT d1 d2 1 2 3 4 5 6 ……... H B dn in observasi waktu durasi state sekuens transisi D E V H A S …….

permasalahannya adalah dengan pembangkitan nilai distribusi ini masih belum merepresentasikan kondisi data yang sebenarnya.

Oleh karena itu, dilakukan perhitungan distribusi secara empiris dan secara keseluruhan diperoleh informasi bahwa struktur alpha-helix terdiri atas 1853 segmen, struktur betha-sheet terdiri atas 1805 segmen dan struktur coil terdiri atas 3566 segmen. Harapannya dari data tersebut, didapatkan informasi yang lebih baik sehingga proses prediksi struktur sekunder protein menghasilkan akurasi yang lebih tinggi.

Dalam dokumen Pengembangan hidden semi markov model dengan distribusi durasi state empiris untuk prediksi struktur sekunder protein (Halaman 36-42)