1.1 Latar Belakang
Revolusi di bidang biologi molekuler yang terjadi pada dekade terakhir me-nyebabkan peningkatan dalam koleksi dan kemudahan dalam memperoleh data ge-netik berupa data genome kedua organisme dan mikro-organisme. Salah satu proyek pelopor ialah Human genome project (Birney,2001). Genome tersusun atas data-data genetika dari baik organisme maupun mikro-organisme yang memiliki inti susunan yakni DNA. Adapun komponen penyusun DNA adalah G, T, A, dan C, namun ada perbedaan antara susunan informasi DNA dan RNA dimana pada susunan RNA kom-ponen T diganti menjadi U (Baldi dan Brunak., 2001). Kemudahan terhadap akses data genetika yang mudah menjadi awal penyebab analisa data genetika secara ma-nual tidak efisien. Sehingga perlu adanya komputasi untuk membantu dan memper-mudah pengolahan data genetika, salah satu ilmu yang mempelajari hal tersebut ialah bioinformatika (Birney,2001).
Salah satu bidang studi dalam bioinformatika adalah analisis genome annota-tion, yaitu proses menandai gen dan fitur biologis lainnya dalam urutan DNA yang berkaitan dengan satu organisme tertentu (Baldi dan Brunak., 2001). Salah satu inti permasalahan pada genome annotation ialah penandaan wilayah protein pada struktur genome, dimana penandaan wilayah disebut coding and non-coding region. Ada dua jenis artefak yang berbeda, yaitu prokariot dan eukariot. Fokus penelitian ini ialah meneliti penandaan wilayah pada genome eukaroit yang memiliki sifat dari coding region bersifat non-contiguous atau adanya interaksi antara coding dan non coding region(Krogh et al.,1994).
Pengolahan data genetika yang bertujuan untuk menentukkan DNA dan RNA relatif murah. Proses identifikasi wilayah dalam genome sendiri membutuhkan alat penelitian yang berbeda dengan penentuan data DNA atau RNA. Hal tersebut yang menyebabkan mahalnya penelitian dan membutuhkan waktu relatif lama untuk me-nentukan struktur wilayah pada genome. Tujuan yang jelas untuk bioinformatics ada-lah untuk menyediakan sebuah cara untuk mengelola informasi dalam bidang biologi molekular yang nantinya informasi yang disedikan menjadi jauh lebih murah serta efisien (Birney,2001).
Adapun beberapa pendekatan metode ataupun teknik komputasi yang dite-rapkan pada proses identifikasi protein coding region yakni metode Ab Initio dan pemprosesan sinyal digital. Metode Ab Initio lebih menekankan pada proses sta-tistik pada data genome yang telah terkumpulkan pada sebuah basis data genome. Hal ini berbeda dengan penerapan metode pemprosesan sinyal digital dimana tidak tergantung pada sumber data yang digunakan. Algoritma statistik yang umum di-terapkan pada proses pencari wilayah coding region, seperti Hidden Markov Model (HMM) (Audic dan Claverie, 1998;Krogh et al., 1994;Yada dan Hirosawa, 1996), Support Vector Machine (SVM) (Schweikert et al., 2009), dan Artificial Neural Ne-twork (ANN) (Li dan Wang, 2003;Rebello et al., 2011). Adapun teknik pencarian wilayah coding region dengan metode pemrosesan sinyal digital (DSP) dengan ber-titikberatkan pada proses pencarian posisi 3-base periodisitas kondisi ekson pada ge-nome. Algoritma yang paling sering digunakan adalah wavelet (Deng et al., 2010;
Mena-Chalco et al.,2008) dan spektral Fourier (Datta dan Asif,2004).
Penelitian ini menerapakan metode HMM sebagai dasar metode, karena ke-mampuan HMM untuk melakukan pemetaan pada untaian biologi pada struktur ge-nome. Namun metode HMM memiliki keterbatasan ialah over-fitting. Perlu adanya solusi untuk dapat memecahkan kelemahan tesebut, maka pada penelitian ini coba di-kombinasikan dengan metode ANN. Namun metode ANN juga memiliki kelemahan yang mendasar salah satunya local minima. Penggunaan metode SOM sendiri di-dasarkan untuk mengurangi kelemah metode HMM yakni over fitting, dimana sifat artificialpada algoritma SOM dapat mempengaruhi proses pembelajaran dari HMM. Begitu juga permasalahan yang dihadapi oleh SOM dapat ditutupi oleh HMM karena sifat HMM dapat menangani ketidakpastian data (Bandyopadhyay et al.,2008). Me-tode hybrid HMM dengan ANN merupakan meMe-tode hybrid yang efektif untuk proses identifikasi (Goel et al.,2013) dan adanya peningkatan pada tingkat keakuratan jika dibandingkan dengan metode awal.
1.2 Rumusan Masalah
Berdasarkan latar belakang yang telah disebutkan, rumusan masalah yang dikaji dalam tesis ini adalah pola adaptasi metode hybrid Hidden Markov Model de-ngan Self Organizing Map untuk kasus identifikasi protein coding region yang nanti-nya dilakukan pengujian terhadap tingkat akurasi dengan metode awal (HMM).
1.3 Batasan Masalah
Batasan masalah dalam penelitian ini adalah :
1. Pada metode hidden Markov model diterapkan mengikuti acuan penelitian Ya-da Ya-dan Hirosawa(1996) danStanke dan Waack(2003).
2. Pada pembentukkan node input pada metode SOM mengikuti jumlah state mo-del yang dibentuk dari HMM.
3. Data sequences yang digunakan dalam penelitian ini adalah set sequences dari Arabidopsis Thalianayang didapatkan dari situs Bioinformatics Web Server at University of Greifswald1.
4. Implementasi menggunakan bahasa pemograman tertentu.
1.4 Keaslian Penelitian
Berdasarkan studi pustaka yang telah dilakukan pada penelitian sebelum-nya, penulis menyimpulkan bahwa penerapan metode hybrid hidden Markov model dengan Self Organization Map belum pernah diterapkan pada kasus prediksi protein coding region. Namun implemetasi metode hybrid ini sudah pernah dilakukan pene-litian pada kasus pengenal pola suara maupun tanda tangan yang nantinya dipaparkan dalam tinjauan pustaka.
1.5 Tujuan Penelitian
Tujuan utama yang ingin dicapai dalam penelitian ini adalah
1. Menerapkan hybrid metode Hidden Markov Model dengan Self Organization Mapsuntuk mengidentifkasi protein coding region pada genome.
2. Menguji akurasi dari metode hybrid kemudian membandingkan dengan metode Hidden Markov Model.
1.6 Manfaat Penelitian
1. Mempelajari penerapan metode hybrid Markov model / Self Organization Maps dalam bidang bioinformatik
2. Dalam bidang biologi, dapat mempelejari taxonomy, evolution ataupun pohon kehidupan yang bersumber pada genome organisme ataupun mikro-organisme.
3. Meningkatkan perkembangan studi bioinformatik di Indonesia.
1.7 Metodologi Penelitian
Penelitian ini dilakukan dengan mengikuti langkah-langkah sebagai berikut:
1. Mempelajari pustaka dan literatur acuan
Tahap ini dilakukan dengan membaca dan memahami buku teks, jurnal dan karya ilmiah lainnya yang terkait dengan penelitian protein coding region dan metode hybrid HMM dengan ANN.
2. Penyusunan Proposal
Berdasarkan studi pustaka dan literatur maka disusun proposal penelitian.
3. Analisis
Kegiatan analisa perangkat lunak meliputi analisa metode, alternatif, algoritma yang diterapkan, sepesifikasi perangkat lunak, analisa fungsionalitas dan anali-sa kelas yang dibutuhkan.
4. Perancangan
Perancangan algoritma, dan pemodelan arsitektur pada metode hybrid HMM dengan ANN dianalisa yang nantinya diterapkan untuk proses identifikasi pro-tein coding region.
5. Implementasi
Implementasi dalam proses mengadpatasikan metode hybrid HMM dengan ANN dimungkinkan untuk menggunakan bahasa pemograman tertentu didukung oleh suatu library untuk membantu pemprosesan dalam hal biologi molekular.
6. Pengujian dan analisa akhir
dengan mencari nilai ukuran berdasarkan level-level penilaian yang memang berlaku untuk melakukan penilaian pada setiap metode yang diterapkan pada protein coding regionyang hasilnya dibandingkan dengan metode hidden Mar-kov model.
1.8 Sistematika Penulisan
1. Bab I Pendahuluan
Pada bab ini menguraikan secara singkat mengenai latar belakang masalah, perumusan masalah, batasan masalah, keaslian penelitaian, tujuan penelitian, manfaat penelitian, metodologi penlitian, dan sistematika penulisan
2. Bab II Tinjauan Pustaka
Pada bab ini membahas tinjauan pustaka yang digunakan sebagai bahan rujukan dalam penelitian ini.
3. Bab III Landasan Teori
Pada bab ini menguraikan teori dasar yang berkaitan dengan penelitian yang dilakukan yang menjadi dasar dalam pemecahan masalah.
4. Bab IV Analisis dan Perancangan
Pada bab ini menguraikan metode-metode yang digunakan pada penelitian.
5. Bab V Implementasi
Pada bab ini berisi potongan Algoritma program yang diterapkan berdasarkan implementasi sistem.
6. Bab VI Hasil dan Pembahasan
Pada bab ini membahas hasil akhir dari sistem yang dibangun, disertai dengan analisis hasil percobaan.
7. Bab VII Penutup
Pada bab ini berisi kesimpulan dari hasil penelitian serta saran untuk penelitian lebih lanjut.