Skenario Pengujian - IV HASIL DAN PEMBAHASAN

IV HASIL DAN PEMBAHASAN

4.2 Skenario Pengujian

Skenario pengujian dilakukan untuk melakukan kombinasi pengujian sehingga dapat diketahui model Hidden Markov untuk mendapatkan hasil akurasi yang terbaik. Dengan demikian, model tersebut yang nantinya akan diambil untuk melakukan proses prediksi struktur sekunder protein .

# RESIDUE AA STRUCTURE BP1 … … … X-CA Y-CA Z-C … … D H … … … … … … … … E H … … … … … … … … G C … … … … … … … … L C … … … … … … AA = [ D E G L ... ... ... ... ] ST = [ H H C C ... ... ... ... ] AA = [ 4 7 8 11 ... ... ... ... ] ST = [ 1 1 3 3 ... ... ... ... ]

Pada penelitian ini, skenario pengujiannya adalah melakukan pengujian dengan mempertimbangkan persentase beberapa distribusi panjang durasi state

yang diperoleh secara empiris dari data pelatihan dan pengujian dengan distribusi secara teoritis. Panjang durasi state yang didapatkan dari hasil pelatihan atautraining yaitu segmen alpha-helix (H) dengan panjang durasi maksimal adalah 54 residu, betha-sheet (B) dengan panjang durasi maksimum 15 residu dan coil dengan panjang durasi maksimum adalah 35 residu. Dari panjang masing-masing segmen ini kemudian diujikan dengan kombinasi mulai 100% panjang segmen, 90% , 75% dan 50%.

Di samping menggunakan persentase distribusi durasi state, skenario pengujian juga dilakukan dengan pengunaan panjang durasi state tertentu. Dalam hal ini pengujian dilakukan dengan panjang durasi state adalah 21 dengan mengasumsikan frekuensi state yang berjumlah kurang dari 10 diabaikan. Adapun pada Hidden Markov Model standar pengujian dilakukan dengan menggunakan Algoritme Viterbi. Hasil akurasi baik dengan HMM standar dan HSMM kemudian akan dibandingkan.

Data uji yang dilakukan pada pengujian ini sebanyak 43 sekuens yang merupakan 23,5 persen dari data secara keseluruhan. Adapun sebanyak 76,5 persen digunakan sebagai data latih. Skenario pengujian detail dapat dilihat pada Tabel 3. Jumlah residu dalam pengujian struktur alpha-helix (H) sebanyak 6053 residu, betha-sheet (B) sebanyak 2834 dan coil (C) sebanyak 5153 residu.

Tabel 3. Skenario pengujian struktur sekunder protein

Skenario Panjang durasi state Distribusi durasi state

1 100 % Empiris 2 90 % 3 75 % 4 50 % 5 21 6 15

7 fungsi kepekatan peluang eksponensial negatif

teoritis 8 fungsi kepekatan peluang normal rataan geometrik

4.2.1 Pengujian skenario 1 dengan panjang durasi state 100% dari total panjang dengan alpha = 54, betha = 15 dan coil = 35

Pengujian pada skenario 1 ini bertujuan untuk membandingkan akurasi prediksi struktur sekunder protein dengan menggunakan panjang durasi maksimum dari setiap segmen baik alpha, betha maupuan coil. Panjang maksimum segmen alpha pada skenario ini adalah 54 residu, segmen betha 15 residu dan segmen coil 35 residu yang diperoleh secara empiris dari data latih. Prediksi pada skenario 1 ini membandingkan hasil akurasi berdasarkan model yang diperoleh pada HMM standar dan model setelah dilakukan perbaikan parameter dengan menggunakan Hidden Semi Markov Model (HSMM). Akurasi pada HSMM ditentukan dengan membandingkan seluruh struktur yang diidentifikasi dengan struktur pada data sebenarnya tanpa melihat akurasi tiap segmen. Akurasi prediksi yang diperoleh dengan HSMM adalah 64,2% sedangkan dengan HMM standar menghasilkan akurasi 53,8%. Perbandingan akurasi tersebut dapat dilihat pada grafik Gambar 12.

Gambar 12. Perbandingan akurasi prediksi struktur protein total pada skenario1 model HSMM dan HMM standar

4.2.2 Pengujian skenario 2 dengan panjang durasi state 90% dari total panjang dengan alpha = 48, betha = 14 dan coil = 31

Pengujian skenario dua menggunakan 90% panjang durasi state dari masing-masing segmen. Pada skenario 2 ini, didapatkan masing-masing panjang durasi state untuk segmen alpha adalah 48, segmen betha adalah 14 dan segmen

coil adalah 31. Perbandingan akurasi untuk HMM standar dan Hidden Semi Markov Model (HSMM) skenario 2 dapat dilihat pada grafik Gambar 13.

Gambar 13. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 2 model HSMM dan HMM standar

Berdasar hasil percobaan, terlihat bahwa model yang diperoleh dengan menggunakan HSMM lebih baik dibandingkan dengan HMM standar. Hal ini terlihat dari rata – rata akurasi proses prediksi struktur sekunder protein yang secara umum menghasilkan nilai lebih tinggi bila dibandingkan dengan rata-rata akurasi HMM standar. Gambar 12, dapat dilihat bahwa akurasi prediksi struktur sekunder protein dengan HSMM memiliki akurasi 64,1%, sedangkan akurasi dengan HMM standar menghasilkan akurasi 53, 8%.

4.2.3 Pengujian skenario 3 dengan panjang durasi state 75 % dari total panjang dengan alpha = 40, betha = 11 dan coil = 26

Pengujian pada skenario 3 dilakukan dengan menggunakan 75% dari panjang state masing-masing segmen baik alpha-helix, betha-sheet dan coil. Masing-masing panjang segmen tersebut adalah 40 residu alpha-helix, 11 residu betha-sheet dan 26 residu coil. Perbandingan hasil pengujian skenario 3 dapat dilihat pada Gambar 14.

Gambar 14 menunjukkan hasil akurasi prediksi struktur sekunder protein secara total dengan HSMM sebesar 63,8% yang mengalami penurunan. Hal ini disebabkan informasi yang semakin berkurang dengan penggunaan 75% panjang durasi.

Gambar 14. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 3 model HSMM dan HMM standar

4.2.4 Pengujian skenario 4 dengan panjang durasi state 50 persen dari total panjang dengan alpha = 27, betha = 8 dan coil = 18

Pengujian pada skenario 4 dilakukan dengan menggunakan panjang durasi

state 50 persen dari panjang total dengan durasi alpha-helix adalah 27 residu, betha-sheet 8 residu dan coil 18 residu. Hasil akurasi prediksi struktur sekunder protein model HSMM pada skenario adalah 63,8% sedangkan akurasi dengan model HMM standar sebesar 53,8%. Perbandingan hasil akurasi model HSMM dan HMM standar untuk skenario 4 dapat dilihat pada Gambar 15.

Gambar 15. Perbandingan akurasi prediksi struktur protein total pada skenario 4 model HSMM dan HMM standar

4.2.5 Pengujian skenario 5 dengan panjang durasi state maksimum 21

Berbeda dengan keempat skenario sebelumnya, pada skenario 5 ini, pengujian dilakukan dengan menggunakan panjang durasi state tertentu dengan mengasumsikan bahwa segmen/state yang memiliki frekuensi kurang dari 10 tidak diperhitungkan. Dalam skenario ini, pengujian dilakukan dengan menggunakan durasi state maksimum 21. Artinya untuk semua segmen baik alpha-helix, betha-sheet maupun coil akan diambil distribusi panjang durasi maksimumnya sama dengan 21. Hasil akurasi prediksi struktur sekunder protein dengan model HSMM sebesar 63,4% sedangkan akurasi prediksi dengan HMM standar sebesar 53,8%. Bila dibandingkan dengan empat skenario sebelumnya hasil prediksi dengan HSMM di skenario 5 ini relatif lebih kecil. Hal ini dikarenakan dengan ditetapkannya distribusi panjang durasi state ada kemungkinan hilangnya informasi dari setiap segmen tersebut. Grafik Gambar 16 memperlihatkan hasil perbandingan akurasi skenario 5.

Gambar 16. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 5 model HSMM dan HMM standar

4.2.6 Pengujian skenario 6 dengan panjang durasi state maksimum 15

Pengujian pada skenario 6 menggunakan distribusi panjang durasi state 15 dengan menggunakan asumsi seperti yang terdapat pada pengujian dengan skenario 5. Perbandingan hasil akurasi prediksi struktur sekunder protein skenario 6 dapat dilihat pada Grafik Gambar 17. Hasil prediksi yang pada Gambar 17 memperlihatkan bahwa akurasi prediksi model HSMM dengan distribusi

panjang durasi 15 sebesar 63,3%. Hasil ini masih sama dengan pengujian dengan skenario 5. Adapun hasil akurasi dengan model HMM standar menghasilkan akurasi sebesar 53,8%.

Gambar 17. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 6 model HSMM dan HMM standar

Hasil prediksi yang pada Gambar 17 memperlihatkan bahwa akurasi prediksi model HSMM dengan distribusi panjang durasi 15 sebesar 63,3%. Hasil ini masih sama dengan pengujian dengan skenario 5. Adapun hasil akurasi dengan model HMM standar menghasilkan akurasi sebesar 53,8%.

4.2.7 Pengujian skenario 7 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang eksponensial negatif

Pengujian pada skenario 7 ini distribusi panjang state dibangkitkan dengan menggunakan distribusi teoritis. Distribusi yang digunakan adalah fungsi kepekatan peluang eksponensial negatif. Hasil pembangkitan ini kemudian digunakan pada proses pelatihan untuk melakukan reestimasi parameter pada HSMM. Akurasi hasil prediksi struktur sekunder protein pada pengujian skenario 7 dapat dilihat pada grafik Gambar 18.

Berdasar Gambar 18, dapat dilihat bahwa prediksi struktur sekunder protein model HSMM dengan distribusi panjang durasi secara teoritis menggunakan fungsi kepekatan peluang eksponensial negatif menghasilkan akurasi sebesar 64%.

Gambar 18. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 7 model HSMM dan HMM standar

4.2.8 Pengujian skenario 8 dengan panjang durasi state menggunakan distribusi fungsi kepekatan peluang normal dengan rataan geometrik

Pada skenario 8, nilai peluang dari panjang durasi state menggunakan distribusi peluang normal, akan tetapi rataan panjang segmen yang digunakan dihitung dengan rataan geometrik. Hal ini disebabkan karena panjang segmen yang diperoleh dari data latih memang tidak menyebar secara merata. Hasil prediksi pada pengujian dari model HSMM pada skenario 8 dapat dilihat pada grafik Gambar 19.

Gambar 19. Perbandingan akurasi prediksi struktur sekunder protein total pada skenario 8 model HSMM dan HMM standar

Hasil prediksi dengan model HSMM dengan distribusi teoritis dengan fungsi kepekatan peluang normal adalah 61,7%. Hasil ini relatif kecil diantara skenario yang digunakan dalam proses prediksi struktur sekunder protein .

Dalam dokumen Pengembangan hidden semi markov model dengan distribusi durasi state empiris untuk prediksi struktur sekunder protein (Halaman 42-50)