BAB IV : IMPLEMENTASI DAN ANALISA HASIL
4.1. Hasil dan Analisis
Pada bab ini akan dibahas hal-hal mengenai hasil tampilan antar muka sistem beserta penjelasan penggunaan tombol dan keterangan untuk setiap bagian sistem yang penting. Pembahasan terpenting dalam bab ini difokuskan pada analisis hasil identifikasi mencit dan tikus dari serangkaian pengujian yang telah dilakukan dari ke enam skenario yang telah disebutkan pada bab 3.
4.1. Hasil dan Analisis.
Dalam Proses identifikasi Sequence DNA, Dilakukan kombinasi metode dalam proses preprosessing sehingga diharapkan akurasi yang terbaik. Berikut ini merupakan gambaran dari kombinasi metode preprosessing.
Tabel 4.1. Enam skenario kombinasi metode preprosessing.
Skenario MultipleSequenceAlignment
Consensus
1 MSA – Phylogenic (fungsi matlab)
Position Weight Matrix
(fungsi matlab)
2 MSA – Phylogenic (fungsi matlab) Profile hmm (Hmmer)
3 Muscle
Position Weight Matrix
(fungsi matlab)
4 Muscle Profile hmm (Hmmer)
5 MAFFT
Position Weight Matrix
(fungsi matlab)
6 MAFFT Profile hmm (Hmmer)
Pada Tabel 4.1 terdapat 5 metode preprosessing yang terdiri 3 metode multiple sequence alignment yaitu msa – phylogenic, muscle, dan mafft. Dua metode sequence consensus yaitu Position Weight Matrix dan profile HMM/
HMMER.
Dalam implematasi dari 300 data yang diujikan dengan metode 5 fold cross validation, untuk ke – 6 skenario diatas menghasil akurasi sebagai berikut :
Tabel 4.2. Tabel hasil akurasi dari ke 6 skanario.
Skenario MultipleSequence
Alignment Consensus
Akurasi ( % )
1 MSA – Phylogenic Position Weight
Matrix
38,000
2 MSA – Phylogenic Profile(Hmmer) hmm 72,667
3 Muscle Position Weight
Matrix
43,333
4 Muscle Profile hmm
(Hmmer)
75,000
5 MAFFT Position Weight
Matrix
64,667
6 MAFFT Profile hmm
(Hmmer)
81,667
Skenario 1 dalam implementasi menunjukan bahwa dari 300 data yang diuji hanya 114 data yang dikenal dengan baik, atau dalam persen hanya 38,000 %. Rendah akurasi dalam skenario 1 karena dipengaruhi faktor berikut :
a. Pada algoritma phylogenetic, dalam pembentukan MSA hanya mengunakan
metode progressive, tanpa melakukan pengecekan kembali bahwa MSA
tersebut sudah optimal atau belum.
b. Pada algoritma consensus menggunakan profile wight Matrix. Pada profile weight Matrix hanya mengambil nilai maksimum dalam setiap kolom dari
Position Weight Matrix hanya mengambil nilai maksimumnya pada index awal dalam setiap sequence profile.
Skenario 2 dalam implementasi menunjukan bahwa dari 300 data yang dikenali dengan baik sebanyak 218 data. Hasil akurasi ini lebih baik dari skenario
1, karena dalam pembentukan sequence consensus menggunakan profile
HMM/HMMER. Dalam HMMER sequence consensus dibentuk dari proses train
model HMM yang mempertimbangkan probabilitas terkecil sekalipun, sehingga dapat membentuk sequence consensus yang lebih baik dari pada Position Weight Matrix.
Skenario 3 dalam implementasi menunjukan bahwa dari 300 data yang diuji hanya 133 data yang dikenal dengan baik, atau dalam persen hanya 44,333 %. Skenario ini lebih tinggi dari skenario 1 dan lebih rendah dari skenario 2. Lebih tinggi dari skenario 1 dalam proses pembentukan multiple sequence alignment menggunakan metode muscle, dimana didalamnya terdapat proses optimalisasi
MSA dengan cara mengulangi dua kali pembentukan tree dengan 2 metode
distance yang berbeda. Dan dalam pembentukan akhir dari MSA penjumlahan dari profile sum-of-pairs. Lebih rendah dari pada skenario 2 karena dalam pembentukan sequence consensus mengunakan Position Weight Matrix. Untuk skenario 4 dalam implementasi menunjukan bahwa dari 300 data yang diuji hanya 225 data yang dikenal dengan baik, atau dalam persen hanya 70,000 %. Akurasi ini paling tinggi dari skenario 1,2 dan 3, karena dalam pembentukan
sequence consensus memakai PHMM yang dalam skenario sebelumnya
Skenario 5 dalam implementasi menunjukan bahwa dari 300 data yang diuji hanya 194 data yang dikenal dengan baik, atau dalam persen hanya 64,667 %. Untuk akurasi skenario ini lebih tinggi dari skenario 1 dan skenario 3, ini disebabkan karena proses pembentukan MSA menggunakan metode MAFFT. Pada MAFFT lebih tinggi karena mengunakan metode iterasi seperti Muscle. Tetapi yang membedakan disini MAFFT dalam pembentukan MSA
mempertimbangkan sequence homolog yang berada dalam sequence dengan
mengunakan Fast Fourier Transforms (FFT). Sehingga MSA yang dibentuk
merupakan model MSA yang homolog, kedekatan antar sequence yang tinggi
menyebabkan pengambilan sequence consensus dapat menghasilkan akurasi yang tinggi pula. Itu dibuktikan dalam skenario ini, karena pembentukan sequence consensus dalam skenario ini mengunakan Position Weight Matrix yang dalam skenario sebelumnya menghasilkan akurasi yang rendah. Akurasi Skenario 5 lebih rendah dari pada skenario 2 dan 3, ini dikarenakan saat pembentukan sequence consensus mengunakan Position Weight Matrix yang akurasinya lebih rendah daripada PHMM /HMMER.
Skenario 6 dalam implementasi menunjukan bahwa dari 300 data yang diuji hanya 245 data yang dikenal dengan baik, atau dalam persen hanya 81.667 %. Skenario ini merupakan skenario yang mempunyai nilai akurasi yang paling tinggi dari pada ke – 5 skenario sebelumnya. Skenario 6 mempunyai akurasi tinggi karena dalam proses pembentukan MSA menggunakan MAFFT yang menbentuk MSA yang homolog, dalam skenario 5 telah dibuktikan bahwa MAFFT merupakan metode paling baik untuk membentuk MSA dibandingkan muscle dan
38,000 72,667 44,333 75,000 64,667 81,667 0 10 20 30 40 50 60 70 80 90 s1 s2 s3 s4 s5 S6 a k u r a s i Skenario
Grafik Akurasi Ke ‐ 6 Skenario
MSA phylogenetic. Lalu dalam pembentukan sequence consensus skenario ini menggunakan PHMM yang juga menunjukan akurasi yang tinggi dari pada mengunakan metode Position Weight Matrix.
Dan berikut ini keenam skenario yang ditampilkan dalam grafik beserta akurasi untuk setiap skenarionya.
Gambar 4.1. Grafik akurasi ke – 6 skenario yang sudah dilakukan.
Dari grafik diatas dapat disimpulkan bahwa dari ketiga metode pembentukan multiple sequence alignment yang dapat membentuk MSA dengan baik adalah metode MAFFT. Secara terurut akurasi rendah ke tinggi sebagai berikut : Phylogenic > Muscle > MAFFT, dan untuk metode pembentukan sequence consensus adalah PHMM dalam penelitian ini diwakili software yang benama HMMER. Untuk akurasi kombinasi terendah terdapat pada skenario 1, dengan akurasi sebesar 38,000% dan untuk kombinasi yang terbaik terdapat pada skenario ke – 6, yang dalam grafik menunjukan akurasi sebesar 81.667 %.
Berikut akan ditampilkan confusion matrix untuk pengujian yang menghasilkan tingkat akurasi yang paling tinggi.
Tabel 4.3. Confusion matrix MAFFT – HMMER.
Akurasi = (245/300) * 100% = 81,667 %
Pada tabel confusion matrix diatas dapat dilihat bahwa sistem dapat
mengidentifikasi dengan baik pada Mus Musculus Castaneus (Mc), Mus
Musculus Domesticus (Md), dan Rattus Noevegicus (Rat) masing – masing
dengan jumlah yang mampu dikenali dengan tepat secara berurutan adalah 51, 60,
dan 49 dari 60 data untuk setiap spesies. Sedangkan pada Mus Musculus
Molossinus (Mm) dan Microcebus Murinus (Mur), sistem tidak dapat
mengidentifikasi dengan baik. Pada Musculus Molossinus sistem mampu
mengidentifikasi sebanyak 45 sequence dari 60 sequence data Musculus Molossinus, dan sebanyak 40 sequence yang dikenali sebagai Microcebus Murinus.
Hasil identifikasi sequence DNA yang terlihat pada Musculus Molossinus dan Microcebus Murinus membuat sistem tidak dapat mengenali dengan baik. Hal ini dapat disebabkan Musculus Molossinus yang berasal dari Jepang mempunyai
Mc Mm Md Rat Mur Mc 51 3 4 0 2 Mm 11 45 2 0 2 Md 0 0 60 0 0 Rat 3 1 2 49 5 Mur 10 9 0 1 40
persamaan sequence DNA dengan Mus Musculus Castaneus yang berasal dari Asia Tenggara, dan dalam confusion matrix menunjukan bahwa 11 sequence dari Musculus Molossinus dikenali sebagai Mus Musculus Castaneus. Berbeda dengan Musculus Domesticus yang berasal dari Eropa, walaupun masih satu spesies mereka masih berbeda. Dan untuk Microcebus Murinus memang berbeda spesies dari Mus Musculus, tetapi dalam confusion matrix menunjukan bahwa sequence Microcebus Murinus mempunyai kesamaan dengan spesies Mus Musculus. Hal ini ditunjukan bahwa terdapat 10 sequence dari Microcebus Murinus yang dikenali sebagai Mus Musculus Castaneus dan 9 sequence dikenali sebagai Musculus Molossinus, ini disebabkan karena ada beberapa kesamaan fungsi DNA dari kedua spesies tersebut, seperti kemiripan sequence DNA manusia dengan mencit atau tikus.
4.2. Implementasi Antar – Muka yang Digunakan Dalam Sistem.