• Tidak ada hasil yang ditemukan

Praproses Data

Sequences DNA metagenome yang sudah dipilih akan diuraikan fragmennya menggunakan perangkat lunak MetaSim. Data yang diproses akan dibaca berkali-kali sesuai dengan kebutuhan penelitian. Pada data set kecil, data yang dipersiapkan akan dibaca sebanyak 10 000 kali untuk keperluan data latih sehingga jumlah pembacaan untuk masing-masing organisme ini adalah 1 000 kali pembacaan. Panjang fragmen yang digunakan adalah 500 bp, 1 kbp, 5 kbp, dan 10 kbp. Data uji pada data set kecil akan dibaca sebanyak 5 000 kali. Untuk data uji, fragmen yang digunakan adalah fragmen dengan panjang 500 bp. Keluaran dari pengolahan MetaSim ini adalah fail FASTA yang berisi sequences DNA yang sudah terfragmen sesuai dengan kriteria parameter yang diinginkan. Berikut screenshoot sequences DNA yang dapat dilihat pada Gambar 9.

Gambar 9 Sequence DNA Bacillus amyloliquefaciens FZB42 pada pembacaan 1 untuk panjang fragmen 1000 bp

14

Ekstraksi Ciri

Ekstraksi Ciri pada penelitian ini adalah dengan melakukan pembacaan frekuensi nukleotida dengan k-mer dan spaced k-mer pada sequences DNA yang telah di-generate menggunakan MetaSim. K-mer akan menampilkan pola kemunculan k pada suatu waktu dalam suatu sequences. Contoh, jika hendak menghitung trinukleotida, dihitung empat base utama (A, T, G, C) dipangkat dengan jumlah k. Hasilnya, untuk trinukleotida adalah 43 = 64 base pair (bp).

Pada penelitian ini k-mers yang digunakan adalah k = 3 maka ada 43 = 64 pola kemunculan yang terbentuk. Pola kemunculan tersebut direpresentasikan oleh jumlah atribut pada data yaitu X1, X2, …, X64. Jumlah pembacaan yang digunakan pada data latih yaitu 10 000 pembacaan mewakili jumlah baris fragmen metagenome pada data, serta 5000 pembacaan pada data uji baru. Adapun untuk atribut kelas terdiri atas 3 genus yang berbeda. Perhitungan frekuensi k-mers pada sequences DNA diilustrasikan pada Gambar 10.

Selain menggunakan frekuensi k-mer, digunakan spaced k-mer yang memperhitungkan kondisi d ’ ca . Spaced k-mer dikemukakan oleh Kusuma (2012) yang mencari akurasi terbaik dari dan , dengan adalah weight of pattern yang merepresentasikan banyaknya posisi yang sesuai atau matching positions (nilai 1) adapun adalah posisi dari kondisi d ’ ca

(*). Dari hasil percobaan, didapatkan hasil akurasi terbaik adalah pada pola 111 1*11 1**11. Metode ini akan memeriksa frekuensi nukleotida dari fragmen DNA mulai dari AAA - CCC, A*AA - C*CC, dan A**AA - C**CC. Pengertian dari simbol * (d ’ ca ) pada fragmen DNA yang diperiksa adalah dapat merupakan basa apapun, baik A, T, G, maupun C. Adapun untuk symbol **, berarti diperbolehkan basa manapun mengisi 2 bit tersebut. Sehingga kondisi itu dapat diisi oleh 24 pasang basa mulai dari AA, AC, AT, AG, dan seterusnya.

Oleh karena itu, banyaknya pola kemunculan yang terbentuk pada perhitungan frekuensi spaced k-mers adalah sebanyak 192 pola kemunculan. Pola kemunculan tersebut mewakili jumlah atribut pada data yaitu X1, X2, …, X192. Jumlah pembacaan yang digunakan pada data latih yaitu 10 000 pembacaan mewakili jumlah baris fragmen metagenome pada data, serta 5000 pembacaan pada data uji baru. Adapun untuk atribut kelas terdiri atas 3 genus yang berbeda. Perhitungan frekuensi spaced k-mers pada sequences DNA diilustrasikan pada Gambar 11.

15

Hasil dari ekstraksi ciri tersebut adalah vektor masukkan yang besarnya dimensi data set D adalah , dengan baris m adalah jumlah pembacaan data yang di generate dan kolom n adalah jumlah kombinasi dari k yang digunakan. Jadi jumlah kombinasi yang terbentuk pada k-mers untuk k = 3 (trinukleotida) adalah 43 = 64 kombinasi sedangkan pada spaced k-mers untuk k = 3 adalah 192 kombinasi. Hasil perhitungan frekuensi oligonukleotida yang berupa array m x n akan digunakan dalam proses klasifikasi. Hasil perhitungan frekuensi spaced k-mers pada sequences DNA diilustrasikan pada Tabel 4.

Gambar 11 Jumlah kombinasi pada spaced k-mersk = 3

16

Reduksi Data dengan PCA

Analisis komponen utama bertujuan untuk mereduksi dimensi data asal yang semula terdapat p variabel bebas menjadi q komponen utama (dimana q < p). Penggunaan metode ekstraksi ciri spaced k-mers dengan pola w = 3 dan d = 0, 1, 2 menghasilkan array m jumlah pembacaan data x 192 kombinasi. Di samping itu, ekstraksi ciri K-mers trinukleotida menghasilkan arraym jumlah pembacaan data x 64 kombinasi. Dimensi data tersebut perlu direduksi tanpa adanya pengurangan karakteristik data secara signifikan sehingga lebih mudah untuk menginterpretasikannya. Pada penelitian ini proporsi kumulatif keragaman data asal yang dipilih adalah sebesar 97%. Pemilihan tersebut berdasarkan teknik mencoba-coba setelah mencoba proporsi yang lain yakni 95% hingga 99%.

K -fold cross validation

Setelah mereduksi data menggunakan PCA dengan threshold 0.97, data set akan dilatih dengan menggunakan k-fold cross validation yang digunakan untuk membagi data menjadi data latih dan data uji. Pada penelitian ini k yang digunakan adalah 5. Data akan dibagi menjadi 5 bagian di mana 4 bagian akan menjadi data latih, dan 1 bagian sisanya akan digunakan untuk validasi. Pada data set kecil, dari 10 000 fragemen tersebut, 8000 fragmen sebagai data latih dan 2000 fragmen menjadi data uji untuk validasi.

Naïve Bayes Classifier (NBC)

Jika nilai atribut dari data adalah continuous-valued atau data numerik, maka diasumsikan mempunyai distribusi Gaussian. Dalam kasus ini berlaku:

( | i) g ( i i) 1

i

( i) ci

dimana adalah mean dan standard deviasi yang dihitung dari semua nilai (frekuensi) dari masing-masing atribut (dalam hal ini adalah spaced k-mer) dari semua sampel dalam kelas yang sama (Han dan Kamber, 2001). Masing-masing atribut dari seluruh fragmen yang berasal dari kelas yang sama ( dalam penelitian ini genus sebagai kelas) dihitung mean dan standar deviasinya. Mean dan standar deviasi dari masing-masing atribut seluruh fragmen yang berasal dari kelas yang sama akan digunakan untuk menghitung peluang dalam Gaussian (normal) density function. Perhitungan mean dan standard deviasi pada data diilustrasikan pada Gambar 12. Untuk mengklasifikasikan suatu sample ,

( | i) ( i) dievaluasi untuk tiap kelas i. Sample diklasifikasikan ke

dalam kelas i jika dan hanya jika:

17

Model

Pada proses pelatihan NBC sebelumnya, model yang berupa bagian dari data latih dengan akurasi tinggi akan divalidasi dengan data uji baru yang masih belum digunakan pada data latih menggunakan NBC.

Pengujian NBC dan Analisis

Pada data set kecil, data latih yang di-generate ada sebanyak 10 000 fragmen dengan rincian jumlah pembacaan untuk masing-masing organisme adalah 1 000 kali pembacaan sehingga informasi yang terdapat dalam data lebih banyak. Matriks konfusion akan merepresentasikan hasil klasifikasi untuk masing-masing kelas. Akurasi akan dihitung berdasarkan jumlah data uji yang benar diklasifikasikan ke dalam kelasnya dibagi dengan jumlah seluruh data uji kemudian dikalikan 100%. Sensitifity digunakan untuk menghitung akurasi dari tiap kelas. Sebagai contoh perhitungan, dari 528 fragmen yang seharusnya masuk kelas genus Agrobacterium, 523 fragmen berhasil dikelaskan ke dalam kelas genus Agrobacterium, sedangkan 5 fragmen dianggap masuk ke kelas genus Bacillus. Sensitifity untuk kelas Agrobacterium adalah 523 fragmen yang diklasifikasikan dengan benar dibagi dengan 528 fragmen yang seharusnya diklasifikasikan ke dalam kelas genus Agrobacterium kemudian dikalikan 100 %. Begitu juga sensitifity untuk kelas genus Bacillus dan Staphylococcus dihitung dengan cara yang sama. Sensitifity keseluruhan adalah dengan mencari rata-rata dari sensitifity seluruh kelas. Confusion matrix data latih pembacaan 10K panjang fragmen 10 K pada data set kecil dapat dilihat pada Gambar 13. Adapun akurasi dan sensitifity untuk data latih pada data set kecil selengkapanya dapat dilihat pada Gambar 14 dan Gambar 15.

Gambar 12 Contoh perhitungan NBC untuk atribut numerik dengan Gaussian (normal) density function

18

Gambar 13 menunjukkan bahwa jumlah data uji yang digunakan adalah 2000 fragmen. Hal ini dapat diketahui dengan menjumlahkan angka-angka yang tertera pada matriks tersebut. Pada baris pertama menunjukkan bahwa dari 528 fragmen pada kelas genus Agrobacterium, 523 fragmen benar diklasifikasikan ke dalam kelas genus Agrobacterium sedangkan 5 fragmen salah diklasifikasikan ke dalam kelas genus Bacillus. Pada baris kedua menunjukkan bahwa dari 1014 fragmen yang sebenarnya adalah kelas genus Bacillus, 1006 fragmen benar diklasifikasikan ke dalam kelas Bacillus sedangkan 8 fragmen salah diklasifikasikan ke dalam kelas genus Staphylococcus. Adapun pada baris ketiga menunjukkan bahwa dari 458 fragmen yang sebenarnya adalah kelas genus Staphylococcus, 444 fragmen benar diklasifikasikan ke dalam kelas genus Staphylococcus sedangkan 14 salah diklasifikasikan ke dalam kelas Bacillus. Akurasi yang dihasilkan adalah sebesar 98.65 %.

Gambar 13 Confusion matrix untuk data latih untuk pembacaan 10K panjang fragmen 10 K pada data set kecil

Gambar 14 Akurasi data latih pada data set kecil

8 6 .6 0 % 9 1 .6 0 % 9 7 .4 5 % 9 8 .5 5 % 8 8 .6 0 % 9 2 .1 0 % 9 7 .6 5 % 9 8 .6 5 % 81% 85% 91% 92% 5 0 0 B P 1 0 0 0 B P 5 K B P 1 0 K B P akurasi (%) panjang fragmen (bp)

19

Gambar 15 Sensitivity data latih pada data set kecil

Data uji baru berupa 9 mikroorganisme yang termasuk dalam kelompok genus yang sama dengan data latih akan diuji untuk memvalidasi model yang telah dibuat. Data tersebut akan dibaca sebanyak 5 000 kali pembacaan dengan panjang fragmen 500 bp. Hasil akurasi dari klasifikasi tersebut pada spaced k-mers sebesar 82% untuk panjang fragmen 500 bp, sedangkan pada k-mers trinukleotida sebesar 80% untuk panjang fragmen 500 bp. Hasil klasifikasi tersebut selengkapnya dapat dilihat pada Gambar 16.

Gambar 16 Akurasi data uji baru data set kecil

8 6 .6 0 % 9 1 .6 0 % 9 7 .4 5 % 9 8 .5 5 % 8 8 .6 0 % 9 2 .1 0 % 9 7 .6 5 % 9 8 .6 5 % 81% 85% 91% 92% 5 0 0 B P 1 0 0 0 B P 5 K B P 1 0 K B P akurasi (%) panjang fragmen (bp)

K-mers Trinukleotida spaced K-mers Kusuma&Akiyama (2011)

8 0 .0 0 % 82 .0 0 % 75% 5 0 0 B P akurasi (%) panjang fragmen (bp)

20

Dari hasil tersebut, dapat diketahui bahwa metode ektraksi ciri spaced k-mers menghasilkan akurasi dan sensitifity yang lebih tinggi dibandingkan dengan ekstraksi ciri k-mers trinukleotida. Pereduksian data sebelum proses klasifikasi juga dapat memberikan hasil yang lebih baik karena hanya informasi yang penting saja yang digunakan. Selain itu dapat dilihat juga bahwa panjang fragmen mempengaruhi hasil klasifikasi. Semakin panjang fragmen yang digunakan, semakin banyak juga informasi dari organisme tersebut, maka hasil klasifikasi akan semakin baik. Untuk klasifikasi pada data latih, penelitian ini juga menghasilkan akurasi yang lebih tinggi jika dibandingkan dengan hasil penelitian Kusuma & Akiyama (2011). Hasil klasifikasi pada data uji organisme baru juga tidak terlampau jauh jika dibandingkan dengan penelitian Ananta & Akiyama (2011).

Percobaan Dataset Besar

Data set besar terdiri atas 381 organisme yang termasuk ke dalam 48 genus sebagai data latihnya. Data tersebut dibaca 9600 pembacaan sehingga banyaknya record pada data adalah 9600 fragmen dan panjang fragmen yang digunakan adalah 500 bp. Dengan menggunakan 5-fold cross validation maka dari 9600 fragmen, 7680 digunakan sebagai data latih dan 1920 fragmen digunakan sebagai data uji. Data tersebut diekstraksi menggunakan metode k-mers dan spaced k-mers.

Metode penelitian yang diterapkan pada data set besar sama dengan metode yang diterapkan pada data set 10 organisme. Hanya saja percobaan pada data set besar ini belum mempertimbangkan kondisi imbalanced data dimana jumlah fragmen yang mewakili masing – masing genus (sebagai kelas) tidak sama rata. Hal ini dilakukan untuk mengetahui pengaruh kondisi imbalanced data pada hasil klasifikasi. Hasil akurasi untuk dataset besar selengkapnya dapat dilihat pada Gambar 17.

Gambar 17 Akurasi hasil klasifikasi data set besar

66%

74%

5 0 0 B P

akurasi (%)

panjang fragmen (bp) K-mers Trinukleotida spaced K-mers

21

Dokumen terkait