• Tidak ada hasil yang ditemukan

Pengelompokan Sekuens DNA menggunakan Metode K-Means dan Fitur N-mers Frequency

N/A
N/A
Protected

Academic year: 2017

Membagikan "Pengelompokan Sekuens DNA menggunakan Metode K-Means dan Fitur N-mers Frequency"

Copied!
29
0
0

Teks penuh

(1)

PENGELOMPOKAN SEKUENS DNA MENGGUNAKAN

METODE

K-MEANS

DAN FITUR

N-MERS FREQUENCY

BERNITA SINURAT

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)
(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Pengelompokan Sekuens DNA menggunakan Metode K-Means dan Fitur N-mers Frequency

adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, April 2014

Bernita Sinurat

(4)

ABSTRAK

BERNITA SINURAT. Pengelompokan Sekuens DNA menggunakan Metode

K-Means dan Fitur N-mers Frequency. Dibimbing oleh WISNU ANANTA KUSUMA.

Deoxyribo Nucleic Acid (DNA) merupakan asam nukleat yang berisi instruksi genetik yang tersimpan dalam tubuh makhluk hidup. Setiap spesies memiliki DNA yang unik. Namun demikian, terdapat bagian yang memiliki kemiripan. Informasi mengenai ukuran kemiripan ini salah satunya sangat bermanfaat untuk membentuk phylogenetic tree yang dihasilkan dari proses pengelompokan sekuens-sekuens DNA. Tujuan dilakukannya penelitian ini adalah mengimplementasikan metode pengelompokan K-Means pada data sekuens DNA untuk mengenali suatu spesies dan membedakan spesies yang satu dengan yang lainnya berdasarkan kesamaan cirinya. Data yang digunakan dalam penelitian ini adalah tujuh puluh data spesies. Data dikelompokkan menggunakan metode

K-Means yang kemudian dievaluasi menggunakan Indeks Davies Bouldin. Hasil pengelompokan pada penelitian ini menunjukkan bahwa nilai clustering terbaik dicapai oleh pengelompokan dengan 3 cluster.

Kata kunci: Indeks Davies Bouldin, K-Means, n-mers, Sekuen DNA

ABSTRACT

BERNITA SINURAT. Grouping of DNA sequences using the method of K-Means and Frequency Features N-mers. Supervised by WISNU ANANTA KUSUMA.

Deoxyribo Nucleic Acid (DNA) is a nucleic acid that contains genetic instructions stored in the bodies of living organisms. Each species has a unique DNA. However, there are still similarity section among DNA from different species. The similarity information is useful to generate phylogenetic tree which can be developed from the clustering of DNA sequences. The purpose of this study is to implement K-Means clustering on DNA sequence to identify and distinguish species from another based on its common characteristics. Data used in this study consist of 70 species. Data are grouped using the K-Means clustering, and evaluated using the Davies Bouldin Index. The result shows that the best clustering is obtained with 3 clusters.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer

pada

Departemen Ilmu Komputer

PENGELOMPOKAN SEKUENS DNA MENGGUNAKAN

METODE

K-MEANS

DAN FITUR

N-MERS FREQUENCY

BERNITA SINURAT

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(6)

Penguji :

1 Toto Haryanto, SKom Msi

(7)

Judul Skripsi : Pengelompokan Sekuens DNA menggunakan Metode K-Means dan Fitur N-mers Frequency

Nama : Bernita Sinurat NIM : G64104032

Disetujui oleh

Dr Wisnu Ananta Kusuma, ST MT Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi MKom Ketua Departemen Ilmu Komputer

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas segala berkat-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Tema yang dipilih dalam penelitian ini ialah pengelompokan sekuens DNA menggunakan metode K-Means dan fitur n-mers frequency.

Penulis mengucapkan terimakasih kepada seluruh pihak yang telah berperan dalam penelitian ini, yaitu:

1 Kedua orang tua serta seluruh keluarga atas doa, semangat, kasih sayang dan dorongan kepada penulis agar dapat segera menyelesaikan penelitian ini.

2 Bapak Dr Wisnu Ananta Kusuma, ST MT selaku dosen pembimbing yang telah memberikan arahan, masukan, dan dukungan kepada penulis.

3 Bapak Toto Haryanto, SKom MSi dan Bapak Muhammad Ashyar Agmalaro, SSi MKom selaku dosen penguji yang telah banyak memberi saran.

4 Ibu Istriyati selaku atasan yang telah memberikan izin, mendukung dan memotivasi dalam menyelesaikan pendidikan di alih jenis Ilmu Komputer IPB.

5 Rekan satu bimbingan:Agung Widyo Utomo, Fariz Ashar Himawan, Alharis Tamsin, Fitria Ellyana, dan Galih yang saling berbagi ide dan saling memotivasi selama pengerjaan skripsi.

6 Para sahabat:Cory Diana, Mira Della, Yosi Nurhayati, Jefri Hernandes, Yusuf Setiadi, R. Ahmad Somadi, Puspita Kartikasari, serta seluruh rekan-rekan Ilkom Alih Jenis angkatan 5, atas kerjasamanya selama penelitian.

7 Rekan-rekan Pusat Penyuluhan Hukum BPHN Kementerian Hukum dan HAM khususnya Bidang Pengembangan Penyuluhan Hukum atas perhatian dan motivasinya.

8 Pihak-pihak lain yang tidak dapat penulis sebutkan satu persatu.

Semoga karya ilmiah ini bermanfaat.

Bogor, April 2014

(9)

DAFTAR ISI

DAFTAR TABEL vii

DAFTAR GAMBAR vii

DAFTAR LAMPIRAN vii

PENDAHULUAN 1

Tujuan Penelitian 1

Manfaat Penelitian 1

Ruang Lingkup Penelitian 1

METODE 2

Penyiapan Data 3

Ekstraksi Ciri 3

Normalisasi 4

Algoritme K-Means 4

Indeks Davies Bouldin (IDB) 5

Lingkungan Implementasi Sistem 5

HASIL DAN PEMBAHASAN 6

Tahap Pengumpulan Data 6

Tahap Praproses Data 6

Tahap Pengelompokan 6

SIMPULAN DAN SARAN 8

Simpulan 8

Saran 8

DAFTAR PUSTAKA 9

LAMPIRAN 15

(10)

DAFTAR TABEL

1 Nilai IDB terbaik dari masing-masing cluster 7

2 Hasil clustering dengan 3 cluster 7

3 Hasil clustering dengan 5 cluster 8

4 Hasil clustering dengan 7 cluster 8

DAFTAR GAMBAR

1 Metode Penelitian 2

2 Contoh Data GenBank NCBI dalam format FASTA 3

3 Contoh perhitungan dengan n-mers frequency 3

DAFTAR LAMPIRAN

1 Data yang digunakan dalam penelitian 10

2 Visualisasi hasil clusteringK-Means 12

3 Hasil Ekstraksi ciri menggunakan n-mers frequency untuk 70 data

sekuen DNA 13

(11)

1

PENDAHULUAN

Latar Belakang

Deoxyribo Nucleic Acid (DNA) merupakan asam nukleat yang berisi instruksi genetik yang tersimpan dalam tubuh makhluk hidup. DNA merupakan rantai ganda dari molekul sederhana (nukleotida) yang diikat bersama-sama dalam struktur helix yang dikenal dengan double helix. Ada 4 basa utama yang terdapat pada setiap satu nukleotida DNA, yaitu adenine (A), cytosine (C), thymine (T), atau guanine (G). Variasi urutan dari keempat basa tersebut membentuk suatu kode genetik pada sel. Variasi urutan basa DNA pada spesies mahluk hidup memiliki kemiripan yang menyebabkan beberapa spesies saling terkait satu sama lain. Oleh karena itu, untuk mengenali suatu spesies dan membedakan spesies yang satu dengan yang lainnya diperlukan pengelompokan berdasarkan kesamaan ciri fiturnya.

Clustering merupakan salah satu metode Data Mining yang bersifat tanpa arahan (unsupervised). Ada dua jenis data clustering yang sering digunakan dalam proses pengelompokan data, yaitu hierarchical (hirarki) data clustering dan non-hierarchical (non hirarki) data clustering. K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam

cluster sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain (Agusta 2007).

Dalam statistik dan mesin pembelajaran, K-Means merupakan metode analisis kelompok yang mengarah pada proses partisi N objek pengamatan ke dalam K kelompok (cluster), setiap objek pengamatan dimiliki oleh sebuah kelompok dengan mean (rata-rata) terdekat. Metode ini mencoba menemukan pusat dari kelompok dalam data sebanyak iterasi (Prasetyo 2012). Tujuan dari proses clustering DNA ialah menemukan pola pengelompokan DNA yang meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar-cluster.

Tujuan Penelitian

Tujuan dilakukannya penelitian ini adalah mengimplementasikan metode

K-Means pada data sekuens DNA untuk mengelompokkan DNA ke dalam cluster. Manfaat Penelitian

Penelitian ini diharapkan dapat menghasilkan pengelompokan DNA secara tepat dan konsisten untuk mengenali suatu struktur metagenom DNA.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini meliputi:

(12)

2

2 DNA sekuen yang digunakan adalah DNA bakteri sebanyak 70 spesies dengan 64 ciri.

3 Data yang digunakan adalah data mikroba.

4 Pengelompokan DNA sekuens dikelompokkan menggunakan metode K-Means

dengan ukuran cluster 3,5,7 dan ekstraksi ciri menggunakan n-mers frequency

dengan nilai n sama dengan 3.

METODE

Penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan pada Gambar 1. Tahapan yang dilakukan, ialah penyiapan data, ektraksi ciri dengan

n-mers frequency, perhitungan pengelompokan DNA menggunakan metode

K-Means, serta analisis hasil pengelompokan.

(13)

3

Penyiapan Data

Data yang digunakan pada penelitian ini berupa 70 data spesies dalam bentuk sekuens DNA (urutan nukleotida pada suatu DNA). Sekuens yang digunakan berasal dari data Genbank NCBI dalam format FASTA. Data tersebut terdiri atas A, C, T, dan G. Contoh format FASTA dapat dilihat pada Gambar 2.

Ekstraksi Ciri

Pada tahap ini dilakukan proses ekstraksi ciri. Metode ekstraksi ciri yang digunakan untuk mendapatkan ciri DNA adalah n-mers frequency. Ekstraksi ciri

n-mers frequency dihitung menggunakan kombinasi 3 nukleotida dengan nilai

n sama dengan 3 sehingga diperoleh pola ciri {AAA, AAC, AAT, AAG, ACA, ACC, ACT, ACG, ATA, ATC, ATT, ATG, AGA, AGC, AGT, AGG, CAA, CAC, CAT, CAG, CCA, CCC, CCT, CCG, CTA, CTC, CTT, CTG, CGA, CGC, CGT, CGG, TAA, TAC, TAT, TAG, TCA, TCC, TCT, TCG, TTA, TTC, TTT, TTG, TGA, TGC, TGT, TGG, GAA, GAC, GAT, GAG, GCA, GCC, GCT, GCG, GTA, GTC, GTT, GTG, GGA, GGC, GGT, GGG}. Dimensi yang digunakan sebesar 43 yaitu 64 bp (base pair). Frekuensi kemunculan tiap fragmen DNA dihitung dengan pola ciri tersebut. Proses ekstraksi ciri ini dilakukan untuk memudahkan perhitungan jarak antar titik. Fitur n-mersfrequency dengan nilai n

sama dengan 3 pada sekuens AAAAATGAGGGCCCCCCTGGACGTG, sehingga diperoleh fitur seperti pada Gambar 3.

Gambar 3 Contoh perhitungan dengan n-mers frequency

(14)

4

Normalisasi

Nilai rentang dari data hasil ekstraksi ciri sangat bervariasi, sehingga nilai yang diperoleh harus diskalakan kedalam batas nilai tertentu agar tidak terdapat dimensi data yang terlalu besar ataupun terlalu kecil yang akan sangat mempengaruhi hasil pengelompokan. Setiap nilai dalam data dikurangkan dengan nilai paling kecil dan dibagi dengan nilai paling besar kurang nilai paling kecil, sehingga skala rentang nilai yang didapatkan berada pada [0,0] hingga [1,0].

Min-max melakukan transformasi linear pada data, menggunakan nilai minimum dan nilai maksimum. Normalisasi min-max mempertahankan hubungan antara nilai data asli (Han dan Kamber 2001). Proses normalisasi dilakukan dengan mengurangkan nilai data asli dengan nilai minimal, kemudian dibagi dengan nilai maksimal kurang nilai minimal. Dapat dihitung dengan rumus:

Algoritme K-Means

K-Means merupakan salah satu metode pengelompokan data non-hirarki yang berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok. Metode ini mempartisi data ke dalam kelompok sehingga data yang berkarakteristik sama dimasukkan ke dalam satu kelompok yang sama dan data yang berkarakteristik berbeda dikelompokkan ke dalam kelompok yang lain. Ada pun tujuan pengelompokan data ini adalah untuk meminimalkan variasi di dalam suatu kelompok dan memaksimalkan variasi antar kelompok (Prasetyo 2012).

Langkah awal proses algoritme K-Means ialah menentukan pusat dari tiap

cluster yang hampir sejenis yang kemudian disebut centroid. Centroid biasanya ditentukan secara acak (random). Kemudian, jarak tiap cluster dihitung terhadap

centroid yang ada. Setiap cluster yang memiliki jarak terdekat dari tiap obyek terhadap centroid dikelompokkan. Nilai centroid dihitung kembali secara berulang-ulang sampai posisi centroid tidak berpindah lagi.

Agusta (2007) menyatakan ada beberapa tahapan dalam melakukan cluster

menggunakan K-Means, yaitu: 1 Menentukan jumlah cluster.

2 Mengalokasikan data ke dalam cluster secara random.

3 Menghitung centroid/rata-rata dari data yang ada di masing-masing cluster. Pusat cluster adalah rata-rata (mean) dari semua data atau objek dalam cluster

tertentu,

4 Mengalokasikan masing-masing data ke centroid/rata-rata terdekat. Ada beberapa rumus jarak dua titik x dan y, dalam tulisan ini memakai jarak

euclidean distance (d), adapun rumusnya adalah sebagai berikut:

(15)

5

Ketika algoritma partisional seperti K-Means yang digunakan tidak menghasilkan perbedaan yang signifikan, indeks validasi cluster akan digunakan untuk evaluasi kualitas cluster (Sivogolovko 2012).

Indeks Davies Bouldin (IDB)

Hasil clustering yang diperoleh menggunakan algoritme K-Means divalidasi menggunakan Indeks Davies Bouldin (IDB). Pengukuran ini memaksimalkan jarak inter-cluster antara Cluster Ci dan Cj dan pada waktu yang sama mencoba untuk meminimalkan jarak antar titik dalam sebuah cluster. Jarak intra-cluster sc (Qk) dalam Cluster Qk ialah:

dengan Nk adalah banyak titik yang termasuk dalam Cluster Qk dan Ck adalah

centroid dari Cluster Qk. Jarak Inter-cluster didefinisikan:

dengan Ck dan Cl adalah centroid Cluster k dan Cluster l. Di lain pihak, Indeks Davies Bouldin dihitung dengan menggunakan rumus:

dengan nc adalah banyak cluster. Skema clustering yang optimal menurut Indeks Davies Bouldin ialah yang memiliki Indeks Davies Bouldin minimal (Salazar et al. 2002). Informasi penting yang diperoleh dari hasil cluster diharapkan bermanfaat sehingga dapat diperoleh penanganan terhadap clustering yang berhubungan dengan DNA.

Lingkungan Implementasi Sistem

Lingkungan implementasi sistem adalah sebagai berikut : Perangkat keras berupa notebook:

Processor Intel Core i5-2450M CPU @2.50Hz 2.50 GHz RAM kapasitas 4 GB,

harddisk kapasitas 600 GB,

monitor dengan resolusi 1600 x900 piksel. Perangkat lunak:

Sistem operasi Microsoft Windows 7 Home Premium. Perangkat Matlab R2010b

(16)

6

HASIL DAN PEMBAHASAN

Data sekuens DNA yang telah dinormalisasi akan dikelompokkan menggunakan metode K-Means. Jumlah cluster yang digunakan dalam pengelompokan data menggunakan K-Means adalah 3, 5, dan 7.

Metode K-Means melakukan pengelompokan dengan meletakkan titik data ke dalam cluster yang titik pusatnya berjarak terdekat. Salah satu karakteristik dari metode K-Means adalah sangat sensitif dalam penentuan titik pusat awal

cluster karena K-Means membangkitkan titik pusat cluster awal secara random. Pada saat pembangkitan awal titik pusat tersebut mendekati solusi akhir pusat

cluster,maka akan menemukan hasil pengelompokan yang tepat. Sebaliknya, jika awal titik pusat tersebut jauh dari solusi akhir pusat cluster, besar kemungkinan menyebabkan hasil pengelompokan yang tidak tepat.

Tahap Pengumpulan Data

Data sekuen DNA berupa data berformat FASTA yang diunduh dari GenBank NCBI sebanyak 70 spesies DNA mikroba dapat dilihat pada Lampiran 1. Setiap DNA memiliki panjang sekuen yang berbeda-beda. Tujuh puluh data spesies tersebut memiliki paling banyak 6,731,723 karakter dan paling sedikit 1,595. Data tersebut terdiri dari rangkaian huruf yang merepresentasikan nukleotida adenine (A), cytosine (C), thymine (T), dan guanine (G). Urutan dalam format FASTA dimulai dengan deskripsi sekuen DNA tersebut, dan diikuti oleh barisan data sekuen. Diawali oleh simbol ”>” dan deskripsi dari sekuen DNA, sisanya merupakan barisan nukleotida yang panjangnya tidak melebihi 80 karakter per baris dan tanpa mengandung spasi.

Tahap Praproses Data

Ekstraksi Ciri dengan n-mers frequency

Tahap ini merupakan proses ekstraksi ciri dari sebuah sekuen DNA yang terdiri atas urutan huruf ditransformasi menjadi matriks. Ekstraksi ciri dengan

n-mers frequency menggunakan nilai n sama dengan 3, sehingga dimensi yang digunakan sebesar 43 yaitu 64 bp (base pair). Setiap sekuen DNA dari 70 data spesies diubah menjadi matriks 70x64. Ekstraksi ciri dilakukan karena dari sebuah sekuen DNA tersebut harus didapatkan nilai-nilai yang bisa dijadikan sebagai identitasnya, sehingga bisa diproses pada tahap selanjutnya.

Tahap Pengelompokan

Penerapan Metode K-Means

Data sekuen DNA yang digunakan dalam pengelompokan ini adalah data yang dinormalisasi. Masukan untuk pengelompokan menggunakan metode

K-Means adalah data dari praproses dengan 64 ciri DNA.

Selanjutnya, centroid ditentukan dan jarak setiap data terhadap setiap

centroid dihitung sehingga setiap data membentuk cluster. Setelah cluster

(17)

7

dengan centroid kembali dihitung. Iterasi pada algoritme K-Means akan berhenti apabila centroidcluster tidak berubah atau anggota cluster tetap sama.

Inisialisasi centroid sangat dibutuhkan pada metode K-Means karena pada

K-Means nilai centroid dipilih secara acak sehingga mempengaruhi hasil cluster. Begitu juga dengan ukuran cluster, metode K-Means tidak dapat menentukan ukuran cluster yang baik sehingga diperlukan nilai IDB.

Nilai Indeks Davies Bouldin (IDB)

Hasil dari pengelompokan spesies menggunakan K-Means dianalisis menggunakan Nilai IDB. Penelitian ini menggunakan 3 cluster yang berbeda-beda. Percobaan pertama dengan menggunakan 3 cluster, percobaan kedua menggunakan 5 cluster, dan percobaan ketiga menggunakan 7 cluster. Pada pengelompokan dengan ukuran cluster 3, nilai IDB minimum sama dengan 2,122. Hal ini menunjukkan bahwa percobaan dengan 3 cluster tersebut memiliki perbandingan antara jarak antar-cluster dan intra-cluster-nya sebesar 2,122. Pada jumlah cluster 5 nilai IDB minimum sama dengan 2,912, dan pada jumlah cluster

7 nilai IDB sama dengan 7,073 (Tabel 1). Berdasarkan Tabel 1 dapat dilihat bahwa Indeks Davies Bouldin paling minimum adalah 2,122 dengan percobaan hasil pengelompokan sebanyak 3 cluster.

Tabel 1 Nilai IDB terbaik dari masing-masing cluster

Banyaknya Cluster Indeks Davies Bouldin (IDB)

3 2,122

5 2,912

7 7,073

Pengelompokan Menggunakan Metode K-Means

Hasil clustering dari masing-masing cluster dijabarkan sebagai berikut. 1 Clustering dengan 3 cluster

Hasil clustering dengan 3 cluster dapat dilihat pada Tabel 2. Tabel 2 Hasil clustering dengan 3 cluster

Cluster

1 2 3

9 spesies 9 spesies 52 spesies

Kolom 1 pada Tabel 2 artinya berada di satu kelas yang sama pada cluster 1 ada 9 spesies DNA, kolom 2 pada cluster ke-2 ada 9 spesies DNA dan kolom 3 pada cluster ke-3 ada 52 spesies DNA. Dari Tabel 2 dapat dilihat bahwa hasil clustering pada cluster 3 mempunyai jarak lebih dekat dengan cluster 3 dibandingkan dengan cluster 1 dan cluster 2.

2 Clustering dengan 5 cluster

(18)

8

Tabel 3 Hasil clustering dengan 5 cluster Cluster

1 2 3 4 5

7 spesies 7 spesies 46 spesies 9 spesies 1 spesies

Sama seperti yang dibahas sebelumnya, dari Tabel 3 dapat dilihat bahwa hasil

clustering pada cluster 5 mempunyai jarak lebih dekat dengan cluster 3 dibandingkan dengan cluster 1, cluster 2, cluster 4, dan cluster 5.

3 Clustering dengan 7 cluster

Hasil clustering dengan 7 cluster dapat dilihat pada Tabel 4. Tabel 4 Hasil clustering dengan 7 cluster

Cluster

1 2 3 4 5 6 7

2 spesies 45 spesies 2 spesies 4 spesies 7 spesies 5 spesies 5 spesies Seperti yang dibahas sebelumnya, kolom-kolom pada Tabel 4 artinya berada di satu kelas yang sama pada setiap kolom. Hasil clustering pada cluster 7 mempunyai jarak lebih dekat dengan cluster 2 dibandingkan dengan cluster

lainnya.

SIMPULAN DAN SARAN

Simpulan

Pada penelitian ini, clustering sekuen DNA dilakukan dengan metode

K-Means berdasarkan fitur cirinya. Percobaan dilakukan dengan 3 kali percobaan yaitu 3 cluster, 5 cluster dan 7 cluster. Dari ketiga percobaan tersebut, yang memiliki indeks minimum adalah 3 cluster.

Saran

Untuk pengembangan dari penelitian ini disarankan untuk melakukan hal-hal berikut:

1 Menambah jumlah sekuen DNA yang digunakan.

2 Menggunakan perhitungan ekstraksi ciri lain seperti feature vectors dan spaced n-merssehingga dapat dilakukan perbandingan.

(19)

9

DAFTAR PUSTAKA

Agusta Y. 2007. K-Means – penerapan, permasalahan dan metode terkait. Jurnal Sistem dan Informatika 3. (2): 47-60.

Han J, Kamber M. 2001. Data Mining: Concepts and Techniques. San Fransisco(US): Morgan Kaufmann Publishers.

Prasetyo E. 2012. Data Mining Konsep dan Aplikasi menggunakan Matlab. Jakarta: C.V. Andi Offset.

Salazar GEJ, Veles AC, Parra MCM, Ortega LO. 2002. A cluster validity index for comparing non-hierarchical clustering methods. [terhubung berkala]. http://citeseer.ist.psu.edu/rd/salazar02cluster.pdf [16 April 2014].

(20)

10

Lampiran 1 Data yang digunakan dalam penelitian

No Spesies

1 Agrobacterium fabrum str. C58 chromosome circular, complete sequence

2 Agrobacterium radiobacter K84 chromosome 2

3 Agrobacterium rhizogenes gene for 16S ribosomal RNA, complete sequence

4 Agrobacterium rhizogenes strain IFO 13257 16S ribosomal RNA, complete sequence

5 Agrobacterium rubi gene for 16S ribosomal RNA, complete sequence 6 Agrobacterium tumefaciens gene for 16S ribosomal RNA, complete

sequence

7 Agrobacterium tumefaciens plasmid Ti, complete sequence

8 Agrobacterium tumefaciens str. C58 chromosome linear, complete sequence

9 Agrobacterium tumefaciens Ti plasmid pTiBo542, complete sequence 10 Agrobacterium vitis S4 chromosome 1

11 Borrelia afzelii ACA-1 plasmid lp17, complete sequence 12 Borrelia bissettii DN127 plasmid lp25, complete sequence

13 Borrelia burgdorferi 297 plasmid 297_lp28-6, complete sequence 14 Borrelia duttonii Ly plasmid pl23b, complete sequence

15 Borrelia garinii PBi plasmid cp26, complete sequence 16 Borrelia garinii PBi plasmid lp54, complete sequence 17 Borrelia garinii PBi, complete genome

18 Borrelia sp. SV1 plasmid SV1_lp28-2, complete sequence

19 Borrelia spielmanii A14S plasmid A14S_lp28-8, complete sequence 20 Borrelia valaisiana VS116 plasmid VS116_cp32-5, complete sequence 21 Campylobacter coli plasmid pCC31, complete sequence

22 Campylobacter concisus 13826 plasmid pCCON31, complete sequence 23 Campylobacter hominis ATCC BAA-381 plasmid pCH4, complete

sequence

24 Campylobacter jejuni subsp. jejuni 81-176 plasmid pVir, complete sequence

25 Campylobacter jejuni subsp. jejuni CG8486 Scon07, whole genome shotgun sequence

26 Campylobacter jejuni subsp. jejuni CG8486 Scon10b, whole genome shotgun sequence

27 Campylobacter coli plasmid pCC31, complete sequence

28 Campylobacter jejuni subsp. jejuni CG8486 Scon15, whole genome shotgun sequence

29 Campylobacter jejuni subsp. jejuni NCTC 11168 = ATCC 700819 chromosome, complete genome

(21)

11

Lanjutan lampiran 1

31 Campylobacter phage NCTC12673, complete genome

32 Corynebacterium aurimucosum ATCC 700975 plasmid pET44827, complete sequence

33 Corynebacterium diphtheriae NCTC 13129, complete genome 34 Corynebacterium efficiens YS-314 plasmid pCE2, complete

sequence

35 Corynebacterium efficiens YS-314 plasmid pCE3, complete sequence

36 Corynebacterium glutamicum ATCC 13032, complete genome 37 Corynebacterium glutamicum R plasmid pCGR1, complete

sequence

38 Corynebacterium jeikeium plasmid pB85766, complete sequence 39 Corynebacterium jeikeium plasmid pK64, complete sequence 40 Corynebacterium resistens DSM 45100 plasmid pJA144188,

complete sequence

41 Corynebacterium sp. L2-79-05 plasmid pLEW279a, complete sequence

42 Mycobacterium bovis BCG Pasteur 1173P2, complete genome 43 Mycobacterium bovis BCG str. Mexico chromosome, complete

genome

44 Mycobacterium bovis BCG str. Moreau RDJ complete genome 45 Mycobacterium bovis BCG str. Tokyo 172 DNA, complete

genome

46 Mycobacterium leprae TN, complete genome

47 Mycobacterium marinum M chromosome, complete genome 48 Mycobacterium smegmatis JS623, complete genome

49 Mycobacterium tuberculosis H37Rv complete genome

50 Mycobacterium ulcerans Agy99 chromosome, complete genome 51 Mycobacterium vanbaalenii PYR-1 chromosome, complete

genome

52 Staphylococcus aureus subsp. aureus COL chromosome, complete genome

53 Staphylococcus aureus subsp. aureus MSSA476 chromosome, complete genome

54 Staphylococcus aureus subsp. aureus strain MRSA252, complete genome

55 Staphylococcus epidermidis ATCC 12228, complete genome 56 Staphylococcus haemolyticus JCSC1435 DNA, complete genome 57 Staphylococcus lugdunensis HKU09-01, complete genome 58 Staphylococcus phage A5W, complete genome

59 Staphylococcus saprophyticus subsp. saprophyticus ATCC 15305, complete genome

(22)

12

Lanjutan lampiran 1

61 Streptococcus agalactiae plasmid pLS1, complete sequence

62 Streptococcus dysgalactiae subsp. equisimilis plasmid pSdyT132, complete sequence

63 Streptococcus infantarius subsp. infantarius strain CJ18 gal-lac operon, complete sequence

64 Streptococcus macedonicus ACA-DC 198 plasmid pSMA198, complete sequence

65 Streptococcus mutans strain NC101 plasmid pNC101, complete sequence

66 Streptococcus parasanguinis plasmid pFW213, complete sequence 67 Streptococcus pneumoniae D39 plasmid pDP1, complete sequence 68 Streptococcus pyogenes isolate 9116-03 plasmid pRW35, complete

sequence

69 Streptococcus suis plasmid pSSU1 DNA, complete sequence 70 Streptococcus thermophilus 2783 plasmid pt38, complete sequence

(23)

13

Lampiran 3 Hasil Ekstraksi ciri menggunakan n-mers frequency untuk 70 data sekuen DNA Jumlah

Data

Fitur Ciri

AAA AAC AAT AAG ACA ACC ACT ACG ATA ATC ATT ATG AGA AGC AGT .... GGG

1 26727 26515 26390 37061 22852 34793 14526 42483 19746 57804 26505 45081 30556 48816 14854 ... 33202

2 18 24 18 31 19 18 16 27 13 18 17 21 22 32 25 ... 46

3 3071 2470 2583 3051 2077 2434 1658 3083 1886 3851 2631 3058 2689 3633 1724 ... 2280

4 18 24 18 31 19 18 16 27 13 18 17 21 22 32 25 ... 46

5 41226 33903 29732 41748 25118 43293 13668 45148 21441 56188 29059 49317 32219 49354 13063 ... 32642

6 17 26 18 34 21 16 16 27 15 14 22 19 22 31 27 ... 51

7 3071 2470 2583 3051 2077 2434 1658 3083 1886 3851 2631 3058 2689 3633 1724 ... 2280

8 28614 23927 21841 28879 18652 30923 10334 32301 16102 41558 22031 36186 23264 35451 10211 ... 25632

9 3947 3180 3112 3988 2682 3159 2101 4006 2238 4851 3172 3863 3335 4399 2097 ... 2912

10 56890 42224 46981 53427 37103 58621 19646 48183 31737 76118 47158 65343 41564 67585 19795 ... 47358

11 21974 50808 23472 35816 41986 97562 29843 81137 15178 69057 24019 48826 30357 79355 30262 ... 80958

12 21792 50536 23301 35548 41718 96915 29627 80549 15086 68602 23830 48523 30175 78903 30004 ... 80693

13 21792 50445 23316 35380 41655 96490 29537 80336 15091 68546 23803 48432 30060 78699 30023 ... 80516

14 21935 50834 23522 35635 41980 97290 29736 81049 15230 68994 23947 48861 30329 79424 30222 ... 81084

15 31199 47358 31691 35296 43551 65509 36308 55690 24300 55626 31992 42981 31032 60677 36376 ... 46316

16 33473 77357 37472 54788 62301 148966 47315 114392 20949 109366 37538 75850 48878 115146 47299 ... 132607

17 27782 72375 34001 57329 64624 124392 48407 137141 18721 108865 34157 74843 51297 113705 49152 ... 103424

18 22284 51396 23800 36054 42346 98253 29990 81802 15325 69644 24220 49311 30680 79997 30505 ... 82017

19 28749 65903 31954 47064 53352 125714 40572 98405 17810 95155 31825 63763 42207 98978 40389 ... 108812

20 16648 65872 20320 46140 59032 144606 43085 138405 10739 102697 19894 63590 49754 108848 43084 ... 125797

21 1995 402 1380 560 373 156 380 61 1195 429 1323 348 455 214 305 ... 75

(24)

14

Lanjutan lampiran 3

23 910 306 733 438 299 166 322 78 471 359 850 259 326 246 388 ... 102

24 1231 233 1013 676 231 62 279 52 906 258 993 456 609 246 442 ... 200

25 2304 444 1504 637 433 160 348 78 1157 395 1330 381 557 286 327 ... 87

26 3830 800 2597 1497 802 236 671 163 1644 671 2679 767 1301 694 829 ... 216

27 59234 13268 41108 21549 11769 5800 11115 2138 30368 14928 41332 12807 18658 10159 10878 ... 4342

28 1557 275 1038 476 275 99 273 50 925 312 1086 308 452 214 326 ... 62

29 1616 514 1085 385 352 308 402 55 861 557 1033 216 305 431 220 ... 62

30 1809 402 1051 674 398 116 397 93 853 304 927 409 588 281 394 ... 148

31 3507 725 1928 1283 781 240 566 169 1381 666 1773 920 1248 594 512 ... 219

32 2132 484 1115 825 431 186 445 170 1313 462 879 561 788 554 466 ... 127

33 276 75 116 146 92 33 40 35 107 41 114 40 151 97 59 ... 44

34 3613 593 1716 1295 550 159 408 160 1325 486 1579 676 1091 455 537 ... 158

35 7284 1225 3899 3054 1021 537 1234 308 2929 1605 3946 2027 2151 1539 1592 ... 520

36 12232 2033 6397 5137 1658 865 2102 503 4849 2523 6658 3458 3609 2707 2693 ... 894

37 12691 2849 6200 4640 2495 1542 2584 635 4839 3465 5827 2404 2771 2946 2054 ... 512

38 13640 2677 7061 5631 2281 1247 2614 705 5590 3137 7000 3437 3637 3062 2867 ... 897

39 3467 689 2052 1244 608 267 606 97 1681 730 1987 773 1017 556 636 ... 157

40 5800 2403 5730 1910 2320 1431 2232 157 6060 2938 6400 2061 1610 975 1922 ... 258

41 472 417 365 484 343 433 359 415 314 420 352 365 434 489 425 ... 428

42 39246 37882 32031 38279 33171 41810 27475 39701 21271 43674 31827 39035 30366 45163 28006 ... 31723

43 404 301 247 367 238 468 261 332 180 397 310 377 347 430 296 ... 445

44 722 630 516 694 548 983 479 656 420 890 484 726 716 719 497 ... 1033

45 53104 51510 42584 51150 43053 59801 37052 45065 21773 60690 42835 51586 41457 57849 36306 ... 42449

(25)

15

Lanjutan lampiran 3

47 244 215 126 233 173 263 145 231 117 196 134 234 191 278 183 ... 305

48 249 251 128 184 200 214 142 239 105 175 106 158 171 213 92 ... 143

49 416 398 340 417 335 459 269 416 318 510 335 440 345 532 233 ... 385

50 368 406 295 435 333 572 329 566 251 621 312 439 407 682 323 ... 518

51 120523 51598 109922 52613 51382 27331 39758 23718 85572 51400 110962 59645 42750 29107 39486 ... 8744

52 119837 51373 109238 52400 50926 27283 39792 23502 84938 51153 110302 59291 42392 28980 39549 ... 8826

53 123131 53050 113216 53608 52432 28437 41245 24220 88191 53527 114549 60890 43370 29792 40560 ... 8969

54 104764 45976 93062 51020 43657 26311 36264 21741 70153 49465 92567 50056 41586 28851 34249 ... 8112

55 105863 44388 97349 46480 42253 24342 37788 19411 79975 46818 98880 49454 39489 24630 36999 ... 7980

56 111951 49307 105178 53660 45876 26592 40021 23491 81378 48626 105035 54895 44764 27901 40973 ... 9100

57 108542 47887 98631 50716 48435 25694 35713 23786 81137 48119 99185 56494 39857 30950 36694 ... 10194

58 6399 2577 4915 3967 2715 1371 2391 625 5166 1791 4838 2934 4270 1264 2594 ... 559

59 80889 31622 69570 37441 32630 16783 23001 15401 56245 31109 70583 39750 31857 19466 26802 ... 7450

60 2326 869 2165 1009 796 493 731 348 1839 928 2074 868 866 536 764 ... 196

61 237 67 112 121 52 31 57 36 94 60 128 75 96 70 72 ... 53

62 192 52 100 91 32 24 53 32 80 44 119 54 69 57 56 ... 33

63 301 161 213 163 146 59 152 52 123 130 197 181 114 66 129 ... 32

64 717 277 441 332 230 131 162 120 315 239 412 209 323 165 189 ... 66

65 339 102 189 178 89 33 75 40 171 77 180 120 178 79 98 ... 41

66 381 131 224 175 83 67 111 75 193 120 203 108 155 78 123 ... 43

67 213 44 102 94 33 13 41 22 95 27 110 52 93 38 62 ... 30

68 210 94 147 80 75 64 72 41 129 79 134 58 63 69 53 ... 21

69 323 79 147 155 62 40 69 41 129 59 122 95 140 78 94 ... 51

(26)

16

Lampiran 4 Hasil Normalisasi Ekstraksi ciri Jumlah

Data

Fitur Ciri

AAA AAC AAT AAG ACA ACC ACT ACG ATA ATC ATT ATG AGA AGC AGT .... GGG

1 0.2170 0.3426 0.2330 0.6463 0.3534 0.2335 0.2998 0.3068 0.2238 0.5285 0.2313 0.5942 0.5955 0.4238 0.3019 ... 0.2503 2 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 ... 0.0002

(27)

17

Lanjutan lampiran 4

23 0.0073 0.0036 0.0063 0.0071 0.0043 0.0010 0.0063 0.0004 0.0052 0.0032 0.0073 0.0032 0.0059 0.0019 0.0074 ... 0.0006

24 0.0099 0.0027 0.0088 0.0113 0.0033 0.0003 0.0054 0.0002 0.0101 0.0022 0.0085 0.0058 0.0114 0.0019 0.0085 ... 0.0014

25 0.0186 0.0054 0.0131 0.0106 0.0064 0.0010 0.0069 0.0004 0.0130 0.0035 0.0115 0.0048 0.0104 0.0022 0.0061 ... 0.0005

26 0.0310 0.0100 0.0228 0.0256 0.0121 0.0015 0.0135 0.0010 0.0185 0.0060 0.0232 0.0099 0.0249 0.0058 0.0164 ... 0.0015

27 0.4810 0.1713 0.3630 0.3755 0.1819 0.0389 0.2294 0.0153 0.3442 0.1364 0.3607 0.1686 0.3635 0.0880 0.2209 ... 0.0326

28 0.0125 0.0032 0.0090 0.0078 0.0040 0.0006 0.0053 0.0002 0.0103 0.0027 0.0093 0.0038 0.0084 0.0016 0.0061 ... 0.0003

29 0.0130 0.0063 0.0094 0.0062 0.0052 0.0020 0.0080 0.0002 0.0096 0.0050 0.0089 0.0026 0.0055 0.0035 0.0040 ... 0.0003

30 0.0146 0.0049 0.0091 0.0112 0.0059 0.0007 0.0079 0.0005 0.0095 0.0027 0.0079 0.0051 0.0110 0.0022 0.0075 ... 0.0010

31 0.0283 0.0091 0.0169 0.0219 0.0118 0.0015 0.0114 0.0011 0.0155 0.0060 0.0153 0.0119 0.0239 0.0049 0.0099 ... 0.0015

32 0.0172 0.0059 0.0097 0.0139 0.0064 0.0012 0.0089 0.0011 0.0147 0.0041 0.0075 0.0071 0.0149 0.0046 0.0090 ... 0.0008

33 0.0021 0.0007 0.0009 0.0020 0.0011 0.0001 0.0005 0.0001 0.0011 0.0002 0.0008 0.0003 0.0025 0.0006 0.0007 ... 0.0002

34 0.0292 0.0074 0.0150 0.0221 0.0082 0.0010 0.0081 0.0010 0.0149 0.0043 0.0136 0.0087 0.0208 0.0037 0.0104 ... 0.0010

35 0.0590 0.0155 0.0343 0.0528 0.0155 0.0035 0.0252 0.0021 0.0331 0.0145 0.0343 0.0265 0.0415 0.0131 0.0319 ... 0.0038

36 0.0992 0.0260 0.0564 0.0891 0.0254 0.0057 0.0431 0.0035 0.0548 0.0229 0.0580 0.0454 0.0700 0.0233 0.0543 ... 0.0066

37 0.1029 0.0365 0.0546 0.0804 0.0383 0.0103 0.0531 0.0044 0.0547 0.0316 0.0507 0.0315 0.0536 0.0253 0.0413 ... 0.0037

38 0.1107 0.0343 0.0622 0.0977 0.0350 0.0083 0.0537 0.0049 0.0632 0.0286 0.0610 0.0451 0.0705 0.0264 0.0579 ... 0.0066

39 0.0280 0.0086 0.0180 0.0212 0.0091 0.0017 0.0122 0.0005 0.0189 0.0065 0.0172 0.0099 0.0194 0.0046 0.0124 ... 0.0010

40 0.0470 0.0308 0.0505 0.0328 0.0356 0.0095 0.0458 0.0010 0.0686 0.0267 0.0557 0.0269 0.0310 0.0082 0.0386 ... 0.0018

41 0.0037 0.0051 0.0031 0.0079 0.0050 0.0028 0.0071 0.0028 0.0034 0.0037 0.0029 0.0046 0.0080 0.0040 0.0081 ... 0.0031

42 0.3186 0.4895 0.2828 0.6675 0.5131 0.2806 0.5674 0.2867 0.2411 0.3993 0.2777 0.5145 0.5918 0.3921 0.5696 ... 0.2391

43 0.0031 0.0036 0.0020 0.0059 0.0034 0.0031 0.0051 0.0022 0.0019 0.0035 0.0026 0.0047 0.0063 0.0035 0.0055 ... 0.0032

44 0.0057 0.0078 0.0044 0.0116 0.0082 0.0065 0.0096 0.0046 0.0046 0.0080 0.0041 0.0093 0.0135 0.0060 0.0096 ... 0.0076

45 0.4312 0.6658 0.3760 0.8922 0.6661 0.4014 0.7653 0.3255 0.2468 0.5549 0.3739 0.6800 0.8081 0.5023 0.7385 ... 0.3200

(28)

18

Lanjutan lampiran 4

(29)

19

RIWAYAT HIDUP

Penulis dilahirkan pada tanggal 08 Oktober 1987 di Tebing Tinggi, Serdang Bedagai Sumatera Utara. Penulis merupakan anak ke-3 dari 3 bersaudara dari pasangan Janour Sinurat, SPd dan Mika br Simbolon.

Gambar

Gambar 1  Metode Penelitian
Tabel 3 Hasil clustering dengan 5 cluster

Referensi

Dokumen terkait

Terdapat 3 responden yang mengalami penurunan nilai kenyamanan pada kelompok rendam kaki dengan selisih 5,17 dan 21 responden mengalami peningkatan kenyamanan dengan

Pendidikan inklusif di Indonesia mulai diberlakukan sejak diterbitkannya Permendiknas No 70 tahun 2009. Sedangkan di Surabaya pada tahun 2013 sudah terdapat 50 sekolah dasar

“But I don’t know, I think he’d had enough time at this point, maybe he’d figured out what was really going on.. I’m guessing the dime

Preparasi pada salah satu fauna akuatik& yaitu ra"ungan memiliki daging yang berbeda$beda dengan rendemen yang berbeda pula. Daging ra"ungan yang.. dipreparasi kelompok '

Sarana sosialisasi menjadi penting baik bagi Panitia Pelaksana Pencalonan dan Pemilihan Kepala Desa maupun bagi masyarakat Mamuya pada umumnya, tahapan-

- Perencanaan Teknis Pembangunan / Peningkatan Infrastruktur Th 2011 1 Pkt 75.000.000 - DED Kawasan Jembatan Kota Rengat 1 Pkt 75.000.000 2 Belanja Jasa Konsultansi Pengawasan..

Hasil penelitian menunjukan: Tingkat kerentanan sosial ekonomi Kabupaten Magelang Tahun 2015 terdiri dari 2 kelas yaitu kelas rendah dan kelas sedang dan faktor geografi

Dalam kemampuan yang berhubungan dengan kompetensi seorang guru dapat dijelaskan oleh (Sanjaya, 2006 : 18 ) yaitu :Pertama, kemampuan untuk menguasai