Identifikasi Ikan Tuna Dan Tenggiri Berdasarkan Sekuens Dna Barcode Dengan Menggunakan Support Vector Machine (Svm)

(1)

SUPPORT

VECTOR MACHINE

(SVM)

MULYATI

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(2)

(3)

PERNYATAAN MENGENAI TESIS DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa tesis berjudul Identifikasi Ikan Tuna

dan Tenggiri Berdasarkan Sekuens DNA

Barcode

dengan Mengggunakan

Support

Vector Machine

(SVM). Pada penelitian ini

adalah benar karya saya dengan

arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada

perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya

yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam

teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.

Bogor, September 2015

Mulyati

(4)

RINGKASAN

MULYATI. Identifikasi Ikan Tuna dan Tenggiri Berdasarkan Sekuens DNA

Barcode

dengan Menggunakan

Support Vector Machine

(SVM). Dibimbing oleh

WISNU ANANTA KUSUMA dan MALA NURILMALA.

Ikan tuna dan tenggiri merupakan salah satu produk perikanan yang banyak

diminati masyarakat dan memiliki nilai gizi yang baik bagi kesehatan. Banyak

dari produk olahan ikan tuna dan tenggiri ini telah mengalami pemalsuan,

yaitu

digantikannya kandungan produk yang memiliki nilai jual tinggi dengan

kandungan lain yang harganya lebih rendah. Untuk menjamin keamanan pangan,

pemalsuan ini harus dicegah, salah satunya dengan melakukan identifikasi

kandungan produk olahan tersebut

.

Identifikasi ini sangat penting untuk menjaga

standar kualitas pada industri makanan dan pasar.

Salah satu cara yang dilakukan untuk mengidentifikasi pemalsuan yaitu

dengan menggunakan metode berbasis DNA

barcode.

DNA

barcode

adalah

sekuen-sekuen pendek yang diambil dari bagian genom suatu makhluk hidup.

Identifikasi DNA

barcode

dilakukan dengan menggunakan pendekatan

komposisi, yaitu melakukan perhitungan jumlah frekuensi kemunculan pasangan

basa yang membentuk sekuens DNA

barcode

. Metode yang digunakan dalam

perhitungan frekuensi kemunculan pasangan basa ini adalah ekstraksi fitur

k-mers,

dengan

k

yang digunakan adalah 3-

mers

(

trinucleotide

) dan 4-

mers

(

tetranucletode

).

Hasil dari ekstraksi fitur menjadi vektor masukan untuk melakukan

identifikasi menggunakan

(SVM) dengan kernel

Radial

Basis Function

(RBF)

.

Model yang terbentuk dari hasil identifikasi dengan SVM

dianalisis dengan menghitung nilai akurasi,

sensitivity

,

specificity

dan

Fmeasure.

Berdasarkan identifikasi dengan menggunakan SVM pada sekuens DNA

barcode

ikan tuna, tenggiri dan ikan lain hasil akurasi terbaik dengan

menggunakan

tetranucletide

pada tingkat genus yaitu sebesar 99,45% dan 88%

pada tingkat spesies.

(5)

SUMMARY

MULYATI. Identification of Tuna and Mackerel Fish Based on DNA Barcode

Sequences Using Support Vector Machine (SVM). Supervised by WISNU

ANANTA KUSUMA and MALA NURILMALA

Tuna and mackerel are some of the refined products that have great demand

in the community and contain good nutrients for health. Many of the refined

products have undergone fraudulent, by replacing the content of products that

have high sales value to other lower price one. For ensuring food safety,

fraudulent should be prevented by identifying the content of refined product. This

identification is very important to ensure the quality standards of the food industry

and markets.

One of the methods to identify fraudulent is using DNA barcode. DNA

barcode could be identified by using composition based approach, which calculate

the frequencies of substring or k-mers occurrences from the DNA barcode

sequences. The

k

values used in this research were k = 3 represented trinucleotide

(3-mers) and k = 4 represented tetranucleotide (4-mers).

The results of the feature extraction were the input vector for identification

by using Support Vector Machine (SVM) with kernel Radial Basis Function

(RBF). The model was evaluated by calculating accuracy, sensitivity, specificity,

and Fmeasure.

The evaluation results showed that the best accuracy was obtained by using

tetranucleotide with the value of 99.45% and 88% for the genus level and species

level, respectively.

(6)

Hak Cipta Dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan

atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,

penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau

tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan

IPB

Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini

(7)

Tesis

Sebagai salah satu syarat untuk memperoleh gelar

Magister Komputer

pada

Program Studi Ilmu Komputer

IDENTIFIKASI IKAN TUNA DAN TENGGIRI BERDASARKAN

SEKUENS DNA

BARCODE

DENGAN MENGGUNAKAN

SUPPORT VECTOR MACHINE

(SVM)

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(8)

(9)

(10)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT atas segala

karuniaNya sehingga karya ilmiah ini berhasil diselesaikan. Penelitian ini sudah

dikerjakan dari bulan Oktober 2013 dengan judul Identifikasi Ikan Tuna dan

Tenggiri Berdasarkan Sekuens DNA

Barcode

dengan Menggunakan

Support

Vector Machine

(SVM).

Terima kasih penulis ucapkan kepada Bapak DrEng Wisnu Ananta

Kusuma, ST MT dan Ibu Mala Nurilmala, SPi MSi selaku pembimbing yang telah

banyak memberi saran. Terima kasih juga kepada Ibu Dr Imas Sukaesih

Sitanggang, SSi MKom selaku penguji.

Ungkapan terima kasih juga disampaikan kepada ayah (Alm. Benlatief), ibu

(Siti Hawa), Kakak (Nurfadhli), Abang (Anwar Sadat, Syarkawi), dan adik

(Indriani, Rahmarani, Halimatussa’diah, Cut Husnul Fitri)

serta seluruh anggota

keluarga lainnya, atas doa dan kasih sayangnya. Selain itu ucapan terima kasih

juga kepada semua dosen dan staf Departemen Ilmu Komputer yang telah

membantu selama proses penelitian. Teman-teman sepembimbingan (Arini, Kana,

Yampi, Oci, Pak Saif), teman-teman kost (Grup FATIMA: Yuyun, Fuzy, Melly)

dan teman-teman seperjuangan angkatan 15 Ilmu Komputer IPB yang selalu

bersama penulis dua tahun ini, terima kasih atas dukungannya.

Semoga karya ilmiah ini bermanfaat.

Bogor, September 2015

(11)

DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

1

PENDAHULUAN

1

Latar Belakang

1

Perumusan Masalah

3

Tujuan Penelitian

3

Manfaat Penelitian

4

Ruang Lingkup Penelitian

4

2

TINJAUAN PUSTAKA

4

DNA

Barcode

4

(SVM)

5

3

METODE PENELITIAN

7

Data Penelitian

7

Ekstraksi Fitur

6

Normalisasi Data

8

Pelatihan SVM

8

Pengujian SVM

10

Evaluasi

10

4 HASIL DAN PEMBAHASAN

11

Ekstraksi Fitur

11

Normalisasi

11

Pelatihan dan Pengujian dengan SVM

12

Evaluasi

12

Pengujian dengan menggunakan BLAST

17

Kelebihan dan Kelemahan Sistem

17

5 SIMPULAN DAN SARAN

18

Simpulan

18

Saran

18

DAFTAR PUSTAKA 18

LAMPIRAN

21

(12)

DAFTAR TABEL

1

Data DNA barcode ikan tuna, tenggiri, dan ikan lain

7

2

Model klasifikasi biner dengan 3 kelas

10

3

Confusion Matrix

10

4

Nilai parameter terbaik untuk

gamma

dan

cost

12

5

Confusion matrix untuk genus dengan fekuensi trinucleotide

12

6

Confusion matrix untuk genus dengan fekuensi tetranucleotide

13

7

Confusion matrix untuk spesies dengan fekuensi trinucleotide

13

8

Confusion matrix untuk spesies dengan fekuensi tetranucleotide

13

9

Nilai

sensitivity

pada spesies ikan tuna, tenggiri dan ikan lain

14

10

Nilai

sensitivity

pada genus tuna, tenggiri dan ikan lain

15

11

Nilai

Specificity

15

12

Nilai

specificity

pada genus ikan tuna, tenggiri dan ikan lain

15

13

Nilai

Precision

pada spesies tuna, tenggiri dan ikan lain

16

14

Nilai

Precision

16

15

Nilai

Fmeasure

16

Nilai

Fmeasure

17

Tingkat kesamaan spesies tenggiri dengan spesies tuna

17

DAFTAR GAMBAR

1

Garis Pemisah terbaik yang memiliki margin terbesar

5

2

Flowchart kerangka pemikiran penelitian

7

3

Ekstraksi ciri

k-mers

dengan

k =

3

8

4

Contoh menggunakan 10

cross validation

9

5

Pembentukan matriks komposisi menggunakan trinucloetida

11

6

Hasil normalisasi dengan

trinucleotida

12

7

Perbandingan hasil akurasi pada tingkat genus dan spesies

14

DAFTAR LAMPIRAN

1

Daftar DNA barcode ikan tuna, tenggiri dan ikan lain

yang digunakan sebagai data latih

21

2

Daftar DNA barcode ikan tuna, tenggiri dan ikan lain

(13)

1.

PENDAHULUAN

Latar Belakang

Sektor perikanan merupakan salah satu sektor penting yang harus

dikembangkan guna meningkatkan daya saing dalam persaingan global. Agar

dapat bersaing secara kompetitif dan dapat memperluas pasar ekspor, diperlukan

kemampuan untuk mewujudkan produk perikanan yang memiliki nilai gizi dan

aman dikonsumsi. Adanya perdagangan bebas antar negara-negara ASEAN yang

akan diberlakukan pada Desember 2015 mendatang akan menyebabkan

banyaknya produk yang masuk dari berbagai negara, sehingga diperlukan

kemampuan untuk melacak (

traceability

) produk agar terjamin keamanannya.

Salah satu masalah dari jaminan keamanan adalah pada pemalsuan produk.

Pemalsuan yang dilakukan berupa substitusi daging ikan dengan spesies yang

mirip namun memiliki harga jual lebih rendah (Dudu

et al

. 2010; Abdullah

et al

.

2011). Efek negatif dari substitusi ini dapat merugikan konsumen dan juga

menyebabkan resiko gangguan kesehatan manusia. Salah satu produk perikanan

yang rawan pemalsuan dan sangat diminati masyarakat adalah produk olahan

berbahan dasar ikan khususnya ikan tuna dan tenggiri.

Ikan tuna memiliki nilai ekspor kedua tertinggi setelah udang. Menurut

Ditjen Perikanan dalam Badan Riset Kelautan dan Perikanan (BRKP) pada tahun

2013, sumbangan terbesar nilai ekspor hasil perikanan Indonesia yaitu dari

komoditi udang dan tuna, tongkol, cakalang (TTC) di mana masing-masing

menyumbang senilai US$997 juta dan US$515 juta. Adapun ikan tenggiri

merupakan ikan pelagis yang hidupnya menyebar hampir di seluruh perairan

Indonesia memiliki nilai ekonomis yang tinggi, di masa mendatang diperkirakan

permintaan komoditas ini baik dalam bentuk segar maupun olahan akan terus

mengalami peningkatan. Indikator yang menunjukkan hal tersebut adalah semakin

banyaknya diversifikasi produk olahan ikan. Hal ini diakibatkan semakin

meningkatnya permintaan terhadap sumberdaya tersebut (Sobari & Febriyanto

2010).

(14)

2

dalam waktu lama, komposisi kimianya dapat terdegradasi. Seiring

berkembangnya pengetahuan tentang identifikasi, sekarang ini banyak digunakan

identifikasi berbasis DNA

barcode

. Beberapa keunggulan identifikasi berbasis

DNA

barcode

menurut Virgilio

et al

. (2012) adalah memerlukan spesimen yang

sangat sedikit atau kecil, mampu mendokumentasikan keragamaan kelompok

taksonomi yang belum dikenal atau kelompok taksonomi yang berasal dari daerah

yang belum pernah teridentifikasi, dan juga mampu mengungkapkan variasi baru

atau keragaman baru pada spesies-spesies yang sebelumnya digolongkan pada

satu spesies saja.

Metode berbasis DNA

barcode

dapat juga mendeteksi keaslian suatu produk

bahan baku dalam bentuk segar yang akan dikemas sebagai produk olahan (Civera

2003) maupun produk yang sudah mengalami pemrosesan dan pembekuan

(Filonzi

et al

. 2010). Metode ini dapat juga diterapkan pada kandungan makanan

yang berbeda (Mafra

et al

. 2008). DNA

barcode

adalah s

ekuen-sekuen pendek

yang diambil dari bagian genom suatu organisme

(Hebert

et al

. 2003). Gen yang

digunakan sebagai penanda

barcode

ikan tuna dan tenggiri adalah dari gen

pengkode protein antara lain

Cytrochrome Oxidase

1 (CO1) dan

Cytochrome b

(

cyt

b) yang merupakan fragmen mitokondria.

Identifikasi berbasis DNA

barcode

dapat dilakukan melalui dua pendekatan

yaitu berdasarkan homologi dan berdasarkan komposisi (Pati

et al

. 2011).

Pendekatan homologi yaitu melakukan pencarian penjajaran sekuens yang

membandingkan fragmen DNA dengan sekuens referensi yang terdapat dalam

basis data yang digunakan, misalnya

National Center for Biotechnology

Information

(NCBI) dan

Barcode Of Life Database

(BOLD) dan hasilnya

disimpulkan pada tiap level taksonomi. Beberapa penelitian telah dilakukan

dengan pendekatan homologi antara lain Lin

et al.

(2005). Penelitian Lin

et al

ini

dilakukan terhadap 4 spesies tuna yaitu

Thunnus albacores, Thunnus thynnus

,

Thunnus alalunga,

dan

Thunnus obesus

dengan menggunakan

polymerase Chain

Reaction

(PCR). Hasilnya didapatkan bahwa 376 bp

cytochrome

b dari

Thunnus

obesus

terdapat perbedaan yang jelas yaitu 4.25% dibandingkan dengan 3 spesies

lainnya yaitu

Thunnus albacores, Thunnus thynnus

, dan

Thunnus alalunga

.

Lowenstein

et al

. (2009) juga melakukan penelitian pada identifikasi sushi tuna.

Hasil penelitiannya menunjukkan bahwa dengan berbasis karakter dan BLAST

metode yang diusulkan mampu mengidentifikasikan tuna sampai 100%.

Pendekatan lain yang dapat dilakukan adalah berdasarkan komposisi yaitu

melakukan perhitungan frekuensi ciri yang muncul dari pasangan basa yang

membentuk sekuens DNA. Pendekatan komposisi ini tidak perlu melakukan

penjajaran pada tiap sekuens DNA sehingga waktu yang diperlukan lebih cepat.

Pengekstraksian ciri dapat dilakukan dengan menggunakan metode perhitungan

frekuensi

k-mers

. Teknik ini

telah digunakan untuk mengekstraksi fitur DNA oleh

Karlin dan Burge pada tahun 1995. Sejak saat itu teknik tersebut digunakan secara

luas dengan panjang

k

yang berbeda-beda di mana semakin besar nilai

k

maka

hasil klasifikasi semakin akurat (McHardy 2007). Hasil dari ekstraksi fitur

selanjutnya akan menjadi vektor masukan untuk melakukan klasifikasi dan

identifikasi

.

Beberapa penelitian terkait yang telah dilakukan antara lain oleh

Weitschek

et al.

(2014) dengan menggunakan klasifikasi

supervised learning

(

(SVM),

Naïve Bayes, RIPPER,

dan

C4.5). Hasil

(15)

yaitu sebesar 94.87% dibandingkan metode klasifikasi RIPPER dan C4.5. Seo

(2010) juga telah melakukan penelitian tentang klasifikasi sekuens

nucleotide

dengan menggunakan SVM, hasil yang diperoleh bahwa SVM berhasil

mengidentifikasikan lokasi pola spesifik pada spesies.

Berdasarkan latar belakang dan penelitian terkait maka dalam penelitian ini

identifikasi ikan tuna dan tenggiri berdasarkan sekuens DNA

barcode

dapat

dilakukan dengan mengunakan metode SVM sebagai

classifier

dan ekstraksi fitur

k-mers

sebagai pencirinya.

Perumusan Masalah

Ikan tuna dan tenggiri merupakan salah satu produk perikanan yang rawan

dilakukan pemalsuan baik dalam bentuk segar maupun olahan. Untuk

mengidentifikasi keaslian dari produk tersebut dapat dilakukan dengan

menggunakan beberapa cara yaitu berdasarkan ciri-ciri morfologi, komposisi

penyusun protein, dan berdasarkan DNA

barcode

. Namun identifikasi

berdasarkan ciri-ciri morfologi dan komponen penyusun protein hanya mampu

diidentifikasi pada tingkat taksonomi yang relatif tinggi dan tidak bisa

mengidentifikasi pada produk olahan maupun yang sudah mengalami pemanasan.

Oleh karena itu diperlukan suatu metode yang mampu mengidentifikasi sampai

tingkat relatif lebih rendah dan juga mampu mengidentifikasi pada produk yang

sudah diolah yaitu dengan menggunakan metode berbasis DNA

barcode

.

Identifikasi berbasis DNA

barcode

dilakukan dengan menggunakan dua

pendekatan yaitu pendekatan homologi dan pendekatan komposisi. Pendekatan

homologi memerlukan waktu yang lama karena melakukan perbandingan dan

pensejajaran pada setiap sekuens DNA. Adapun pendekatan komposisi yaitu

melakukan perhitungan frekuensi ciri yang muncul dari pasangan basa yang

membentuk sekuens DNA

barcode

dan tidak perlu melakukan pensejajaran pada

tiap sekuens DNA sehingga kompleksitas waktu yang diperlukan lebih cepat.

Perhitungan frekuensi ciri dapat dilakukan dengan menggunakan metode

perhitungan frekuensi

k-mers

, dengan

k

yang digunakan dalam penelitian ini

adalah 3

-mers

dan

4

-mers

Hasil dari pengekstraksi fitur dengan

k-mers

akan menjadi vektor masukan

untuk melakukan identifikasi. Menurut Weitschek

et al.

(2014) dan Seo (2010)

identifikasi dengan menggunakan

supervised learning

yaitu SVM memiliki

akurasi yang tinggi dan juga mampu mengidentifikasi pola spesifik pada spesies.

Oleh karena itu dalam penelitian ini identifikasi terhadap ikan tuna dan tenggiri

dilakukan dengan menggunakan metode klasifikasi

supervised learning

yaitu

(SVM).

Adapun yang menjadi permasalahan dalam penelitian ini adalah bagaimana

melakukan identifikasi dengan menggunakan SVM sebagai

classifier

dan

menggunakan ekstraksi fitur

k

-

mers

sebagai pencirinya pada sekuens DNA

barcode

ikan tuna dan tenggiri.

Tujuan Penelitian

Tujuan dari penelitian ini adalah melakukan identifikasi ikan tuna dan

tenggiri berdasarkan sekuens DNA

barcode

dengan menggunakan SVM sebagai

(16)

4

Manfaat Penelitian

Manfaat dari penelitian ini adalah memudahkan pengidentifikasian terhadap

ikan tuna dan tenggiri dalam menghindari pemalsuan dengan ikan lainnya pada

produk segar maupun olahan.

Ruang Lingkup

Ruang lingkup dari penelitian ini adalah:

1.

Sekuens DNA

barcode

ikan yang digunakan adalah ikan tuna (

Thunnus

),

tenggiri (

Scomberomorus

) dan ikan lain seperti hiu (

Carcharhinus

), eskolar

(

Lepidocybium

), kakap (

Lutjanus

), ikan sapu (

Gadus

), dan ikan cod

(

Hypostomus

) yang diambil dari

Barcode Of Life Database

(BOLD).

2.

Panjang fragmen DNA

barcode

yang digunakan bervariasi (556-974 bp).

3.

Gen yang digunakan sebagai penanda

barcode

dari gen pengkode protein

yaitu

cytochrome oxidase

1 (CO1) dan

cytochrome

b (

cyt

b).

2.

TINJAUAN PUSTAKA

DNA

Barcode

DNA

barcode

sendiri

pertama kali menarik perhatian komunitas ilmuwan

pada tahun 2003 ketika kelompok penelitian Paul Hebert di Universitas Guelph

menerbitka

n sebuah makalah berjudul “i

dentifikasi biologis melalui DNA

barcode

”.

Di dalamnya, mereka mengusulkan sistem baru identifikasi spesies dan

penemuan menggunakan bagian pendek DNA dari daerah standar genom.

M

enurut Mitchel (2008) DNA

barcode

adalah urutan DNA pendek (± 500

pasangan basa) yang dapat digunakan untuk mengidentifikasi spesies. Tujuan

dari DNA

barcode

menurut Hollingsworth (2011) secara konseptual adalah

sederhana yaitu mencari satu atau beberapa daerah DNA yang akan membedakan

antara mayoritas spesies di dunia ini, dan melakukan pengurutan DNA dari

beragam sampel untuk menghasilkan referensi perpustakaan DNA skala besar di

dunia.

DNA

barcode

yang digunakan berasal dari DNA mitokondria. DNA

mitokondria mengandung sejumlah gen penting untuk respirasi dan fungsi

lainnya. Secara fisik mtDNA ini terpisah dari DNA lainnya, sehingga relatif lebih

mudah untuk mengisolasinya (berukuran relatif kecil yaitu hanya 16.000-20.000

pasang basa) dibandingkan jika harus mengisolasi milyaran nukleotida dari genom

inti (Wallace 1982).

Gen yang banyak digunakan sebagai penanda

barcode

adalah

Cytochrome c

oxidase

1 (CO1) dan

Cytochrome

b (

cyt

b) yang merupakan enzim mitokondria.

(17)

(SVM)

SVM merupakan salah satu metode klasifikasi

supervised learning

dengan

konsep dasarnya adalah menemukan

hyperplane

(bidang pemisah) terbaik yang

dapat memisahkan data ke dalam 2 kelas dengan margin yang maksimal. Margin

adalah jarak antara garis

hyperplane

dengan anggota-anggota terdekat dari 2 kelas

(Gambar 1). SVM dapat melakukan klasifikasi data yang terpisah secara linier

(

linearly separable

) dan secara

non-

linier (

nonlinear separable

) (Burges 1998).

Menurut Osuna

et al.

(2007) suatu data yang dapat dipisahkan secara linear

disebut

linearly separable

. Misalkan himpunan

adalah dataset dan

yi

∈

{+1, -1} adalah label kelas dari data

xi

. Kondisi

linearly separable

terpenuhi

jika dapat dicari pasangan (

w, b

) sedemikian sehingga:

Gambar 1 Garis pemisah terbaik yang memiliki margin terbesar.

dengan

xi

adalah dataset

, w

adalah vektor bobot yang tegak lurus terhadap

hyperplane

(bidang normal) dan

b

adalah posisi fungsi pemisah relatif terhadap

pusat koordinat (titik asal). Bidang pemisah (

hyperplane

) terbaik adalah

hyperplane

yang terletak di tengah-tengah antara dua bidang pembatas kelas.

Untuk mendapatkan

hyperplane

terbaik dilakukan dengan memaksimalkan margin

atau jarak antara dua set objek dari kelas yang berbeda

.

Memaksimalkan nilai margin ekuivalen dengan meminimumkan nilai w. Margin

dapat dimaksimalkan dengan menggunakan fungsi optimisasi

lagrangian

seperti

berikut:

dengan

xi

adalah

support vector,

adalah jumlah

support vector

dan

xd

adalah

data yang akan diklasifikasikan.

Banyak kasus di lapangan yang penerapannya tidak dapat dipecahkan secara

linear, salah satu cara yang digunakan adalah dengan SVM

non linear.

Ide dasar

dari SVM

non linear

adalah memetakan data dari suatu bidang ke bidang yang

lebih tinggi dimensinya denga

n menggunakan fungsi kernel (Φ(x)). Data akan

dipetakan oleh fungsi Φ(x) ke ruang baru dengan dimensi lebih tinggi. Kemudian

SVM mencari

hyperplane

yang memisahkan kedua kelas secara linear di ruang

vektor yang baru tersebut. Pencarian

hyperplane

ini hanya bergantung pada

dot

(1)

(2)

(18)

6

product

dari data yang sudah dipetakan pada ruang baru yang berdimensi lebih

tinggi, Φ(

x

i).Φ(

x

d

). Perhitungan

dot product

diganti dengan fungsi

kernel.

sehingga fungsi keputusan adalah

Fungsi kernel yang umum digunakan adalah sebagai berikut:

1.

Gaussian radial basis function (RBF)

K (x

i

,x

d

) = exp (γ||x

i

-x

d

||

2

)

dengan

γ

adalah parameter RBF

2.

Polinomial kernel,

K(x

i

,y

d

) =

p

γ

merupakan parameter

slope

,

c

merupakan konstanta dan

p

merupakan

degree polynomial.

3.

Sigmoid Kernel

K(xi,xd) = tanh

γ

merupakan parameter

slope sigmoid

,

c

merupakan konstanta

.

Menurut Hsu

et al.

(2003) fungsi

kernel

yang direkomendasikan untuk diuji

pertama kali ialah fungsi kernel RBF karena memiliki performa yang sama

dengan SVM linear pada parameter tertentu dan memiliki perilaku seperti fungsi

kernel

sigmoid

dengan parameter tertentu dan rentang nilainya kecil [0,1].

Pada awalnya, SVM didesain untuk melakukan klasifikasi biner, yaitu

hanya dapat menangani data untuk dua kelas. Saat ini banyak riset yang

menggunakan lebih dari dua kelas, untuk mengembangkan SVM agar dapat

menangani kelas banyak, metode yang umum digunakan adalah

one-versus all

atau

metode one-againt-all

.

Metode ini, dibangun

k

buah model SVM biner (

k

adalah jumlah kelas). Setiap model klasifikasi ke-i dilatih dengan menggunakan

keseluruhan data, dengan label positif (kelas 1), sedangkan kelas lain sebagai label

negatif (kelas -1). Setelah dilakukan pelatihan, maka didapatkan

k

fungsi

keputusan dari

k

model tersebut. Misalkan ada data baru

x

yang diuji dengan

model ini maka

x

akan masuk ke dalam kelas yang memiliki nilai keputusan

terbesar.

Metode

multi class

lainnya yang digunakan adalah

one-versus one

atau

metode

one-againt-one

. Dengan menggunakan metode ini, dibangun

k(k-1)/2

buah model klasifikasi biner (

k

adalah jumlah kelas).

Setelah model klasifikasi

selesai dibangun, selanjutnya suatu data uji akan diklasifikasikan ke dalam kelas

yang paling banyak menang (Hsu & Lin 2002).

(5)

(6)

(7)

(4)

(19)

3.

METODE PENELITIAN

Metode pada penelitian ini terdiri atas beberapa tahapan proses, yaitu

pengumpulan data dari BOLD, melakukan ekstraksi fitur dengan perhitungan

frekuensi

k-mers

, normalisasi, pengklasifikasian dengan menggunakan SVM, dan

evaluasi. Proses penelitian digambarkan dalam bagan kerangka pemikiran yang

ditampilkan pada Gambar 2.

Gambar 2 Flowchart kerangka pemikiran penelitian

Data Penelitian

Data penelitian yang digunakan adalah DNA

barcode

ikan tuna, tenggiri

dan ikan lain (Tabel 1). DNA

barcode

ini diambil dari gen pengkode protein yaitu

Cytochrome Oxidase

1 (CO1) dan

Cytochrome

b (

cyt

b) yang merupakan fragmen

dari mitokondria. Data DNA

barcode

tersebut diperoleh dari BOLD

(

http:boldsystems.org

). BOLD adalah sebuah

workbench

informatika yang

membantu perolehan, penyimpanan, analisis dan publikasi record DNA

barcode

(Sujeevan 2007). Data DNA

barcode

ini direpresentasikan sebagai

string

dengan

formatnya berbentuk FASTA.

Tabel 1 Data Sekuens DNA

barcode

ikan tuna, tenggiri dan ikan lain

Kelas Genus Spesies

Banyaknya DNA barcode

Rata-rata panjang

DNA barcode (bp)

Keterangan

A Thunnus

T. albacares T. atlanticus T. thynnus T. alalunga T. tonggol T. orientalis

91 28 75 70 27 14

695 777 647 675 831 691

(20)

8

Kelas Genus Spesies

Banyaknya DNA barcode Rata-rata panjang DNA barcode (bp) Keterangan T. maccoyii T. obesus 16 88 752 679

B Scomberomorus

S. commerson S. niphonius S. regalis S. cavalla S. maculatus S. munroi S. brasiliensis S. semifasciatus 44 39 18 16 14 7 18 6 621 704 681 745 929 746 682 770 Tenggiri C

Carcharhinus C. limbatus C. obscures 45 38 673 669 Ikan Lain Lepidocybium L. flavobrunneum 24 699

Lutjanus L. analis L. campechanus

29 10

651 653 Gadus G. macrocephalus 45 706 Hypostomus H. plecostomus 3 658

Ekstraksi Fitur

Data latih dan data uji yang akan digunakan terlebih dahulu dilakukan

ekstraksi fitur. Metode ekstraksi fitur yang digunakan adalah perhitungan

frekuensi

k-mers

. Ekstraksi dengan frekuensi

k-mers

akan membentuk komposisi

sesuai dengan banyaknya data yang digunakan. Pola kemunculan

k

dalam sekuens

dihitung menggunakan empat basa utama (A,C,G, dan T) dipangkatkan dengan

rangkaian pasangan basa yang ingin digunakan (Pola kemunculan: 4^

k

, dengan

k

≥1)

(Kusuma 2012). Pada penelitian ini

k

yang digunakan adalah

trinucleotide

(3-mers

) dan

tetranucleotide

(4-

mers

). Ilustrasi perhitungan frekuensi pola

kemunculan dengan ekstraksi fitur

k-mers

dapat dilihat pada Gambar 3.

Gambar 3 Ekstraksi fitur

k-mers

dengan menggunakan 3

-mers

Normalisasi Data

Data yang digunakan memiliki panjang sekuens yang bervariasi sehingga

perlu dilakukan normalisasi. Normalisasi ini bertujuan untuk mendapatkan data

dengan nilai yang lebih kecil yang mewakili data asli tanpa kehilangan

karakteristik sendirinya (Han

et al

. 2012), di mana rentang nilai data yang

digunakan berkisar antara 0 dan 1. Rumus dari normalisasi yang digunakan yaitu:

A A A G A A C

dengan k = 3



3-

mers

Matrik Komposisi

(21)

Normalisasi= (nilai x) / (panjang sekuens)

dengan x adalah banyaknya frekuensi kemunculan

k-mers

.

Pelatihan SVM

Data latih yang sudah diekstraksi dan normalisasi selanjutnya dilakukan

pelatihan dengan SVM. SVM akan mencari model terbaik yang dapat

memisahkan kelas. SVM yang digunakan untuk bahasa pemrograman R tersedia

pada library e1071 (Meyer

et al.

2014). Pelatihan ini menggunakan fungsi

kernel

yaitu

Gaussian radial basis function

(RBF). Menurut Hsu

et al.

(2003) fungsi

kernel

yang direkomendasikan untuk diuji pertama kali ialah fungsi kernel RBF

karena memiliki performa yang sama dengan SVM linear pada parameter tertentu

dan memiliki perilaku seperti fungsi kernel

sigmoid

pada parameter tertentu

dengan rentang nilainya kecil yaitu [0,1].

Optimasi parameter dan pada kernel RBF menggunakan

grid search

dengan 10

fold

cross validation

(Gambar 4)

pada rentang 10

-6

-10

-1

untuk

parameter dan 10

-1

-10

2

untuk parameter .

Test Train Train Train Train Train Train Train Train Train Train Test Train Train Train Train Train Train Train Train Train Train Test Train Train Train Train Train Train Train Train Train Train Test Train Train Train Train Train Train Train Train Train Train Test Train Train Train Train Train Train Train Train Train Train Test Train Train Train Train Train Train Train Train Train Train Test Train Train Train Train Train Train Train Train Train Train Test Train Train Train Train Train Train Train Train Train Train Test Train

Train Train Train Train Train Train Train Train Train Test

Gambar 4 Contoh menggunakan 10

fold cross validation

Pada Gambar 4 di atas adalah contoh menggunakan 10

fold cross

validation

, dataset dibagi sebanyak 10

fold

dengan melakukan iterasi sejumlah 10

kali untuk data latih dan data uji. Pada iterasi pertama, subset satu menjadi data

penguji sedangkan subset lainnya menjadi data pelatih. Pada iterasi kedua, subset

kedua digunakan sebagai data penguji dan subset lainnya menjadi data pelatih,

dan seterusnya hingga seluruh subset digunakan sebagai data penguji. Untuk

mendapatkan nilai akurasi ataupun ukuran penilaian lainnya dari hasil eksperimen

yang dilakukan, dapat diperoleh dari nilai rataan dari keseluruhan eksperimen

tersebut. Keuntungan

k-fold cross validation

adalah semua data digunakan baik

untuk data uji maupun data latih. Hal ini dilakukan untuk mendapatkan nilai

akurasi ataupun ukuran penilaian lainnya dari hasil eksperimen yang dilakukan

(Han

et al

. 2012).

Pada pelatihan ini menggunakan metode

multi class

SVM yaitu

one against

one

karena menggunakan 3 kelas yaitu kelas tuna, tenggiri, dan ikan lain. Dengan

menggunakan metode tersebut, terbentuk 3 buah model klasifikasi biner (Tabel 2)

Setiap model klasifikasi dilatih pada data dari dua kelas.

Fold 8

Fold 7 Fold 9 Fold 2 Fold 3 Fold 4

Fold 1

(9)

(22)

10

Tabel 2 Model klasifikasi biner dengan 3 kelas

y1=1 y2 = -1 Hipotesis

Kelas 1 Kelas 2 f 12 (x) = (w12)x + b12 Kelas 1 Kelas 3 f 13 (x) = (w13)x + b13 Kelas 2 Kelas 3 f 23 (x) = (w23)x + b23

Jika data x dimasukkan ke dalam fungsi hasil pelatihan

f

ij

(x)=

(

w

ij

)x

+

b

ij

(i j

adalah indeks kelas) dan hasilnya

menyatakan x adalah kelas i, maka suara

untuk kelas i ditambah satu. Kelas dari

data x akan ditentukan dari jumlah suara

terbanyak. Jika terdapat dua buah kelas yang jumlah

suaranya sama, maka kelas

yang indeksnya lebih kecil dinyatakan sebagai kelas dari data tersebut (Shu & Lin

2002) .

Pengujian SVM

Model yang didapatkan dari hasil pelatihan sudah diuji dengan

menggunakan data uji yang diunduh dari BOLD dan juga dari Laboratorium

Fakultas Perikanan dan Ilmu Kelautan (FPIK) Institut Pertanian Bogor (IPB).

Pengujian dilakukan untuk mengidentifikasikan data uji ke dalam kelas ikan tuna,

tenggiri ataupun ikan lain.

Evaluasi

Berdasarkan hasil pelatihan dan pengujian SVM, didapatkan hasil yang

selanjutnya digunakan untuk mengevaluasi kinerja SVM. Pada tahap evaluasi

akan dihitung akurasi,

sensitivity, specificity

, dan

Fmeasure

berdasarkan tabel

confusion matrix

(Tabel 3). Tabel

confusion matrix

diperlukan untuk menentukan

kinerja suatu model klasifikasi (Tan

et al.

2005).

Tabel 3

Confusion matrix

Prediksi Kelas

Kelas Sebenarnya

Posittive Negative

Posittive A: True Positive B: False negative Negative C: False positive D: True negative keterangan:

True positive (TP) : jumlah data positif yang benar diklasifikasi oleh classifier. True negative (TN) : jumlah data negatif yang benar diklasifikasi oleh classifier. False positive (FP) : jumlah data negatif yang salah diklasifikasi sebagai data positif. False negative (FN): jumlah data positif yang salah diklasifikasi sebagai data negatif.

Berdasarkan tabel

confusion matrix

di atas maka akurasi,

sensitivity,

specificity

, dan

Fmeasure

dapat dihitung dengan persamaan berikut:

(10)

(13)

(11)

(14)

(23)

4.

HASIL DAN PEMBAHASAN

Penelitian ini menggunakan data sebanyak 765 sekuens DNA

barcode

yang

terbagi dalam 3 kelas, masing-masing kelas memiliki data yang tidak seimbang

yaitu 409 sekuens DNA tuna, 162 sekuens DNA tenggiri dan 194 sekuens DNA

ikan lain. Untuk data pengujian, data yang digunakan sebanyak 145 sekuens DNA

tuna yang terdiri dari 4 spesies yaitu

Thunnus alalunga

,

Thunnus albacores

,

Thunnus obesus

, dan

Thunnus thynnus.

4 sekuens DNA tenggiri dari spesies

Scomberomorus commerson

, dan 32 sekuens DNA ikan lain yang terdiri dari

spesies

Carcharhinus limbatus, Gadus macrocephalus,

dan

Hypostomus

plecostomus

.

Ekstraksi Fitur

Data sekuens DNA

barcode

ikan tuna, tenggiri dan ikan lainnya terlebih

dahulu dilakukan ekstraksi fitur dengan frekuensi

k-mers

untuk membentuk

matriks komposisi yang akan menjadi vektor masukan dalam proses identifikasi.

Frekuensi

k-mers

yang digunakan dalam penelitian ini adalah

trinucleotide

(3-mers

) dan

tetranucleotide

(4-

mers

). Banyaknya data yang diekstraksi adalah 765

sekuens DNA

barcode

untuk data latih dan 145 sekuens DNA

barcode

untuk data

uji. Matriks komposisi yang terbentuk dari data latih adalah 175 x 64 untuk

trinucleotide

dan 175 x 256 untuk

tetranucleotide

, Adapun untuk data uji matrik

komposisi yang terbentuk adalah 145 x 64 untuk

trinucletide

dan 145 x 256 untuk

tetranucleotide

. Gambar 5 adalah contoh hasil ekstraksi fitur dengan

menggunakan

trinucloetide

.

Gambar 5 Pembentukan matriks komposisi menggunakan trinucleotide

Normalisasi

Data sekuens DNA

barcode

ikan yang digunakan memiliki panjang yang

bervariasi sehingga perlu dinormalisasi. Normalisasi dilakukan dengan cara

membagi banyaknya frekuensi yang muncul dari hasil ekstraksi

k-mers

dengan

Data sekuens DNA

AAA AAC AAT … GGG

…

… … … … …

…

(24)

12

panjang data masing-masing sekuens. Contoh hasil dari normalisasi dengan

trinucleotide

ditunjukkan pada Gambar 6.

Gambar 6 Hasil normalisasi dengan

trinucleotide

Pelatihan dan Pengujian dengan SVM

Data latih (Lampiran 1) yang digunakan dalam penelitian ini adalah

sebanyak 765 sekuens DNA

barcode

ikan. Data latih ini selanjutnya dilakukan

pelatihan dengan SVM. SVM yang digunakan berupa

library

e1071 pada bahasa

Pemrograman R dengan fungsi kernel

radial basis function

(RBF) dan

C-classification

. Optimasi parameter dan pada kernel RBF menggunakan

grid

search

dengan 10

fold

cross validation

pada rentang 10

-6

–

10

-1

untuk parameter

dan 10

-1

–

10

2

untuk parameter menghasilkan parameter terbaik seperti yang

terlihat pada Tabel 4:

Tabel 4 Nilai parameter terbaik untuk

gamma

dan

cost

Parameter Trinucleotide (3-mers) Tetranucleotide (4-mers) Data 1 Data 2 Data 1 Data 2

Cost 100 100 10 100

Gamma 0.0001 0.01 0.001 0.001

Keterangan:

Data 1: Data sekuens DNA yang diambil dari BOLD (http:boldsystems.org) berdasarkan tingkat genus.

Data 2: Data sekuens DNA yang diambil dari BOLD (http:boldsystems.org) berdasarkan tingkat spesies.

Parameter terbaik yang diperoleh akan menjadi masukan pada pembentukan

model SVM. Selanjutnya model dilakukan pengujian dengan menggunakan data

uji (Lampiran 2) sebanyak 145 sekuens DNA

barcode

ikan.

Evaluasi

Penggunaan

confusion matrix

digunakan untuk mengevaluasi hasil

identifikasi pada data dengan menggunakan frekuensi

trinucleotide

dan

tetranucleotide

pada tingkat genus (Tabel 5 dan Tabel 6) maupun pada tingkat

spesies (Tabel 7 dan Tabel 8).

Tabel 5

Confusion matrix

untuk genus dengan frekuensi

trinucleotide

Kelas prediksi Kelas Sebenarnya

Tuna Tenggiri Ikan lain

Tuna 144 4 0

Tenggiri 1 0 10

ikan lain 0 0 22

Data hasil ekstraksi fitur

…

… … … … …

…

. . . … .

… … … … …

. . . … .

(25)

Tabel 6

Confusion matrix

untuk genus dengan frekuensi

tetranucleotide

Kelas prediksi Kelas Sebenarnya

Tuna Tenggiri Ikan lain

Tuna 145 1 0

Tenggiri 0 3 0

ikan lain 0 0 32

Tabel 7

Confusion matrix

untukspesies dengan frekuensi

trinucleotide

Tabel 8

Confusion matrix

untuk spesies dengan frekuensi

tetranucleotide

Berdasarkan

confusion matrix

pada Tabel 5, 6, 7 dan 8 maka akurasi yang

diperoleh untuk data dengan menggunakan frekuensi

tetranucleotide

lebih tinggi

dibandingkan frekuensi

trinucleotide

(Gambar 7). Hal ini menunjukkan bahwa

pola kemunculan

k

pada ektraksi fitur mempengaruhi akurasi, karena semakin

besar nilai

k

maka semakin banyak fitur atau ciri yang terbentuk, informasi yang

diperoleh pun semakin banyak sehingga menyebabkan akurasi tinggi. Begitu juga

untuk data yang diidentifikasi berdasarkan tingkat genus juga lebih tinggi

akurasinya dibandingkan dengan data yang diidentifikasi berdasarkan tingkat

spesies.

Kelas prediksi Kelas sebenarnya C . limb a tu s G. ma cro ce p h a lu s H. p leco sto mu s S . co mme rs o n T. a la lu n g a T. a lb a ca res T. o b esu s T. th yn n u s

C. limbatus 5 0 0 0 0 0 0 0

G. macrocephalus 0 15 0 0 0 0 0 0

H. plecostomus 0 0 1 0 0 0 0 0

S. commerson 0 0 0 2 11 0 0 0

T. alalunga 0 0 1 0 1 0 1 0

T. albacares 0 0 0 0 0 37 0 1

T. obesus 0 0 0 0 0 0 9 0

T. thynnus 0 0 0 2 0 0 5 61

Kelas prediksi Kelas sebenarnya C. li mb a tu s G. ma cro ce p h a lu s H. p lec o sto m u s S . c o mm ers o n T . a la lu n g a T . a lb a ca re s T . o b esu s T . th yn n u s

C. limbatus 5 0 0 0 0 0 0 0

G. macrocephalus 0 15 0 0 0 0 0 0

H. plecostomus 0 0 1 0 0 0 0 0

S. commerson 0 0 0 0 0 0 0 0

T. alalunga 0 0 1 1 11 0 1 0

T. albacares 0 0 0 0 0 47 0 0

T. obesus 0 0 0 0 0 0 9 0

(26)

14

Gambar 7 Perbandingan hasil akurasi pada tingkat genus dan spesies

Matriks yang digunakan untuk mengukur kemampuan SVM dalam

mengidentifikasi sekuens DNA

barcode

pada tiga kelas secara terpisah yaitu

sensitivity

dan

specificity

.

Sensitivity

adalah perbandingan ikan yang benar yang

berhasil diidentifikasi terhadap jumlah total ikan yang sebenarnya.

Specificity

menyatakan perbandingan ikan yang salah yang berhasil diidentifikasi terhadap

jumlah total ikan yang salah. Sementara nilai

precision

dan

recall

digunakan

untuk mengukur kemampuan SVM dalam mengidentifikasikan satu kelas saja,

dalam hal ini kelas ikan tuna, kelas tenggiri, atau kelas ikan lainnya saja.

Fmeasure

adalah matriks yang mengintegrasikan

precision

dan

recall

(Yen & Lee

2009). Tabel 9, 10, 11, 12, 13, 14, 15 dan 16 menunjukkan

performance

SVM

dalam mengidentifikasi data sekuens DNA untuk data ikan tuna, tenggiri dan ikan

lainnya.

Tabel 9 Nilai

sensitivity

Pada Tabel 9, nilai

sensitivity

untuk tiap spesies dengan ekstraksi fitur

menggunakan

trinucleotide

dan

tetranucleotide

. Nilai rata-rata

sensitivity

yang

diperoleh untuk

trinucleotide

adalah 0.828, yang berarti bahwa setidaknya 82.8%

spesies ikan berhasil diidentifikasi ke kelas sebenarnya. Adapun dengan

menggunakan

tetranucleotide

rata-rata nilai

sensitivity

adalah 0.89, yaitu

sebanyak 89% spesies ikan dapat diidentifikasi ke kelas sebenarnya. Namun untuk

0 10 20 30 40 50 60 70 80 90 100

Genus Spesies

Pers

e

n

ta

se

Trinucleotide (3-mers)

Tetranucleotide (4-mers)

Data Uji

Sensitivity

Trinucleotide (3-mers) Tetranucleotide (4-mers)

Carcharhinus limbatus 1.00 1.00

Gadus macrocephalus 1.00 1.00

Hypostomus plecostomus 0.50 0.50

Scomberomorus commerson 0.00 0.00

Thunnus alalunga 0.92 1.00

Thunnus albacares 0.80 1.00

Thunnus obesus 0.60 0.75

(27)

spesies

memiliki nilai

sensitivity

yang paling rendah

yaitu 0, yang berarti tidak ada satupun spesies tersebut teridentifikasi ke dalam

kelas sebenarnya, hal ini disebabkan oleh ketidakseimbangan jumlah spesies

tersebut dengan spesies lainnya.

Tabel 10 Nilai

sensitivity

Tabel 10 menunjukkan nilai

sensitivity

untuk genus tuna, tenggiri, dan

ikan lain. Nilai rata-rata

sensitivity

yang diperoleh pada ikan tuna dan ikan lain

untuk frekuensi

trinucleotide

adalah 0.84 yaitu sebanyak 84% ikan dapat

diidentifikasi ke kelas sebenarnya. Adapun pada pada tenggiri nilai

sensitivity

adalah 0, yang berarti ikan tenggiri tidak bisa diidentifikasi ke kelas sebenarnya.

Pada frekuensi

tetranucleotide

nilai rata-rata

sensitivity

yang diperoleh pada genus

ikan tuna, tenggiri dan ikan lain adalah 0.916, yang berarti 91.6% genus ikan

tersebut teridentifikasi ke dalam kelas sebenarnya.

Tabel 11 Nilai

Specificity

Pada Tabel 11, nilai

specificity

menggunakan

trinucleotide

dan

tetranucleotide

. Nilai rata-rata

specificity

yang

diperoleh untuk

trinucleotide

spesies ikan teridentifikasi ke kelas yang bukan sebenarnya. Adapun dengan

menggunakan

tetranucleotide

rata-rata nilai

specificity

adalah 0.99, yaitu

sebanyak 1% spesies ikan yang teridentifikasi ke kelas yang bukan sebenarnya.

Tabel 12 Nilai

specificity

pada genus ikan tuna, tenggiri dan ikan lain

specificity

untuk genus tuna, tenggiri, dan

ikan lain. Nilai rata-rata

specificity

yang diperoleh pada frekuensi

trinucleotide

adalah 0.93 yaitu sebanyak 7% ikan tidak mampu diidentifikasi ke kelas

sebenarnya. Adapun pada frekuensi

tetranucleotide

nilai rata-rata

specificity

yang

Data Uji

Sensitivity

Tuna 0.99 1.00

Tenggiri 0.00 0.75

Ikan Lain 0.69 1.00

Data Uji Specificity

Thunnus albacores 0.98 1.00

Thunnus thynnus 0.92 0.96

Data Uji

Specificity

Tuna 0.85 0.97

Tenggiri 0.94 1.00

(28)

16

diperoleh adalah 0.99, yang berarti hanya 1% ikan tersebut tidak mampu

teridentifikasi ke dalam kelas sebenarnya.

Tabel 13 Nilai

Precision

pada spesies tuna, tenggiri dan ikan lain

Pada Tabel 13, nilai

precision

menggunakan

trinucleotide

dan

tetranucleotide.

Nilai rata-rata

precision

yang

diperoleh untuk

trinucleotide

model dapat mengidentifikasi dengan tepat ke kelas sebenarnya. Adapun dengan

menggunakan

tetranucleotide

rata-rata nilai

precision

adalah 0.96, artinya model

dapat mengidentifikasi dengan tepat ke kelas sebenarnya sebesar 96%. Nilai

precision

terendah dimiliki oleh spesies

yaitu bernilai

0.

Tabel 14 Nilai

Precision

precision

untuk genus tuna, tenggiri, dan ikan

lain. Nilai rata-rata

precision

trinucleotide

adalah

0.985 yaitu sebanyak 98.5% model mampu mengidentifikasi ke kelas sebenarnya

pada genus ikan tuna dan ikan lain. Adapun pada tenggiri model tidak mampu

mengidentifikasi ke dalam kelas tenggiri. Pada frekuensi

tetranucleotide

nilai

rata-rata

precision

yang diperoleh adalah 0.916, yang berarti sebesar 91.6% model

mampu mengidentifikasi ke dalam kelas sebenarnya baik pada ikan tuna, tenggiri,

maupun ikan lain.

Tabel 15 Nilai

Fmeasure

Data Uji Precision

Thunnus thynnus 0.90 0.94

Data Uji

Precision

Tuna 0.97 1.00

Tenggiri 0.00 0.75

Ikan Lain 1.00 1.00

Data Uji

Fmeasure

(29)

Pada Tabel 15, nilai

Fmeasure

menggunakan

trinucleotide

dan

tetranucleotide

. Nilai rata-rata

Fmeasure

yang

diperoleh untuk

trinucleotide

model dapat mengidentifikasi dengan tepat ke kelas sebenarnya. Adapun dengan

menggunakan

tetranucleotide

rata-rata nilai

Fmeasure

adalah 0.91, artinya model

dapat mengidentifikasi dengan tepat ke kelas sebenarnya sebesar 91%. Namun

nilai

Fmeasure

paling rendah juga dimiliki oleh spesies

Scomberomorus

commerson

yaitu sebesar 0.

Tabel 16 Nilai

Fmeasure

Tabel 16 menunjukkan nilai

Fmeasure

untuk genus tuna, tenggiri, dan ikan

lain. Nilai rata-rata

specificity

trinucleotide

adalah

0.89 yaitu sebanyak 89% model mampu mengidentifikasi dengan tepat ke kelas

sebenarnya pada genus ikan tuna dan ikan lain. Adapun pada tenggiri model tidak

mampu mengidentifikasi dengan tepat ke dalam kelas tenggiri. Pada frekuensi

tetranucleotide

nilai rata-rata

Fmeasure

yang diperoleh adalah 0.95, yang berarti

sebesar 95% model mampu mengidentifikasi dengan tepat ke dalam kelas

sebenarnya baik pada ikan tuna, tenggiri, maupun ikan lain.

Pengujian dengan Menggunakan BLAST

Spesies tenggiri yaitu

Scomberomorus commerson

memiliki nilai

sensitivity

dan

Fmeasure

yang rendah dan cenderung teridentifikasi ke dalam spesies tuna,

oleh karena itu pada penelitian ini juga menggunakan aplikasi

Basic Local

Alignment Search Tools

(BLAST) untuk melihat berapa persen tingkat

similarity

spesies tenggiri dengan spesies tuna.

Tabel 17 Tingkat kesamaan spesies tenggiri dengan spesies tuna

Data uji Spesies yang diduga Similarity

Scomberomorus Commerson Thunnus Obesus 84% Thunnus Alalunga 84%

Hasil pengujian diperoleh berdasarkan Tabel 17 bahwa spesies dari

memiliki kesamaan yang tinggi dengan spesies tuna

yaitu sebesar 84%. Hal ini yang menyebabkan spesies ikan tenggiri cenderung

teridentifikasi ke dalam spesies tuna yaitu

Thunnus obesus

dan

Thunnus alalunga

.

Kelebihan dan Kelemahan Sistem

Adapun kelebihan dari sistem identifikasian dengan SVM pada penelitian

ini adalah tidak membutuhkan memori yang banyak dalam melakukan identifikasi

karena dalam melakukan pengujian

hanya menggunakan

support vector

(data yang

berada di perbatasan antar kelas) yang mempengaruhi fungsi keputusan hasil

pengujian

. SVM juga memiliki kompleksitas yang linear sehingga waktu yang

Data Uji

Fmeasure

Tuna 0.98 0.99

Tenggiri 0.00 0.86

(30)

18

diperlukan lebih efisien. Adapun kekurangan dari sistem SVM ini adalah pada

data yang tidak seimbang tidak mampu diidentifikasi dengan baik sehingga

apabila ada data uji maka akan cenderung teridentifikasi ke dalam kelas yang

mayoritas.

5.

SIMPULAN DAN SARAN

Simpulan

Berdasarkan hasil yang diperoleh dari penelitian yang telah dilakukan,

metode

klasifikasi

dengan

menggunakan

model

SVM

berhasil

mengidentifikasikan sekuens DNA

barcode

untuk spesies ikan tuna dan spesies

ikan lain dengan baik, namun untuk spesies ikan tenggiri model tidak mampu

mengidentifikasi dengan baik. Nilai akurasi yang diperoleh untuk data dengan

menggunakan frekuensi

tetranucleotide

pada tingkat genus maupun spesies lebih

tinggi dibandingkan dengan menggunakan frekuensi

trinucleotide

yaitu sebesar

99.45% untuk genus dan 88% untuk spesies. Hal ini menunjukkan bahwa pola

kemunculan

k

pada ekstraksi ciri mempengaruhi akurasi, karena semakin besar

nilai

k

semakin banyak fitur yang terbentuk sehingga nilai akurasi juga semakin

tinggi.

Saran

Data yang digunakan pada penelitian ini tidak seimbang sehingga

mempengaruhi kinerja SVM, oleh karena itu untuk penelitian selanjutnya

diperlukan suatu metode untuk menyeimbangkan data misalnya dengan

menggunakan

undersampling

ataupun

oversampling

sehingga

dapat

meningkatkan akurasi dalam proses identifikasinya.

DAFTAR PUSTAKA

Abdullah A, Nurjanah, Kurnia N. 2011. Autentikasi tuna steak komersial dengan

metode PCR-Sequencing.

Jurnal Pengolahan Hasil Perikanan Indonesia

.

16(61) : 1-7.

[BRKP] Badan Riset Kelautan dan Perikanan. 2013.

Potret dan Strategi

Pengembangan Perikanan

Tuna, Udang dan Rumput Laut

. Jakarta: Badan

Riset Kelautan dan Perikanan.

Burges JC. 1998. A Toturial on Support Vector Machines for Pattern Recognition

.

Data Mining and Knowledge Discovery.

2: 955- 974.

Civera T. 2003. Species Identication and safety of fish products

. Vet Research

Communication.

27: 481.

(31)

Filonzi L, Stefania C, Marina V, Francesco NM. 2010. Molecular barcoding

reveals mislabelling of commercial fish products in Italy.

Food Research

International.

43: 1383-1388.

Han J, Kamber M, Pei J. 2012. Data Mining: Concepts and Techniques. 3

th

ed.

New York (US): Morgan Kaufman Elsevier Academic Pr.

Hebert PDN, Cywinska A, Ball SL, Dewaard JR. 2003.

Biological identification

through DNA barcodes.

Proc. R. Soc. Lond. B

. 270: 313-321.

Hollingsworth PM. 2011. Refining the DNA barcode for land plants.

PNAS

108(49): 19451-19452.

Hsu CW, Chang CC, Lin CJ. 2003. A practical guide to support vector

classification. Department of Computer Science and Information

Engineering (TW): National Taiwan University.

Hsu

CW,

Lin

CJ. 2002. A Comparison of methods for multi-class support vector

machines

. IEEE Transactions on Neural Networks

. 13:415-425.

Karlin S, Burge C. 1995. Dinucleotide relative abundance extremes: A genomic

signature.

Trends Genet.

11: 283

–

290.

Kusuma WA, 2012. Combined approaches for improving the performance of

denovo DNA sequence assembly and metagenomic classification of shorts

fragment from next generation sequencer [disertasi]. Tokyo(JP): Tokyo

Institut Of Technology.

Lin WF, Shiau CY, Hwang DF. 2005. Identification of four

thunnus

tuna speciesc

using mitochondrial cytochrome b gene sequence and PCR-RFLP Analysis.

Journal of food and drug analysis

. 13(4): 382-387.

Lowenstein JH, Amato G, Kolokotronis SO. 2009. The real maccoyii: identifying

tuna sushi with DNA barcodes-contrasting characteristic attributes and

genetic distances

. PloS ONE

4(11): e7866.

Mafra I, Ferreira IMPVO, Oliveira MBPPO. 2008. Food authentication by

PCR-based methods

. European Food Research and Technology

. 227: 649

–

665.

Matarese AC, Spies IB, Busby MS, dan Orr JW. 2011.

Early larvae of Zesticelus

Profundorum (Family Cottidae) Identified Using DNA Barcoding

. Ichthyol

Res 58:170

–

174.

McHardy AC, Martín HG, Tsirigos A, Hugenholtz P, Rigoutsos I. 2007. Accurate

phylogonetic classification of variabel-length DNA fragments

. Nature

Methods

. 4(1):63-72. doi: 10.1038/nmeth976.

Meyer D. 2014. e1071: Misc functions of the department of statistics, TU Wien. R

package

version

1.6-3.

Tersedia

pada

http://CRAN.R-project.org/package=e1071.

Mitchell A. 2008. DNA barcoding demystified.

Australia Journal Entomol

. 47:

169-173.

Myers MJ. 2011. Molecular identification of animal speciesin food: transition

from research laboratories to the regulatory laboratories.

Veterinary Journal

.

190: 7-8.

Osuna EE, Freund R, Girosi F. 1997. Support vector machines: training and

applications.

AI Memo.

1602.

(32)

20

Seo TK. 2010. Classification of nucleotide sequences using support vector

machines.

Journal of molecular evolution

. 71(4): 250-67.

Sobari MP, Febriyanto A. 2010. Kajian Bio-teknik pemanfaatan sumberdaya ikan

tenggiri dan distribusi pemasarannya di kabupaten Bangka.

Meritex

.

1(10):15-29.

Sujeevan R, Hebert PD. 2007. Bold: the barcode of life data system.

Mol Ecol

7(3): 355-364. doi: 10.1111/j.1471-8286.2007.01678.x.

Teresita MP, Joel FG, Shadi S, Donald JB, Brian G, Mehrdad H. 2013.

Rapid and

Accurate Taxonomic Classification of insect (class insect) Cytochrome c

Oxidase Sub Unit 1 (CO1) DNA Barcode Sequences Using a Naïve Bayes

Classifier.

Departement of Biology

, 1280, Main street Hamilton, on

Canada. Doi: 10.1111/1755-0998.12240.

Virgilio M, Jordaens K, Breman F, et al. 2012. Turning DNA barcodes into an

alternative tool for identification: African fruit flies as a model (Poster).

Consortium for the Barcode of Life

(CBOL).

Wallace. 1982. Structure and evolution of organelle genomes.

J Mikrobiologi

.

46(2):208-240 .

Weitschek E, Fiscon G, Felici G. 2014. Supervised DNA barcodes species

classification: analysis, comparison, and results.

BMC Bio Data Mining

. 7:

4.doi: 10.1186/1756-0381-7-4.

(33)

Lampiran 1 Daftar DNA barcode ikan tuna, tenggiri dan ikan lain yang digunakan

sebagai data latih

Genus Jenis DNA Barcode

SAFC040-11|Thunnus albacares|COI-5P

(34)

22

Genus Jenis DNA Barcode

Thunnus SAFC037-11|Thunnus albacares|COI-5P

BCIMS047-13|Thunnus albacares|COI-5P BCIMS048-13|Thunnus albacares|COI-5P

(35)

Genus Jenis DNA Barcode Thunnus GBGC3386-07|Thunnus alalunga|COI-5P|DQ835824