PENGARUH TEKNIK SELEKSI FITUR TERHADAP
PERFORMA PENGIDENTIFIKASI
SINGLE NUCLEOTIDE
POLYMORPHISM
PADA GENOM KEDELAI
ROSSY NURHASANAH
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Pengaruh Teknik Seleksi Fitur Terhadap Performa Pengidentifikasi Single Nucleotide Polymorphism pada Genom Kedelai adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Oktober 2015
Rossy Nurhasanah
RINGKASAN
ROSSY NURHASANAH. Pengaruh Teknik Seleksi Fitur terhadap Performa Pengidentifikasi Single Nucleotide Polymorphism pada Genom Kedelai. Dibimbing oleh WISNU ANANTA KUSUMA dan AGUS BUONO.
Kedelai (Glycine max) merupakan komoditas pangan yang sangat dekat dengan masyarakat Indonesia. Data dari BPS dan Kementerian Pertanian menunjukkan bahwa produksi kedelai masih belum dapat memenuhi kebutuhan dalam negeri sehingga tingkat ketergantungan pada impor masih sangat tinggi, sementara konsumsi kedelai akan terus meningkat sejalan dengan pertumbuhan jumlah penduduk. Salah satu usaha peningkatan produksi kedelai adalah melalui pemuliaan tanaman kedelai berbasis Single Nucleotide Polymorphism atau SNP.
SNP adalah variasi DNA di antara individu pada spesies yang sama. Variasi ini diketahui dengan melihat adanya perbedaan satu buah basa nukleotida pada posisi yang sama antara DNA yang dijajarkan. Pada pemuliaan tanaman, SNP dimanfaatkan dengan mendeteksi keterkaitannya dengan sifat-sifat yang bernilai ekonomis pada berbagai tanaman pertanian. Tujuannya adalah untuk mendapatkan varietas unggul yang dapat menghasilkan panen lebih berkualitas dan lebih banyak, serta tahan terhadap berbagai kondisi lingkungan.
Tantangan utama dalam mengidentifikasi SNP adalah membedakan polimorfisme genetika yang sebenarnya dengan variasi yang disebabkan oleh error. Tantangan lainnya adalah membangun model pendeteksi SNP yang dapat mengatasi ketidakseimbangan data. Karena dari variasi DNA yang ditemukan, sebagian besarnya adalah variasi yang disebabkan karena error, dan hanya sebagian kecil saja yang benar-benar merupakan SNP.
Penelitian ini bertujuan mengidentifikasi SNP yang ada pada genom kedelai dengan menerapkan teknik seleksi fitur Feature Assesment by Sliding Threshold (FAST)dan Signal to Noise Ratio (SNR). Teknik pemilihan fitur yang merefleksikan penentuan dimensi dataset merupakan tahap pra-proses yang dilaporkan dapat dijadikan alternatif dalam mengatasi ketidakseimbangan data.
Data yang digunakan pada penelitian ini merupakan sekuens DNA genom kedelai dari beberapa jenis kedelai budidaya yang telah dijajarkan dengan sekuens DNA rujukan, dan telah diekstraksi 24 fitur statistiknya. Proses identifikasi SNP dilakukan menggunakan Support Vector Machine.
Hasil percobaan menunjukkan bahwa teknik Signal to Noise Ratio mampu menghasilkan 5 fitur yang menghasilkan performa pengidentifikasi SNP terbaik, yaitu kualitas maksimum alel minor, kualitas rata-rata alel minor, frekuensi alel minor, peluang error dan keseimbangan alel. Performa model yang dihasilkan mampu melampaui model yang menggunakan seluruh fitur yang tersedia dalam hal
sensitivity, G-Mean dan F-Measure. Selain itu, dengan menggunakan seleksi fitur dapat mengurangi waktu komputasi yang diperlukan dalam membangun model hingga 3,8 kali.
SUMMARY
ROSSY NURHASANAH. The Influences of Feature Selection Techniques on the Performance of Single Nucleotide Polymorphism (SNP) Identification Models of Soybean Genome. Supervised by WISNU ANANTA KUSUMA and AGUS BUONO.
Soybean is one of food ingredients most needed by Indonesian people as it is used in wide variety of food products. Data from Statistics Indonesia and Ministry of Agriculture show that the supply of soybean in Indonesia depends on a great extend on imports. Government of Indonesia give a serious concern to increase productivity of soybean. One of the efforts is developing technology in soybean breeding to produce good quality seeds. Single Nucleotide Polymorphisms (SNP) is molecular marker type which can be used in plant breeding.
In this study, we developed a model to identify SNP in soybean genome which can solve the imbalanced data classification problem, since the characteristics of SNP dataset is imbalanced between positive and negative class. We focus to observe the influence of feature selection technique in classifying the imbalanced SNP dataset. We used Feature Assessment by Sliding Thresholds (FAST) and Signal to Noise Ratio (SNR) as feature selection techniques. FAST assess each SNP feature by using Area under ROC Curve (AUC) approach. While SNR evaluate each feature by calculating the distance between classes.
In the results, SNR selected five most contributed features of 24 available ones. The features are maximum quality of minor allel, mean quality of minor allel, frequency of minor allel, error probability and allele balance. Identification of SNP using selected features yielded performances improvement in terms of F-Measure and G-Means. Moreover, it could reduce the computational time of identification process up to 3.8 times. Implementing the selected features in model using resampling technique also improve its effectiveness and efficiency. Based on model performance and computation efficiency, this study recommends the application of using 5 selected features followed by undersampling 1:1 to train a SNP identification model.
© Hak Cipta Milik IPB, Tahun 2015
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
Tesis
sebagai salah satu syarat untuk memperoleh gelar Magister Ilmu Komputer
pada
Program Studi Ilmu Komputer
PENGARUH TEKNIK SELEKSI FITUR TERHADAP PERFORMA
PENGIDENTIFIKASI
SINGLE NUCLEOTIDE POLYMORPHISM
PADA GENOM KEDELAI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
BOGOR 2015
Judul Tesis : Pengaruh Teknik Seleksi Fitur terhadap Performa Pengidentifikasi
Single Nucleotide Polymorphism pada Genom Kedelai Nama : Rossy Nurhasanah
NIM : G651130071
Disetujui oleh Komisi Pembimbing
Dr. Wisnu Ananta Kusuma, ST MT Ketua
Dr Ir Agus Buono, MSi MKom Anggota
Diketahui oleh
Ketua Program Studi Ilmu Komputer
Dr Wisnu Ananta Kusuma, ST MT
Dekan Sekolah Pascasarjana
Dr Ir Dahrul Syah, MScAgr
Tanggal Ujian: 8 Oktober 2015
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian ini adalah seleksi fitur dengan judul pengaruh teknik seleksi fitur terhadap performa model identifikasi single nucleotide polymorphism (SNP) pada genom kedelai.
Terima kasih penulis ucapkan kepada Bapak Dr. Wisnu Ananta Kusuma, ST MT selaku ketua komisi pembimbing dan Bapak Dr Agus Buono, MSi MKom selaku anggota komisi pembimbing dan Ibu Dr Imas Sukaesih Sitanggang, SSi MKom selaku penguji. Terima kasih juga kepada Bapak Toto Haryanto, SKom MSi selaku moderator dalam ujian tesis ini juga dosen pada perkuliahan yang telah banyak memberi masukan dan ilmu kepada penulis. Selain itu, penghargaan penulis sampaikan kepada Direktorat Jenderal Pendidikan Tinggi (DIKTI) yang telah memberikan beasiswa melalui program BPPDN Tahun 2013.
Ungkapan terima kasih juga disampaikan kepada ayah, ibu, serta suami dan putri tercinta, atas segala doa dan dukungannya selama penulis menyusun karya ilmiah ini.
Terima kasih kepada pengelola pascasarjana, seluruh dosen dan staf akademik departemen Ilmu Komputer Institut Pertanian Bogor. Terima kasih kepada teman-teman di Ilmu Komputer khususnya Lailan Sahrina Hasibuan dan Melly Br Bangun yang telah memberi masukan dan diskusi terkait topik yang diangkat dalam penelitian ini.
Akhir kata semoga karya ilmiah ini bermanfaat bagi pembaca. Kritik dan saran sangat penulis harapkan demi kesempurnaan karya ini di kemudian hari.
Bogor, Oktober 2015
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
1 PENDAHULUAN 1
Latar Belakang 1
Perumusan Masalah 3
Tujuan Penelitian 3
Manfaat Penelitian 3
Ruang Lingkup Penelitian 3
2 TINJAUAN PUSTAKA 5
Single Nucleotide Polymorphism (SNP) 5
Imbalanced Class 6
Seleksi Fitur 8
Feature Assessment by Sliding Thresholds (FAST) 9
Signal to Noise Ratio (SNR) 10
Support Vector Machine (SVM) 11
3 METODE 14
Alat Penelitian 14
Prosedur Penelitian 14
Pengumpulan data 15
Pemilihan fitur dengan FAST 17
Pemilihan fitur dengan SNR 18
Kombinasi seleksi fitur dengan teknik resampling 19
Pelatihan dan pengujian model 19
Evaluasi performa model 22
4 HASIL DAN PEMBAHASAN 25
Hasil 25
Pemilihan fitur dengan FAST 25
Pemilihan fitur dengan SNR 26
Pembahasan 27
Pengaruh teknik seleksi fitur pada pengidentifikasi SNP 27 Pengaruh kombinasi seleksi fitur dan resampling pada model
pengidentifikasi SNP 30
Pengujian model dengan dataset lain 32
5 SIMPULAN DAN SARAN 34
Simpulan 34
Saran 34
RIWAYAT HIDUP 38
DAFTAR TABEL
1. Deskripsi 24 Fitur 15
2. Skenario percobaan identifikasi SNP pada genom kedelai 20
3. Matriks Konfusi 23
4. Hasil seleksi fitur dengan teknik FAST 25
5. Hasil seleksi fitur dengan teknik SNR 26
6. Fitur-fitur terbaik yang dipilih teknik FAST dan SNR 27 7. Fitur-fitur yang digunakan pada setiap model 28 8. Perbandingan performa seluruh model dengan berbagai subset fitur 28
DAFTAR GAMBAR
1. Visualisasi kandidat SNP dari hasil penjajaran 5 2. Visualisasi kandidat SNP dari hasil penjajaran 7
3. Ilustrasi sliding threshold pada FAST 9
4. Pseudo code metode FAST 10
5. Penentuan bidang pemisah terbaik dengan margin terbesar 11
6. Prosedur penelitian 14
7. Data kandidat SNP dalam bentuk matriks 15
8. Prosedur seleksi fitur FAST 17
9. Ilustrasi kurva ROC dan Area under ROC (AUC) 18
10.Prosedur percobaan pertama 21
11.Prosedur percobaan kedua 22
12.Prosedur percobaan ketiga 22
13.Perbandingan performa model dengan berbagai subset fitur 29 14.Visualisasi kromosom 16 dengan (a) 24 fitur, (b) 5 fitur SNR. 30
(c) 5 fitur FAST
15.Performa model 5 fitur tanpa undersampling dan dengan undersampling 31 16.Performa model dengan 5 fitur dan 24 fitur diikuti undersampling 32
17.Perbandingan waktu komputasi 32
1
PENDAHULUAN
Latar Belakang
Kedelai merupakan komoditas pangan yang sangat dekat dengan masyarakat Indonesia dan menjadi salah satu target dalam pencapaian swasembada pangan. Kedelai juga merupakan bahan pangan sumber protein nabati utama bagi masyarakat dalam upaya meningkatkan kualitas SDM Indonesia. Data dari BPS dan Kementerian Pertanian menunjukkan bahwa produksi kedelai dalam negeri masih belum dapat memenuhi kebutuhan domestik sehingga tingkat ketergantungan pada impor masih sangat tinggi, sementara konsumsi kedelai akan terus meningkat sejalan dengan pertumbuhan jumlah penduduk (Bappenas 2014).
Berbagai usaha dilakukan pemerintah untuk meningkatkan produksi kedelai. Salah satunya melalui penguasaan dan pengembangan teknologi untuk menemukan varietas kedelai unggul yang sesuai dengan agroklimatik Indonesia. Ada berbagai teknik dalam pengembangan varietas unggul yang dapat dilakukan, di antaranya adalah dengan memanfaatkan Single Nucleotide Polymorphisms (SNP) sebagai marka molekuler pada pemuliaan tanaman, yaitu pada proses seleksi selama persilangan kedelai untuk mendapatkan benih kedelai unggul.
SNP adalah variasi sebuah basa tunggal DNA dalam sebuah populasi individu dari spesies yang sama (Gupta et al. 2001; Lesk 2005). Namun demikian, tidak semua variasi dalam sekuen DNA adalah SNP, karena variasi sekuen DNA juga dapat berasal dari kesalahan perakitan pada proses sequencing yang disebut
sequencing error. Maka tantangan utama dalam mengidentifikasi SNP adalah membedakan polimorfisme genetika yang sebenarnya yang selanjutnya disebut dengan SNP positif dengan variasi yang disebabkan oleh sequencing error dan
misalignment yang selanjutnya disebut dengan SNP negatif. Tantangan lainnya adalah membangun model pendeteksi SNP yang dapat mengatasi ketidakseimbangan data. Dari variasi DNA yang ditemukan, sebagian besar adalah variasi yang disebabkan karena sequencing error, dan hanya sebagian kecil saja yang benar-benar merupakan SNP.
Matukumalli et al. (2006) melakukan pendeteksian SNP berdasarkan 16 fitur dengan algoritme decision tree. Data yang digunakan berasal dari genom 6 jenis kedelai dengan rata-rata akurasi mencapai 84,8%. Pemilihan fitur yang relevan dilakukan dengan pendekatan iteratif, yaitu memilih 10 fitur yang dianggap berpengaruh pada klasifikasi SNP. Fitur-fitur tersebut kemudian dioptimasi dengan memodifikasi fitur yang sudah ada dan menambah fitur baru yang meningkatkan akurasi prediksi.
O'Fallon et al. (2013) membangun model yang disebut SNPSVM dengan menggunakan sampel exome wanita Kaukasus dari Eropa Timur yang
di-resequence dengan instrumen Illumina HiSeq 2000. Untuk memperoleh fitur yang mengarahkan pada sensitivity dan specificity yang tinggi dilakukan dengan menginisialisasi 3 fitur, selanjutnya menambahkan secara sekuensial fitur baru dan dihitung dampak fitur tersebut pada performa model. SNPSVM menggunakan 15 fitur dan mencapai akurasi 96,9%.
2
digunakan adalah data fragmen whole-genome dari penelitian Lam et al. (2010) yang dijajarkan dengan genom rujukan jenis Williams 82 pada kromosom ke-01. Hasil terbaik yang diperoleh berupa sensitivity sebesar 92,39% dan specificity
sebesar 86,63%. Namun, dari sisi precision masih diperoleh hasil yang cukup rendah yaitu sebesar 30,14%. Artinya masih banyak terdapat false positive yang isebabkan adanya ketidakseimbangan distribusi kelas.
Hasibuan et al. (2015) menggunakan data kandidat SNP yang sama dengan Istiadi et al. (2015). Data latih yang digunakan adalah kromosom ke-11, sedangkan data uji adalah kromosom ke-16. Untuk menyeimbangkan data dilakukan
undersampling. Proses klasifikasi dilakukan dengan menggunakan Support Vector Machine (SVM). Hasil terbaik yang diperoleh adalah model yang dihasilkan mampu mengidentifikasi 94% dari total SNP positif dengan precision 41%.
Teknik pemilihan fitur yang merefleksikan penentuan dimensi dataset
merupakan tahap pra-proses yang penting dan mempunyai pengaruh yang signifikan saat mengeksplorasi dataset bioinformatika (Shanab et al. 2012). Selain itu, teknik seleksi fitur dilaporkan dapat dijadikan alternatif dalam mengatasi ketidakseimbangan data (Wasikowski dan Chen 2010).
Wasikowski dan Chen (2010) melakukan perbandingan yang sistematik terhadap 3 tipe penyelesaian persoalan klasifikasi pada data yang tidak seimbang dan mengevaluasi 7 metrik seleksi fitur menggunakan data sampel kecil. Dari beberapa skenario eksperimen yang dijalankan pada data kecil tersebut, diketahui bahwa penggunaan teknik seleksi fitur Signal to Noise Ratio (SNR) tanpa proses data-sampling dan Feature Assesment by Sliding Thresholds (FAST) adalah kandidat teknik seleksi fitur terbaik khususnya pada saat memilih jumlah fitur yang sedikit.
Haury et al. (2011) membandingkan 32 metode seleksi fitur pada 4 dataset
ekspresi gen dengan karakteristik data yang tidak seimbang untuk melihat kemampuan prediksi, stabilitas dan kemampuan interpretasi yang dihasilkan dengan menggunakan 5 algoritme klasifikasi yang berbeda, yaitu nearest centroids
(NC), k-nearest neighbors (KNN), SVM, linear discriminant analysis (LDA) dan
Naive Bayes. Dari penelitian tersebut disimpulkan bahwa penggunaan seleksi fitur mempunyai pengaruh yang signifikan terhadap akurasi dan stabilitas klasifikasi.
Penelitian ini difokuskan untuk melakukan proses seleksi fitur terhadap
3 Perumusan Masalah
Tantangan dalam pengidentifikasian SNP berasal dari karakteristik data kandidat SNP yang tidak seimbang, di mana variasi basa yang disebabkan oleh
error (SNP negatif) jumlahnya sangat jauh melampaui variasi basa yang disebabkan polimorfisme yang sebenarnya (SNP positif). Teknik yang umum digunakan dalam mengatasi permasalahan ketidakseimbangan data adalah teknik resampling. Namun beberapa penelitian terkini menunjukkan bahwa pemilihan fitur juga bisa dijadikan alternatif dalam menyelesaikan ketidakseimbangan data. Pada penelitian ini dilakukan pemilihan fitur SNP dengan menggunakan dua teknik yang berbeda yaitu
Signal to Noise Ratio (SNR) dan Feature Assesment by Sliding Thresholds (FAST).
Subset fitur terbaik yang dipilih menggunakan kedua teknik tersebut masing-masing divalidasi dengan menerapkannya pada Support Vector Machine.
Performa dari setiap model dibandingkan untuk mengetahui teknik seleksi fitur terbaik serta mengetahui pengaruh seleksi fitur terhadap identifikasi SNP. Selanjutnya dilakukan pula pembandingan terhadap model pengidentifikasi SNP yang mengkombinasikan teknik seleksi fitur dengan teknik resampling.
Tujuan Penelitian
Tujuan penelitian ini adalah
1. Menemukan fitur-fitur yang paling berkontribusi dalam identifikasi SNP pada genom kedelai menggunakan teknik Signal to Noise Ratio (SNR) dan
Feature Assesment by Sliding Threshold (FAST).
2. Membandingkan performa model pengidentifikasi SNP pada genom kedelai yang menggunakan subset fitur yang dipilih oleh teknik SNR dengan model yang menggunakan fitur yang dipilih oleh teknik FAST. 3. Membandingkan performa model pengidentifikasi SNP pada genom
kedelai dengan teknik seleksi fitur dengan model pengidentifikasi SNP yang mengkombinasikan teknik seleksi fitur dengan teknik resampling.
Manfaat Penelitian
Manfaat penelitian ini adalah mengetahui fitur-fitur yang paling berkontribusi pada pengidentifikasian SNP di genom kedelai. Selain itu penelitian ini dapat mendukung proses validitas SNP yang dihasilkan sehingga dapat dimanfaatkan pada proses asosiasi SNP. Penelitian ini juga diharapkan dapat menjadi referensi untuk penelitian terkait.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini adalah
4
akan melakukan tahap klasifikasi SNP yang difokuskan pada penggunaan seleksi fitur pada praprosesnya.
5
2
TINJAUAN PUSTAKA
Single Nucleotide Polymorphism (SNP)
Deteksi dan pemanfaatan variasi genetika selalu menjadi bagian integral dari pemuliaan tanaman. Setelah ditemukannya teknologi Next Generation Sequencing
(NGS), proses resequencing pada berbagai genom tanaman menjadi lebih efisien dan ekonomis. Ratusan bahkan ribuan genom yang saling berkaitan dapat disekuen untuk menemukan keragaman genetika pada genom-genom tersebut. Sebagai dampaknya, identifikasi variasi genetika pada saat ini menjadi sangat efisien dan lebih teliti, di mana ribuan variasi dapat ditemukan dari suatu populasi yang besar (Varshney et al. 2009).
Marka molekuler berbasis DNA sangat bermanfaat untuk mengidentifikasi gen-gen yang mengendalikan sifat-sifat tanaman yang bernilai ekonomis. Salah satu marka molekuler yang paling banyak diteliti dan dimanfaatkan saat ini adalah SNP. SNP menjadi variasi genetika yang paling dominan digunakan dalam analisis genetika dan genomika. Teknologi NGS menghasilkan kuantitas reads yang banyak, namun dengan kualitas yang rendah. Hal ini menjadi tantangan tersendiri dalam pendeteksian SNP dengan menggunakan data DNA yang berasal dari hasil
sequencing NGS. Pembedaan variasi yang merupakan SNP dengan variasi yang disebabkan oleh error pada proses penjajaran atau proses base-calling menjadi salah satu tantangan utama dalam bidang bioinformatika (O’Fallon et al. 2013). Visualisasi kandidat SNP dari hasil penjajaran dapat dilihat pada Gambar 1.
Gambar 1 Visualisasi kandidat SNP dari hasil penjajaran
SNP merupakan bentuk variasi genetika yang jumlahnya paling melimpah dan merupakan dasar bagi perbedaan fenotipe yang ditemukan di antara individu (Collins et al. 1997; Jannink et al. 2010; Liao et al. 2012). Setiap individu memiliki banyak SNP yang bersama-sama membentuk sebuah pola DNA yang unik bagi individu tersebut. Pada genom manusia, ketika dua genom dibandingkan akan diperoleh informasi bahwa keduanya 99,9% identik. Namun dengan 3,2 milyar
basepair DNA, setiap orang mengandung sekitar 3,2 juta perbedaan pada genomnya yang sebagiannya merupakan SNP (Kwok & Chen 2003). Keberadaan SNP dapat diturunkan dari induk atau dapat berasal dari kesalahan replikasi DNA,
Genom rujukan
6
modifikasi kimia pada nukleotida atau kerusakan secara fisik disebabkan oleh ultraviolet atau radiasi ion (Jobling et al. 2004).
Jika SNP ditemukan di dalam sebuah gen, maka gen tersebut memiliki lebih dari satu alel sehingga keberadaan SNP tersebut dapat mengakibatkan perubahan fungsional pada DNA, RNA dan protein penyusun asam amino (Mooney 2004). Namun tidak semua SNP menyebabkan perubahan fungsional dan berdampak pada fenotipe suatu individu. Mayoritas SNP berada pada 95% wilayah genom non-coding, sehingga DNA diterjemahkan menjadi kodon yang synonymous atau mengakibatkan substitusi yang tidak menyebabkan dampak berarti pada fungsi protein (Lesk 2005).
Semenjak manfaat SNP telah dibuktikan pada banyak bidang, penelitian yang bertujuan untuk menganalisis SNP dan efeknya mendapat banyak perhatian. Sebagai penanda genetika, SNP dapat digunakan dalam mempelajari pola pewarisan kromosom dari generasi ke generasi pada berbagai spesies. Di bidang biomedis, SNP telah dibuktikan sebagai sarana yang baik dalam meneliti faktor-faktor genetika yang terkait dengan penyakit pada manusia (Kwok dan Chen. 2003). Penelitian ini dilakukan dengan mengidentifikasi SNP yang berkorelasi dengan efek tertentu pada pasien pengidap suatu penyakit. Sickle-cell anemia adalah contoh penyakit yang disebabkan oleh SNP, mutasi A menjadi T pada gen β-globin
menyebabkan perubahan pada protein Glu menjadi Val (Lesk 2005). SNP juga dapat dijadikan sebagai marka molekuler yang memberi informasi pada peneliti di bidang farmakogenetika tentang efektivitas obat dan reaksi pasien terhadap obat tertentu.
Di bidang pemuliaan tanaman, SNP telah dimanfaatkan dengan mendeteksi keterkaitannya dengan sifat-sifat yang bernilai ekonomis pada berbagai tanaman pertanian. Tujuannya adalah untuk mendapatkan varietas unggul yang dapat menghasilkan panen lebih berkualitas dan lebih banyak, serta tahan terhadap berbagai kondisi lingkungan.
Imbalanced Class
7
Gambar 2 Visualisasi kandidat SNP dari hasil penjajaran
Performa algoritme klasifikasi pada umumnya menurun jika menggunakan
dataset yang tidak seimbang, karena algoritme klasifikasi standar dirancang untuk menggeneralisasi sampel data dan menghasilkan hipotesis yang paling sederhana dan paling sesuai dengan data. Hipotesis yang dihasilkan pada dataset yang tidak seimbang biasanya mengklasifikasi hampir seluruh sampel sebagai bagian dari kelas mayoritas yaitu kelas negatif (Akbani et al. 2004). Sebagian besar algoritme klasifikasi memiliki performa yang buruk dalam mengidentifikasi data pada kelas minor. Hal ini disebabkan karena jumlah yang sangat sedikit dari sampel kelas minor, sehingga classifier cenderung mengabaikannya dan menganggapnya sebagai derau (López et al. 2013).
Hal lainnya yang perlu diperhatikan dalam persoalan data yang tidak seimbang adalah penggunaan metrik evaluasi yang umum digunakan dalam mengukur performa klasifikasi, seperti akurasi. Akurasi tidak sesuai untuk digunakan sebagai metrik pengukur performa klasifikasi pada data yang tidak seimbang, karena dapat menghasilkan kesimpulan yang bias yang menguntungkan kelas mayor.
Solusi yang umum digunakan dalam mengatasi persoalan data yang tidak seimbang adalah resampling, yaitu dengan menerapkan modifikasi pada dataset
yang tidak seimbang dengan beberapa mekanisme tertentu yang bertujuan untuk menjadikan distribusi data seimbang. Teknik resampling yang umum digunakan adalah oversampling dan undersampling. Pada dataset S, oversampling dilakukan dengan menambahkan sejumlah E data yang merupakan replikasi kelas minor (Sminor). Dengan penambahan tersebut, jumlah total data dari Sminor bertambah sebanyak E sehingga dapat memperbaiki keseimbangan distribusi kelas pada S. Sedangkan undersampling dilakukan dengan memilih sejumlah E data dari kelas mayor (Smayor) dan menghapus data-data tersebut dari S sehingga S = Sminor +
Smayor – E.
Namun kelemahan undersampling adalah berpotensial menyebabkan
classifier kehilangan konsep yang penting dalam kelas mayor. Adapun kelemahan pada oversampling adalah dengan menambahkan sejumlah tertentu replikasi data minor akan mengarahkan pada kondisi overfitting. Pada kondisi overfitting,
walaupun classifier mampu mencapai akurasi yang tinggi pada saat pelatihan, pada umumnya performa klasifikasi pada data uji adalah rendah. Selain itu, oversampling
juga menambah waktu komputasi seiring bertambahnya data latih (He & Garcia 2009).
8
peneliti dari bidang machine learning (Wasikowski & Chen 2008). Menurut Chawla et al. (2004), pemilihan fitur –fitur yang mengarahkan kepada pemisahan terjauh antara dua kelas dapat menjadi alternatif dalam mengatasi ketidakseimbangan kelas.
Seleksi Fitur
Seleksi fitur adalah proses pencarian dan pemilihan subset fitur terbaik yang digunakan untuk membedakan berbagai kelas dan dapat mengurangi kompleksitas komputasi dari algoritme klasifikasi (Ditzler et al. 2013). Seleksi fitur berbeda dengan teknik-teknik reduksi dimensi, seperti principle component analysis (PCA). PCA dapat mengurangi jumlah atribut secara signifikan tanpa kehilangan banyak informasi dari ruang atribut aslinya. Namun kelemahannya adalah kombinasi linier dari fitur-fitur aslinya tidak dapat diinterpretasi dan informasi tentang besarnya kontribusi dari setiap fitur hilang (Janecek et al. 2008).
Tujuan dari seleksi fitur adalah menemukan fitur yang berpengaruh dalam representasi data dan menghilangkan fitur yang tidak relevan sehingga menyederhanakan proses klasifikasi dan mempercepat waktu prosesnya dengan mengurangi dimensi inputnya (Omar et al. 2013). Seleksi fitur dapat meningkatkan kualitas klasifikasi dalam hal akurasi, karena ada beberapa fitur justru tidak berpengaruh terhadap klasifikasi, bahkan dalam beberapa kasus mengurangi performa dari classifier itu sendiri (Kudo & Skalansky 2000). Selain itu seleksi fitur dapat membantu para ahli untuk fokus meneliti hanya pada subset fitur yang relevan saja sehingga menghasilkan pengetahuan yang bermanfaat (Al-Shahib et al. 2005). Sebuah fitur dikatakan relevan terhadap kelas tertentu jika fitur tersebut mengandung informasi yang penting tentang kelas tersebut. Yu dan Liu (2004) mengkategorikan fitur ke dalam tiga jenis, yaitu fitur yang sangat relevan, fitur yang kurang relevan dan fitur yang tidak relevan.Fitur sangat relevanmengindikasikan bahwa fitur tersebut selalu dibutuhkan dan tidak bisa diabaikan untuk mendapatkan
subset fitur yang optimal. Fitur yang kurang relevan adalah fitur yang tidak selalu dibutuhkan, tetapi akan diperlukan untuk mencapai subset fitur yang optimal dalam kondisi tertentu. Adapun fitur yang tidak relevan adalah fitur yang tidak penting dan tidak dibutuhkan. Subset fitur dikatakan optimal jika mengandung semua fitur sangat relevan, sebagian fitur yang kurang relevandan tidak mengandung fitur yang tidak relevan.
Jika asumsi jumlah subset fitur yang akan digunakan adalah p, dan jumlah keseluruhan fitur adalah m, dengan p ≤ m, untuk mendapatkan subset terbaik yang menghasilkan model yang sesuai dengan data, akan ada kombinasi kemungkinan sebanyak !
�! −� ! . Misalnya jika terdapat 20 fitur dan subset fitur yang diinginkan
9 seleksi fitur hanya dilakukan sekali, setelah itu subset fitur yang dihasilkan dapat digunakan pada beberapa classifier yang berbeda. Namun kelemahannya adalah metode ini mengabaikan keterkaitan antara fitur dan tidak memperhitungkan interaksi antara fitur dengan classifier. Metode wrapper menanamkan seleksi fitur pada algoritme klasifikasi. Penyeleksian fitur dimulai dengan mendefinisikan sebuah prosedur pencarian dan dibangkitkan beberapa subset fitur untuk dievaluasi. Evaluasi terhadap subset fitur dilakukan dengan melatih dan mengujinya pada algortime klasifikasi. Metode ini melibatkan interaksi dengan classifer dan memperhitungkan keterkaitan antara fitur. Namun kelemahannya adalah metode ini berpotensi mengarahkan pada kondisi overfitting dan fitur-fitur yang dihasilkan bergantung pada algoritme klasifikasi yang digunakan. Jika metode seleksi fitur tersebut diterapkan pada classifier yang berbeda maka akan dihasilkan subset fitur yang berbeda pula.Selain itu, metode ini membutuhkan biaya yang besar jika harus membangun classifier yang membutuhkan komputasi tinggi.
Feature Assessment by Sliding Thresholds (FAST)
Teknik Feature Assessment by Sliding Thresholds (FAST) diperkenalkan oleh Wasikowski dan Chen (2008). Kumar dan Bell (2012) melakukan evaluasi empat teknik seleksi fitur, yaitu Pearson Correlation Coefficient (PCC), Signal-to-Noise Ratio (SNR), Feature Assessment by Sliding Threshold (FAST)dan Feature Assessment by Information Retrieval (FAIR). Subset fitur yang dihasilkan keempat teknik tersebut divalidasi dengan Support Vector Machine (SVM) menggunakan berbagai dataset kanker dari NCBI. Dari analisis statistik yang dilakukan menunjukkan bahwa FAST adalah teknik yang memberi hasil lebih baik dari teknik seleksi fitur lainnya khususnya dalam menggunakan data yang tidak seimbang.
Teknik FAST melakukan pengujian terhadap setiap fitur dengan mengklasifikasi seluruh data tidak hanya menggunakan satu nilai tengah dari data, namun menggunakan beberapa garis pembatas yang selanjutnya disebut threshold.
Beberapa threshold tersebut diperoleh dengan membagi data ke dalam k bagian (split). Selanjutnya nilai tengah dari setiap split digunakan sebagai sliding threshold.
Ilustrasi sliding threshold dapat dilihat pada Gambar 3.
10
Nilai-nilai fitur diklasifikasi menggunakan beberapa sliding threshold. Untuk setiap fitur dihitung performa klasifikasi pada setiap threshold berdasarkan matriks konfusi. Dari matriks konfusi dapat dihitung nilai True Positive Rate (TPR) dan
False Positive Rate (FPR) pada setiap threshold. Selanjutnya dapat dibangun sebuah kurva Receiver Operating Characteristic (ROC) dengan menggunakan FPR sebagai sumbu x danTPR sebagai sumbu y. Dari kurva ROC yang dihasilkan dapat dihitung nilai Area under ROC Curve (AUC), dengan menghitung luas area di bawah kurva ROC. AUC adalah prediktor yang kuat, khususnya untuk persoalan klasifikasi data yang tidak seimbang. Berdasarkan nilai AUC pada setiap fitur, dipilih fitur dengan skor AUC tertinggi yang berarti memiliki kemampuan terbaik dalam memprediksi dataset.
Skor AUC yang dihasilkan berkisar antara 0,5 dan 1. Jika sebuah fitur tidak relevan dengan klasifikasi, skornya akan mendekati 0,5, namun jika sebuah fitur terindikasi memiliki relevansi yang tinggi terhadap klasifikasi maka skornya akan mendekati 1. Secara umum Wasikowski dan Chen (2008) mendeskripsikan algoritme FAST dalam pseudo code pada Gambar 4.
Gambar 4 Pseudo code metode FAST Signal to Noise Ratio (SNR)
Signal to noise ratio (SNR) awalnya merupakan sebuah konsep dalam bidang teknik elektro. SNR didefinisikan sebagai rasio kekuatan sinyal yang diteliti dibandingkan dengan kekuatan derau (noise) yang ada pada sinyal. SNR sebagai koefisien korelasi membandingkan rasio perbedaan antara rata-rata dua kelas dengan jumlah standar deviasi kedua kelas tersebut. Pada suatu fitur, jika rata-rata dua kelas pada fitur tersebut berbeda jauh, maka kesempatan suatu sampel untuk salah dikelaskan akan semakin kecil. Sebaliknya, jika nilai rata-rata kelas pada suatu fitur hanya sedikit berbeda, maka kemungkinan suatu sampel untuk salah dikelaskan akan semakin besar.
Masih sedikit penelitian yang menggunakan teknik ini sebagai metrik penyeleksi fitur. Beberapa peneliti yang menggunakan teknik SNR, di antaranya adalah Golub et al. (1999) yang mengimplementasikan SNR pada klasifikasi leukemia dalam menghitung korelasi antara gen dengan pembedaan kelas. SNR merefleksikan perbedaan antara kedua kelas relatif terhadap standar deviasi kedua
K: number of bins
N: number of samples in dataset
M: number of features in dataset
Split = 0 to N with a step size N/K For i = 1 to M
X is a vector of samples’ values for feature i
Sort X
For j = 1 to K
Bottom = round(Split(j))+1 top = round(Split(j+1)) Mu = mean(X(bottom to top)) Classify X using Mu as threshold tpr(i, j) = tp/# positive
fpr(i, j) = fp/# negative
11 kelas tersebut. Semakin besar nilai SNR yang diperoleh mengindikasikan korelasi yang kuat antara fitur tersebut dengan kemampuannya dalam membedakan kelas. Atau dengan kata lain fitur dengan nilai SNR yang tinggi merupakan fitur yang informatif dan dapat dipilih untuk proses klasifikasi (Gunavathi dan Premalatha 2014).
Mishra dan Sahu (2011) menggunakan SNR sebagai penyeleksi fitur dalam klasifikasi kanker menggunakan dataset Leukimia. Gen-gen pada data microarray
diklasterkan menggunakan teknik k-means clustering kemudian SNR digunakan untuk memperoleh fitur-fitur dengan ranking tertinggi dari setiap klaster. Fitur yang diperoleh tersebut divalidasi dengan pengklasifikasi SVM dan k-NN.
Support Vector Machine (SVM)
Support Vector Machine (SVM) merupakan teknik classifier yang relatif baru dibandingkan dengan teknik lainnya, namun dikenal memiliki performa yang lebih baik di berbagai bidang aplikasi seperti bioinformatika, pengenalan tulisan tangan, klasifikasi teks dan lain sebagainya. SVM adalah teknik klasifikasi yang berasal dari teori statistika (Xuegong 2000). Klasifikasi diterjemahkan sebagai usaha menemukan garis hyperplane yang memisahkan antara kedua kelas. Tujuan dari teknik SVM adalah menemukan hyperplane pemisah dengan margin yang maksimum, harapannya adalah dengan margin yang besar dapat diperoleh generalisasi classsifier yang lebih baik (Duda et al. 2000).
SVM memiliki karakter yang tidak dimiliki oleh classifier lainnya dalam hal menentukan hyperplane terbaik yang memisahkan kelas sejauh mungkin, yaitu berdasarkan titik yang terdekat dengan hyperplane yang disebut support vector
(Cortes dan Vapnik 1995). Gambar 5 menunjukkan pemisahan vektor data latih menggunakan SVM.
Gambar 5 Penentuan bidang pemisah terbaik dengan margin terbesar
Hyperplane yang optimal diperoleh dengan memaksimumkan margin.
Margin adalah dua kali jarak antara hyperplane dengan support vector. Hyperplane
dinyatakan oleh persamaan .w + = 0, dengan adalah vektor bobot dan adalah
bias. Nilai margin di antara kelas adalah
|�| dan dapat dimaksimumkan dengan
menghitung
12
dengan kendala
. + ≥
Optimasi hyperplane dapat diselesaikan menggunakan metode Lagrange. Persamaan 2.1 ditulis kembali ke dalam persamaan Lagrange dengan ��sebagai variabel Lagrange, menjadi
� , , � = || || − ∑ � [ . + − ] . =
Penyelesaian untuk fungsi optimasi tersebut adalah meminimumkan � terhadap dan dan memaksimumkan (Cortes & Vapnik 1995). Pada titik
Persamaan (2.3) dan (2.4) disubstitusi ke dalam persamaan (2.2) diperoleh
max ∑ � − ∑ ∑ � � diperoleh dari persamaan . + = , dengan i adalah indeks support vector. Metode SVM bukan hanya dapat menyelesaikan masalah klasifikasi secara linear namun juga dapat menyelesaikan masalah klasifikasi non linear dengan memasukkan konsep kernel pada ruang data berdimensi tinggi. SVM memberikan konsep baru bahwa data latih yang tidak dapat dipisahkan secara linear perlu diberikan toleransi kesalahan klasifikasi untuk mendapatkan hyperplane yang optimal (Cortes & Vapnik 1995). Variabel ξ� merupakan variabel slack yang merupakan nilai deviasi vektor data latih terhadap margin, nilai ξ�≥ 0 (Alpaydin 2010). Konsep ini dikenal dengan soft margin hyperplane. Nilai margin yang optimal di antara kelas dengan penambahan slack variabel ξ dihitung dengan
� || || + � ∑ = � (2.7)
13 komputasi akan meningkat karena terdapat lebih banyak support vector yang digunakan untuk mencari hyperplane terbaik (Lin et al. 2008).
Fungsi kernel SVM terdiri dari beberapa jenis di antaranya kernel Radial Basis Function (RBF), kernel Linear, dan kernel Polinomial. RBF merupakan fungsi kernel yang umum digunakan karena dapat memetakan data ke dimensi baru yang lebih tinggi, tidak seperti fungsi linear. RBF juga memiliki parameter yang lebih sedikit dibandingkan dengan fungsi polinomial. Fungsi kernel RBF dinyatakan dengan
( , ) = exp(−�|| − || ) , � > .
Parameter � merupakan parameter bebas yang menyatakan pengaruh data latih terhadap hyperplane.
Menurut Tang et al (2002), SVM lebih handal dalam mengatasi persoalan data yang tidak seimbang dibandingkan dengan classifier lainnya. Alasannya, karena SVM hanya menggunakan support vector (SV)dalam membangun model, dan mayoritas sampel lainnya selain SV yang jauh dari garis pembatas dapat diabaikan tanpa mengganggu performa klasifikasi. SVM diharapkan tidak terpengaruh dengan sampel negatif yang posisinya jauh dari garis pembatas walaupun jumlah sampel negatif tersebut sangat besar. Namun performa SVM dapat mengalami penurunan dan sensitif terhadap data yang sangat tidak seimbang di mana jumlah sampel negatif jauh melampaui jumlah sampel positif, sehingga banyak dilakukan penelitian untuk memperbaiki performa klasifikasi SVM pada data yang tidak seimbang. SVM juga membutuhkan waktu yang lebih lama pada dimensi dataset yang besar. Dengan menggunakan teknik seleksi fitur untuk memilih subset fitur terbaik, diharapkan dapat mengurangi dimensi dataset dan mengurangi waktu komputasi yang diperlukan oleh SVM dalam melakukan identifikasi SNP.
14
3
METODE
Alat Penelitian
Alat yang digunakan pada penelitian ini merupakan perangkat keras komputer yang memiliki spesifikasi processor Intel core i3 3.0 GHz dengan RAM 6GB. Perangkat lunak yang digunakan adalah Python versi 3.4.3 dan R versi 3.2.2.
Prosedur Penelitian
Prosedur yang dilakukan pada penelitian ini terdiri atas beberapa tahapan yaitu pengumpulan data, penentuan fitur-fitur yang digunakan, normalisasi data, pemilihan fitur menggunakan FAST, pemilihan fitur menggunakan SNR, kombinasi seleksi fitur dengan teknik resampling, pelatihan dan pengujian model, evaluasi performa model dan pembuatan laporan. Gambar 6 menunjukkan prosedur penelitian yang dilakukan.
Mulai
Pengumpulan data
Normalisasi data
Pemilihan fitur dengan FAST
Pemilihan fitur dengan SNR
Subset fitur terbaik FAST
Subset Fitur terbaik SNR
Validasi subset fitur terbaik
Subset Fitur terbaik
Teknik Resampling Pelatihan &
pengujian model dengan Support Vector Machine
Evaluasi performa model
Selesai
15 Pengumpulan data
Genom yang menjadi rujukan model pengidentifiksi SNP ini adalah genom kedelai varietas Williams 82 yang disekuen menggunakan mesin sequencer ABI 3730XL. Dari 955.1 Mb basa hasil sequencing, sebanyak 937.3 Mb berhasil dipetakan ke dalam 20 kromosom. Data yang digunakan pada penelitian ini adalah data kandidat SNP genom kedelai hasil penelitian Lam et al. (2010). Keseluruhan data kandidat SNP kedelai berjumlah 39.723.269 kandidat, yang terdiri dari 36.631.026 SNP negatif dan 2.823.602 SNP positif. Nilai setiap fitur SNP diekstrak menggunakan library SNPSVM (O’Fallon et al.. 2013) yang telah dimodifikasi sesuai kebutuhan oleh Istiadi et al. (2015).
Data kandidat SNP dinyatakan dalam matriks berukuran m baris dan n kolom, yang merepresentasikan m baris jumlah kandidat SNP dan kolom nilai fitur dan kelas kandidat SNP (kolom ke-1 hingga kolom ke-( −1) adalah fitur, kolom ke-n
adalah kelas). Gambar 7 menunjukkan beberapa contoh kandidat SNP dalam bentuk matriks.
Gambar 7 Data kandidat SNP dalam bentuk matriks
Seluruh nilai fitur yang digunakan adalah numerik bertipe bilangan real. Hasibuan et al. (2015) mendeskripsikan 24 jenis fitur yang digunakan pada penelitian ini seperti tersaji pada Tabel 1.
Tabel 1 Deskripsi 24 Fitur
Nama fitur Deskripsi
#1 Tipe variasi Transisi, variasi basa antara purin saja (A ↔ G)
atau pirimidin saja (C ↔ T). Transversi, variasi basa antara purin dan pirimidin. Nilai fitur transisi diubah menjadi 0, sedangkan nilai fitur transversi diubah menjadi 1.
#2 Kualitas maksimum alel mayor
Alel mayor adalah alel yang paling sering muncul, alel minor adalah alel kedua yang paling sering muncul. Fitur ini menyatakan kualitas maksimum alel mayor dan kualitas maksimum alel minor pada posisi kandidat SNP.
#3 Kualitas maksimum alel minor
#4 Kualitas rata-rata alel mayor Rata-rata kualitas alel mayor dan rata-rata kualitas alel minor pada posisi kandidat SNP
16
Nama fitur Deskripsi
#6 Frekuensi alel mayor Banyaknya kemunculan alel mayor dan banyaknya kemunculan alel minor dibagi kedalaman penjajaran pada posisi kandidat SNP #7 Frekuensi alel minor
#8 Jarak relative Jarak relatif kandidat SNP ke ujung fragmen terdekat dibagi dengan panjang fragmen.
#9 Rata-rata kualitas basa Rata-rata kualitas basa pasa posisi kandidat SNP
#10 Kedalaman penjajaran Banyaknya fragmen yang dijajarkan pada posisi kandidat SNP
#11 Kualitas pemetaan rata-rata Kualitas pemetaan rata-rata
#12 Peluang error Fragmen-fragmen yang mengandung kandidat SNP dianggap memiliki distribusi binomial. Fitur ini menghitung peluang kandidat SNP adalah homozigot, heterozigot dan error
#13 Perulangan dinukleotida (kiri) Banyaknya perulangan dinukleotida pada sebelah kiri dan kanan genom rujukan di posisi sekitar kandidat SNP
#14 Perulangan dinukleotida (kanan)
#15 Area mismatch Rata-rata jumlah kandidat SNP pada setiap fragmen yang dijajarkan pada posisi kandidat SNP
#16 Panjang homopolimer (kiri) Banyaknya homopolimer di kiri dan kanan posisi kandidat SNP pada genom rujukan
#17 Panjang homopolimer (kanan)
#18 Keragaman nukleotida Deviasi basa nukleotida pada genom rujukan pada daerah 10 bp kanan dan kiri kandidat SNP #19 Total mismatch pada rujukan Jumlah variasi basa pada fragmen yang memiliki
kandidat SNP dan jumlah variasi basa pada fragmen yang sama terhadap genom rujukan pada posisi kandidat SNP
#20 Total mismatch pada fragmen
#21 Keseimbangan alel Perbandingan antara fragmen yang mengandung variasi basa dan kedalaman penjajaran pada posisi kandidat SNP
#22 Rata-rata kualitas basa terdekat
Rata-rata kualitas basa yang mengapit posisi kandidat SNP pada fragmen
#23 Jarak terdekat dengan SNP
lain (kiri) Jarak antara kandidat SNP ke kandidat SNP terdekat lainnya pada posisi kiri dan kanan. #24 Jarak terdekat dengan SNP
lain (kanan)
17
d'= [d - � �]*[new_maxa- new_min�]
max�- min� + new_min�
Pada penelitian ini, normalisasi memetakan nilai d menjadi d’dalam rentang [0,1], sehingga nilai new_minaadalah 0 dan new_maxaadalah 1. Sehingga persamaan normalisasi sebelumnya disederhanakan menjadi persamaan (3.1).
d'= maxd- mina
a- mina (3.1) Pemilihan fitur dengan FAST
Pada penelitian ini setiap fitur dianalisis dengan teknik FAST yang dikenalkan oleh Wasikowski dan Chen (2010). Prosedur analisis setiap fitur menggunakan teknik FAST secara umum dijelaskan pada Gambar 8.
Sor ting value
Gambar 8 Prosedur seleksi fitur FAST
Pada setiap fitur, X adalah nilai sampel pada fitur ke-i. Untuk setiap fitur dilakukan pengurutan X dari nilai yang paling rendah ke nilai yang paling tinggi (ascending). Nilai yang telah diurutkan dibagi menjadi K bagian (split). Pembagian ini bertujuan untuk mendapatkan titik-titik yang akan dijadikan sliding threshold.
Titik threshold ditentukan dengan menghitung nilai rata-rata dalam setiap rentang
split. Jumlah threshold yang dihasilkan adalah sebanyak K titik yang akan digunakan sebagai garis pembatas dalam melakukan analisis. Pada metode FAST digunakan istilah sliding threshold karena klasifikasinya tidak hanya dalam satu titik tengah dari data, namun bergeser pada beberapa threshold yang merupakan titik tengah dari beberapa bagian data.
18
dihitung nilai True Positive Rate (TPR) dan False Positive Rate (FPR) dengan formulasi berikut.
TPR= TPTP+FN (3.2)
FPR= FPFP+TN (3.3)
Pada setiap fitur akan dihasilkan sejumlah k TPR dan k FPR. Dari nilai TPR dan FPR yang dihasilkan dapat dibangun sebuah kurva Receiver Operating Characteristic (ROC). Hasil analisis yang dihasilkan setiap threshold
direpresentasikan dengan sebuah titik di ruang ROC pada koordinat (FPR, TPR). Kemudian dihitung nilai Area under ROC Curve (AUC) dengan menghitung luas area di bawah kurva ROC. Jika luas AUC suatu fitur lebih luas dibandingkan fitur lainnya menunjukkan bahwa fitur tersebut lebih besar kontribusinya dalam klasifikasi. Ilustrasi kurva ROC adalah seperti pada Gambar 9.
Gambar 9 Ilustrasi kurva ROC dan Area under ROC (AUC)
Fitur-fitur SNP kedelai berjumlah 24 fitur. Setiap nilai fitur pada setiap kromosom dianalisis dengan teknik FAST. Pada 20 kromosom kedelai diperoleh 20 kurva ROC dan 20 nilai AUC. Selanjutnya dihitung nilai AUC rata-rata untuk setiap fitur. Fitur dengan rata-rata AUC tertinggi dipilih untuk digunakan dalam tahap klasifikasi dengan SVM.
Pemilihan fitur dengan SNR
Teknik SNR memilih fitur yang memiliki perbedaan maksimum pada nilai rata-rata antara dua kelas dan variasi minimum pada kedua kelas. Nilai SNR yang tinggi mengarahkan pada fitur-fitur yang berpengaruh pada klasifikasi. Adapun fitur dengan nilai SNR yang rendah atau cenderung mendekati 0 merepresentasikan bahwa fitur-fitur tersebut tidak berpengaruh pada klasifikasi (Verikas dan Bacauskiene 2002). Nilai SNR dapat dihitung dengan persamaan (3.4)
19 Pada persamaan (3.4),
μ
1 adalah rata-rata nilai fitur pada kelas SNP positif,μ
2adalah rata-rata nilai fitur pada kelas SNP negatif.
σ
1 adalah standar deviasi nilaifitur pada kelas SNP positif,
σ
2 adalah standar deviasi nilai fitur pada kelas SNPnegatif.
Pada penelitian ini, 24 fitur SNP dianalisis dengan teknik SNR. Dataset
yang digunakan adalah 20 kromosom kedelai. Fitur dengan nilai SNR tertinggi dipilih untuk digunakan pada proses klasifikasi berikutnya.
Kombinasi seleksi fitur dengan teknik resampling
Al-Shahib et al. (2005) melakukan sebuah studi tentang hubungan antara seleksi fitur dan penyeimbangan data (resampling) dalam mengatasi persoalan ketidakseimbangan kelas dalam memprediksi fungsi protein. Penelitian tersebut menyimpulkan bahwa dengan menerapkan teknik seleksi fitur diikuti dengan
undersampling pada kelas mayor dapat meningkatkan performa SVM menjadi jauh lebih baik.
Selain menerapkan teknik seleksi fitur, pada penelitian ini juga menerapkan kombinasi antara seleksi fitur dan teknik resampling. Tujuannya adalah untuk melihat pengaruh kedua teknik tersebut dalam proses identifikasi SNP. Ada dua teknik yang umum digunakan dalam resampling yaitu undersampling dan
oversampling. Pada penelitian ini tidak melakukan oversampling. Alasannya, karena dengan menerapkan teknik oversampling cenderung menghasilkan model yang overfit dan menambah waktu komputasi yang diperlukan dalam membangun model (Al-Shahib et al. 2005).
Menurut penelitian yang dilakukan Hasibuan et al. (2015), berdasarkan uji Tukey pada taraf 5% untuk nilai metrik � �� � � tidak terdapat perbedaan yang nyata antara model pengidentifikasi SNP yang dilatih menggunakan data latih hasil
undersampling 1:1, undersampling 1:2 dan oversampling. Berdasarkan efisiensi komputasi, teknik penyeimbangan data terbaik adalah undersampling 1:1. Teknik ini menghasilkan data latih yang jumlahnya paling sedikit di antara teknik lainnya dan mampu menghasilkan model dengan nilai metrik � �� � � yang tinggi.
Teknik resampling yang digunakan pada penelitian ini adalah undersampling
seperti yang telah dilakukan oleh Hasibuan et al. (2015). Undersampling pada data kelas mayor dengan rasio 1:1 dilakukan dengan mengelompokkan dataset menjadi 10 kelompok menggunakan prinsip clustering K-means. Dari setiap kelompok dipilih n SNP negatif secara acak sejumlah data pada cluster ke-i dikali dengan perbandingan jumlah data pada kelas mayor dan kelas minor. Data kelas mayor yang tepilih dan seluruh data kelas minor menjadi set data latih.
Pelatihan dan pengujian model
Classifier adalah sebuah fungsi yang memetakan sebuah sampel yang tidak berlabel pada label tertentu menggunakan algoritme tertentu (Kohavi et al. 1995). Untuk memvalidasi model, data kandidat SNP dibagi menjadi data latih dan data uji dengan teknik k-fold cross validation. DatasetD dibagi menjadi k bagian (fold)
yaitu D1, D2, ... Dk dengan jumlah data yang sama, kemudian classifier dilatih sebanyak k kali. Untuk setiap t
ϵ
{1, 2, …, k}, model dilatih menggunakan data20
cross validation. Menurut Kohavi (1995), 10-fold cross validation adalah teknik yang unggul dalam memilih modelterbaik dari beberapa pilihan model model.
Seluruh model pengidentifikasi SNP pada penelitian ini dibangun menggunakan LIBSVM e1071 dengan C-classification (Meyer et al. 2014) pada bahasa pemrograman R (R core team 2013) dengan menggunakan kernel RBF (Radial Basis Function). Fungsi kernel yang digunakan adalah RBF (Radial Basis Function). Optimasi parameter � dan � menggunakan grid search pada rentang 2-8
– 24 untuk parameter � dan 2-4– 26 untuk parameter �. Untuk setiap kombinasi C
dan �, performa model pengidentifikasi SNP yang digunakan merupakan nilai rata-rata dari performa 10 model hasil 10-fold cross validation.
Pada penelitian ini dibangun beberapa model pengidentifikasi SNP untuk empat jenis rancangan percobaan. Beberapa skenario percobaan yang dilakukan tersaji pada Tabel 2 berikut.
Tabel 2 Skenario percobaan identifikasi SNP pada genom kedelai
Percobaan Tujuan Data Jumlah
21 5 fitur terbaik menurut FAST dan SNR sehingga menghasilkan 6 model pengidentifikasi SNP. Percobaan ini menggunakan data 1% kandidat SNP pada kromosom 16. Seluruh model yang dilatih menggunakan fitur terseleksi. Selanjutnya dibandingkan performa model-model tersebut dengan model yang dilatih menggunakan seluruh fitur. Percobaan ini juga bertujuan untuk membandingkan dua teknik seleksi fitur yang digunakan, yaitu FAST dan SNR. Teknik seleksi fitur yang terbaik adalah teknik yang mampu menemukan subset
fitur yang menghasilkan performa model terbaik. Alur dari percobaan pertama dapat dilihat pada Gambar 10.
Teknik
Gambar 10 Prosedur percobaan pertama
Percobaan kedua bertujuan untuk mengetahui pengaruh teknik seleksi fitur yang dikombinasikan dengan teknik resampling pada performa pengidentifikasi SNP. Pada skenario ini dibangun 3 model pengidentifikasi SNP, yaitu (1) model pengidentifikasi SNP yang dibangun menggunakan subset fitur terbaik yang direkomendasikan oleh percobaan sebelumnya, (2) model pengidentifikasi SNP yang dibangun menggunakan subset fitur terbaik diikuti dengan undersampling 1:1,
dan (3) model yang menggunakan seluruh fitur yang tersedia diikuti undersampling
22
Gambar 11 Prosedur percobaan kedua
Pada percobaan ketiga bertujuan untuk menguji performa model pengidentifikasi SNP terbaik yang direkomendasikan oleh percobaan sebelumnya dengan dataset lainnya. Data yang digunakan adalah kombinasi 1% dari setiap kromosom kedelai. Terdapat 20 kromosom pada genom kedelai. Kombinasi dataset
tersebut berjumlah 3.945.443 kandidat SNP. Dari kombinasi data tersebut dipilih secara acak 1% kandidat SNP untuk diklasifikasi dengan teknik yang sama dengan percobaan sebelumnya. Prosedur percobaan 3 dijelaskan dengan Gambar 12.
1% data
Gambar 12 Prosedur percobaan ketiga Evaluasi performa model
Pada penelitian ini, aspek yang dievaluasi dalam mengukur performa model adalah aspek efisiensi dan efektifitas. Efisiensi adalah kecepatan model dalam melakukan klasifikasi terhadap sampel. Efektifitas adalah kemampuan model dalam melakukan klasifikasi secara akurat yang diukur dengan beberapa metrik evaluasi (Tang et al. 2002).
Akurasi adalah metrik yang biasa digunakan dalam mengukur performa suatu
23 kandidat SNP positif. Oleh karena itu penelitian ini menggunakan metrik evaluasi lainnya dalam mengukur performa model. Seluruh metrik yang digunakan adalah berdasarkan matriks konfusi seperti pada Tabel 3.
Tabel 3 Matriks Konfusi Prediksi
Target Positif Negatif
Positif TP FN
Negatif FP TN
Matriks konfusi terdiri atas 4 nilai, yaitu true positive (TP), false positive
(FP), true negative (TN) dan false negative (FN). True positive (TP) adalah jika sampel positif dilabelkan dengan tepat pada kelas positif. False positive (FP) adalah jika sampel negatif salah dilabelkan ke dalam kelas positif. True negative (TN) merupakan sampel negatif yang dengan tepat dilabelkan pada kelas negatif. False negative (FN) menyatakan sampel positif yang salah dilabelkan pada kelas negatif. Penelitian ini menggunakan metrik sensitivity and specificity untuk mengamati performa klasifikasi pada dua kelas secara terpisah. Sensitivity sering disebut juga sebagai true positive rate (TPR) atau recall, merupakan metrik yang mengukur akurasi modeldalam mengidentifikasi sampel positif. Specificity sering disebut juga sebagai true negative rate (TNR) merupakan metrik yang mengukur akurasi model dalam mengidentifikasi sampel negatif. Kedua kriteria ini bersifat
trade-off, sehingga dalam mengevaluasi performa suatu model tidak bisa menggunakan salah satu dari keduanya. Untuk mengkombinasikan kedua metrik tersebut digunakan G-Mean yang merupakan rata-rata geometric dari sensitivity dan
specificity yang mengukur kemampuan modeldalam mengidentifikasi kelas positif dan kelas negatif dalam satu nilai. Nilai sensitivity, specificity dan G-Mean dapat dihitung dengan persamaan (3.5), (3.6) dan (3.7).
sensitivity= TPTP+FN (3.5)
specificity= TNTN+FP (3.6)
G-Mean= √Sensitivity*Specificity .
Pada penelitian ini, kelas yang menjadi fokus dan penting untuk diidentifikasi adalah kelas positif. Selain menggunakan metrik di atas, penelitian ini juga mengukur kemampuan model dalam hal ketepatannya dalam mendeteksi kelas positif. Oleh karena itu digunakan pasangan metrik lainnya, yaitu precision dan
recall. Precision menghitung seberapa banyak sampel positif yang tepat dilabelkan ke dalam kelas positif dari seluruh sampel yang diprediksi berlabel positif oleh model. Sedangkan recall menghitung seberapa banyak jumlah sampel positif yang mampu diidentifikasi oleh model dari keseluruhan sampel positif yang ada dalam
24
menggunakan metrik F-Measure (Tang et al. 2002). Nilai precision, recall dan F-Measures dapat dihitung menggunakan persamaan (3.8), (3.9) dan (3.10)
precision= TPTP+FP (3.8)
recall= TPTP+FN (3.9)
25
4 HASIL DAN PEMBAHASAN
Hasil
Pemilihan fitur dengan FAST
Teknik FAST mengevaluasi setiap fitur berdasarkan nilai AUC yang dimiliki setiap fitur. Menurut Wasikowski dan Chen (2010), AUC adalah prediktor performa klasifikasi yang baik dan dapat digunakan sebagai peranking fitur. Pada teknik FAST, fitur-fitur yang memiliki nilai AUC tertinggi dipilih karena fitur-fitur tersebut memiliki kontribusi yang kuat dalam klasifikasi.
Pada penelitian ini dilakukan analisis terhadap 24 fitur SNP dengan menggunakan seluruh data kandidat SNP kedelai yang berjumlah 39.454.648 data dan terbagi dalam 20 kromosom. Setiap fitur dianalisis menggunakan teknik FAST sesuai dengan prosedur pada Gambar 8. Nilai akhir yang digunakan adalah rata-rata dari nilai AUC untuk setiap fitur dari 20 kromosom. Keseluruhan nilai AUC yang diperoleh disajikan pada Tabel 4.
Tabel 4 Hasil seleksi fitur dengan teknik FAST
No Nama fitur Nilai AUC
1 Tipe variasi 0.134837961
2 Kualitas maksimum alel mayor 0.185126616 3 Kualitas maksimum alel minor 0.923896518 4 Kualitas rata-rata alel mayor 0.667627973 5 Kualitas rata-rata alel minor 0.899596359
6 Frekuensi alel mayor 0.122188008
7 Frekuensi alel minor 0.854374062
8 Jarak relative dengan ujung reads 0.497555758
9 Rata-rata kualitas basa 0.749894994
10 Kedalaman penjajaran 0.399312239
11 Kualitas pemetaan rata-rata 0
12 Peluang error 0.113844704
13 Perulangan dinukleotida (kiri) 0.474235087 14 Perulangan dinukleotida (kanan) 0.474275511
15 Area mismatch 0.664376539
16 Panjang homopolimer (kiri) 0.511181279 17 Panjang homopolimer (kanan) 0.510820324
18 Keragaman nukleotida 0.542640939
19 Total mismatch pada rujukan 0.326386856 20 Total mismatch pada fragmen 0.851813898
21 Keseimbangan alel 0.854128403
26
Dari nilai AUC yang dihasilkan, dipilih 5 fitur SNP dengan nilai AUC tertinggi yaitu kualitas maksimum alel minor (0,92), kualitas rata-rata alel minor (0,90), frekuensi alel minor (0,85), total mismatch pada fragmen (0,85) dan keseimbangan alel (0,85). Fitur-fitur dengan nilai AUC tertinggi dianggap memiliki kontribusi yang lebih besar dalam memprediksi kelas dibandingkan fitur-fitur lain yang tersedia. Fitur-fitur tersebut kemudian divalidasi sesuai alur percobaan pertama yang telah dijelaskan pada Gambar 10.
Pemilihan fitur dengan SNR
Pada penelitian ini, teknik SNR mengevaluasi fitur SNP sesuai dengan persamaan (3.4). Pada teknik SNR, semakin jauh jarak antara dua kelas, maka kemungkinan untuk salah dalam klasifikasi semakin kecil, begitu pula sebaliknya. Sehingga fitur-fitur yang memiliki skor SNR yang besar dipilih karena dianggap memiliki kemampuan yang baik dalam membedakan kelas. Pada penelitian ini dilakukan analisis terhadap 24 fitur SNP dengan teknik SNR menggunakan seluruh data kandidat SNP kedelai yang berjumlah 39.454.648 data dan terbagi ke dalam 20 kromosom. Skor SNR akhir yang digunakan adalah rata-rata nilai SNR setiap fitur dari 20 kromosom. Keseluruhan skor SNR yang diperoleh disajikan pada Tabel 5.
Tabel 5 Hasil seleksi fitur dengan teknik SNR
No Nama fitur Skor SNR
1 Tipe variasi 0.095781
2 Kualitas maksimum alel mayor 0.008661 3 Kualitas maksimum alel minor 1.275458 4 Kualitas rata-rata alel mayor 0.32545 5 Kualitas rata-rata alel minor 1.177911
6 Frekuensi alel mayor 0.286709
7 Frekuensi alel minor 0.737776
8 Jarak relative 0.024009
9 Rata-rata kualitas basa 0.49315
10 Kedalaman penjajaran 0.142449
11 Kualitas pemetaan rata-rata 0.000976
12 Peluang error 0.618131
13 Perulangan dinukleotida (kiri) 0.030676 14 Perulangan dinukleotida (kanan) 0.03125
15 Area mismatch 0.325653
16 Panjang homopolimer (kiri) 0.088613 17 Panjang homopolimer (kanan) 0.087076
18 Keragaman nukleotida 0.105332
19 Total mismatch pada rujukan 0.061771 20 Total mismatch pada fragmen 0.160098
21 Keseimbangan alel 0.642246
27
Dari skor SNR yang dihasilkan, dipilih 5 fitur SNP dengan nilai SNR tertinggi yaitu kualitas maksimum alel minor (0,92), kualitas rata-rata alel minor (0,90), frekuensi alel minor (0,85), Peluang error (0,85) dan keseimbangan alel (0,85). Fitur dengan nilai SNR tinggi merupakan fitur yang memiliki kemampuan yang lebih baik dalam membedakan kelas dibandingkan fitur-fitur lainnya Lima fitur yang memiliki skor SNR tertinggi divalidasi dan ditentukan subset fitur terbaiknya sesuai alur percobaan pertama yang telah dijelaskan pada Gambar 10.
Pembahasan
Subbab pembahasan menyajikan hasil penelitian pada tahapan pelatihan dan pengujian model dan evaluasi performa model. Pembahasan disajikan sesuai rancangan percobaan yang tertera pada Tabel 2.
Pengaruh teknik seleksi fitur pada pengidentifikasi SNP
Dari hasil seleksi fitur kedua teknik, dipilih masing-masing 5 fitur dengan skor FAST dan skor SNR tertinggi. Subset fitur terbaik pilihan FAST adalah kualitas maksimum alel minor (fitur 3), kualitas rata-rata alel minor (fitur 5), frekuensi alel minor (fitur 7), total mismatch pada fragmen (fitur 20) dan keseimbangan alel (fitur 21). Adapun subset fitur terbaik pilihan SNR adalah kualitas maksimum alel minor (fitur 3), kualitas rata-rata alel minor (fitur 5), frekuensi alel minor (fitur 7), peluang error (fitur 12) dan keseimbangan alel (fitur 21). Ringkasan fitur terbaik yang dipilih kedua teknik tersaji pada Tabel 6.
Tabel 6 Fitur-fitur terbaik yang dipilih teknik FAST dan SNR
Fitur terbaik FAST Fitur terbaik SNR
No Fitur Nama Fitur No Fitur Nama Fitur
3 Kualitas maksimum alel minor 3 Kualitas maksimum alel minor 5 Kualitas rata-rata alel minor 5 Kualitas rata-rata alel minor 7 Frekuensi alel minor 7 Frekuensi alel minor
21 Keseimbangan alel 21 Keseimbangan alel
20 Total mismatch pada fragmen 12 Peluang error
28
Tabel 7 Fitur-fitur yang digunakan pada setiap model
No Model Fitur yang digunakan
1 3 fitur (FAST dan SNR) Kualitas maksimum alel minor (3), kualitas rata-rata alel minor (5), frekuensi alel minor (7) 2 4 fitur (FAST dan SNR) Kualitas maksimum alel minor (3), kualitas
rata-rata alel minor (5), frekuensi alel minor (7), keseimbangan alel (21)
3 5 fitur SNR Kualitas maksimum alel minor (3), kualitas rata-rata alel minor (5), frekuensi alel minor (7), keseimbangan alel (21), peluang error (12) 4 5 fitur FAST Kualitas maksimum alel minor (3), kualitas
rata-rata alel minor (5), frekuensi alel minor (7), keseimbangan alel (21), total mismatch pada fragmen (20)
5 6 fitur (FAST dan SNR) Kualitas maksimum alel minor (3), kualitas rata-rata alel minor (5), frekuensi alel minor (7), keseimbangan alel (21), peluang error (12), total
mismatch pada fragmen (20)
Dari 5 model yang dibangun kemudian dibandingkan dengan model yang menggunakan seluruh 24 fitur yang tersedia. Ringkasan hasil percobaan pertama tersaji pada Tabel 8 dan Gambar 12.
Tabel 8 Perbandingan performa seluruh model dengan berbagai subset fitur
Dataset Sensitivity Specificity G_mean F-Measure Waktu
(jam)
Berdasarkan Tabel 8 dapat diamati bahwa seluruh model mampu mencapai nilai specificity yang sangat tinggi, yaitu mencapai 0,96. Artinya 96% SNP negatif pada data uji berhasil diidentifikasi oleh model sebagai SNP negatif, sedangkan hanya 4% sisanya salah diidentifikasi sebagai SNP positif. Namun nilai sensitivity