Klasifikasi Gen Yang Terkait Sindrom Alzheimer Menggunakan Metode Naïve Bayes Classifier Dan Logistic Regression Ensemble - ITS Repository

(1)

TUGAS AKHIR – SS141501

KLASIFIKASI GEN YANG TERKAIT SINDROM

ALZHEIMER

MENGGUNAKAN METODE

NAÏVE

BAYES CLASSIFIER, BINARY LOGISTIC

REGRESSION

DAN

LOGISTIC REGRESSION

ENSEMBLE

REYNALDI WISNU WERDHANA NRP 1313 100 097

Dosen Pembimbing Dr.rer.pol. Heri Kuswanto

PROGRAM STUDI SARJANA DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER

(2)

HALAMAN JUDUL

TUGAS AKHIR – SS141501

KLASIFIKASI GEN YANG TERKAIT SINDROM

ALZHEIMER MENGGUNAKAN METODE

NAÏVE BAYES

CLASSIFIER, BINARY LOGISTIC REGRESSION

DAN

LOGISTIC REGRESSION ENSEMBLE

Dosen Pembimbing

Dr.rer.pol. Heri Kuswanto

PROGRAM STUDI SARJANA DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER

(3)

FINAL PROJECT– SS141501

CLASSIFICATION OF ALZHEIMER’S DISEASE

RELATED GENES USING NAÏVE BAYES CLASSIFIER,

BINARY LOGISTIC REGRESSION AND LOGISTIC

REGRESSION ENSEMBLE

Supervisors

Dr.rer.pol. Heri Kuswanto

UNDERGRADUATE PROGRAM DEPARTMENT OF STATISTICS

FACULTY OF MATHEMATICS AND NATURAL SCIENCES INSTITUT TEKNOLOGI SEPULUH NOPEMBER

(4)

(5)

vii

LOGISTIC REGRESSION ENSEMBLE

Nama : Reynaldi Wisnu Werdhana NRP : 1313 100 097

Departemen : Statistika

Pembimbing : Dr.rer.pol. Heri Kuswanto, M.Si.

Abstrak

Alzheimer merupakan penyakit degeneratif dan penyebab paling umum dari kasus dimensia. Salah satu kunci menangani penyakit ini adalah deteksi dini. Deteksi tersebut dapat diketahui melalui ekspresi dari gen yang terkandung dalam DNA, dengan memanfaatkan teknologi Microarray DNA. Masalah paling mendasar dalam memprediksi ekspresi adalah mendapatkan metode terbaik. Dalam penelitian ini, metode Logistic Regression Ensemble (LORENS) akan dibandingkan dengan metode Naive Bayes

Classifier serta Binary Logistic Regression dengan

mempertimbangkan 20 variabel yang diduga berpengaruh dalam proses klasifikasi. Variabel dalam penelitian ini berjumlah 178, yang terdiri dari 2 kelas yaitu gen Alzheimer sebanyak 98 pengamatan dan gen normal sebanyak 80 pengamatan. Hasil analisis menggunakan prosedur evaluasi full training set menghasilkan metode terbaik adalah metode LORENS 4 partisi dan threshold 0,5 memberikan hasil paling baik. Akurasi yang dihasilkan model ini adalah 76,4% dan nilai AUC 0,774. Dengan menggunakan prosedur evaluasi Cross Validation, metode LORENS adalah metode terbaik. Metode LORENS dengan 10 folds memberikan hasil partisi optimal yang digunakan adalah 5 partisi dengan threshold 0,5. Akurasi yang dihasilkan sebesar 75,28% dan nilai AUC sebesar 0,759. Metode terbaik untuk menangani masalah klasifikasi gen menggunakan data microarray dalam penelitian ini adalah metode LORENS Cross Validation 5 partisi dengan threshold 0,5.

(6)

(7)

ix

GENES USING NAÏVE BAYES CLASSIFIER, BINARY LOGISTIC REGRESSION AND LOGISTIC REGRESSION ENSEMBLE

Student’s Name : Reynaldi Wisnu Werdhana

NRP : 1313 100 097 Departement : Statistics

Supervisor : Dr.rer.pol. Heri Kuswanto, M.Si.

Abstrak

Alzheimer is a degenerative disease and most common case of dementia. One of the keys to treat Alzheimer is early detection. The detection can be carned out by analyzing the expression of the genes contained in DNA, using DNA microarray technology. The most basic problem in classification is to find a best method. In this research, Logistic Regression Ensemble (LORENS) is applied and compared with Naïve Bayes Classifier and Binary Logistic Regression. Research examines to 178 observation, consisting of 2 classes, where 98 observations as a Alzheimer’s genes and 80 observations as a normal genes. The result of the analysis using full training set found that LORENS with 4 partitions and threshold of 0,5 is the best setting. This method has accuracy of is the best method. Meanwhile, LORENS has been proven to outier from the others by Cross Validation evalution, where the optional result is obtained by 5 partition and threshold of 0,5. The accuracy is 75,28% with AUC of 0,759.

(8)

(9)

xi

Assalamu’alaikum Warahmatullah Wabarokatuh.

Puji syukur alhamdulillah senantiasa penulis panjatkan kehadirat Allah SWT yang telah melimpahkan rahmat, hidayah dan karunia-Nya sehingga penulis dapat menyelesaikan Tugas Akhir dengan judul

“KLASIFIKASI GEN YANG TERKAIT SINDROM

ALZHEIMER MENGGUNAKAN METODE NAÏVE BAYES

CLASSIFIER, BINARY LOGISTIC REGRESSSION DAN

LOGISTIC REGRESSION ENSEMBLE”

Sholawat dan salam tak lupa penulis sampaikan pada junjungan besar Nabi Muhammad SAW. Dalam menyelesaikan laporan Tugas Akhir ini penulis telah banyak menerima bantuan dan dukungan dari berbagai pihak. Oleh karena itu penulis mengucapkan terima kasih kepada :

1. Dr. rer. pol. Heri Kuswanto selaku dosen pembimbing, yang telah membimbing saya, memberikan segala masukan, waktu serta pengetahuan demi terselesaikannya Tugas Akhir ini.

2. Dr. Suhartono selaku Ketua Departemen Statistika ITS yang telah memberikan fasilitas dan sarana dalam penyusunan Tugas Akhir ini.

3. Dr. Suhartono dan Ibu Santi Wulan Purnami, Ph.d. selaku dosen penguji, yang telah memberikan banyak saran, kritik dan masukan demi kesempurnaan Tugas Akhir saya. 4. Dr. Sutikno, M.Si selaku Ketua Program Studi S1 Statistika

dan segenap dosen maupun tenaga pendidik Departemen Statistika ITS.

5. Kedua orang tua tercinta dan keluarga besar yang telah melimpahkan kasih sayang dan segala doa.

(10)

xii

7. Teman-teman S1 Statistika angkatan 2013 yang berjuang bersama dalam penyelesaian Tugas Akhir, terima kasih atas dukungan dan segala bantuan dalam penyelesaian Tugas Akhir.

8. Semua pihak yang memberikan semangat serta motivasi kepada penulis untuk terus menggapai cita-cita.

Penulis menyadari bahwa Tugas Akhir ini masih jauh dari sempurna, oleh karena itu kritik dan saran yang bersifat membangun sangat diharapkan.

Wassalamu’alaikum Warahmatullah Wabarokatuh.

Surabaya, Juli 2017

(11)

xiii

DAFTAR ISI

Halaman

HALAMAN JUDUL ... i

PAGE OF TITLE ... iii

HALAMAN PENGESAHAN ... v

ABSTRAK ... vii

ABSTRACT ... ix

KATA PENGANTAR ... xi

DAFTAR ISI ... xiii

DAFTAR GAMBAR ... xv

DAFTAR TABEL ... xvii

DAFTAR LAMPIRAN ... xix

BAB I. PENDAHULUAN 1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 6

1.3 Tujuan Penelitian ... 6

1.4 Batasan Masalah ... 7

BAB II. TINJAUAN PUSTAKA 2.1 Naïve Bayes Classifier... 9

2.2 BinaryLogistic Regression ... 11

2.2 Logistic Regression Classification by Ensembles From Random Partition (LR CERP) ... 14

2.3 Logistic Regression Ensemble ... 16

2.4 Cross Validation ... 20

2.5 AUC (Area Under Curve) ... 22

2.6 DNA Microarray ... 23

BAB III. METODOLOGI PENELITIAN 3.1 Sumber Data ... 25

3.2 Variabel Penelitian ... 25

3.3 Langkah Analisis ... 26

(12)

xiv

4.2 Pengujian Proporsi Variabel Respon ... 34

4.3 Analsis Naïve Bayes ClassifierFull Training Set ... 34

4.4 Analsis Naïve Bayes ClassifierCross Validation ... 39

4.5 Analsis Binary Logistic RegressionFull Training Set ... 40

4.6 Analsis Binary Logistic Regression Cross Validation ... 43

4.7 Analsis LORENS Full Training Set ... 47

4.8 Analsis LORENS Cross Validation ... 53

4.9 Pemilihan Metode Terbaik ... 57

BAB V. KESIMPULAN DAN SARAN 5.1 Kesimpulan... 61

5.2 Saran ... 63

DAFTAR PUSTAKA ... 65

(13)

xv

Halaman

Gambar 2.1 Bagan Konsep LR CERP ... 15

Gambar 2.2 Bagan Konsep LORENS ... 19

Gambar 3.1 Diagram Alur Penelitian ... 29

Gambar 4.1 Perbandingan Jumlah Gen Antara Gen Normal

dan Alzheimer ... 31

Gambar 4.2 Perbandingan Rata-Rata Nilai Scanning

Microarray Gen Normal dan Alzheimer ... 32

(14)

xvi

(15)

xvii

DAFTAR TABEL

Halaman

Tabel 3.1 Struktur Data Penelitian ... 25

Tabel 3.2 Variabel Penelitian ... 26

Tabel 4.1 Perbandingan p-value dengan alpha ... 31

Tabel 4.2 Rata-Rata dan Standar Deviasi Setiap Prediktor

dan Kelas ... 36

Tabel 4.3 Peluang Tiap Kategori pada Data Testing

Pertama ... 37

Tabel 4.4 Perhitungan Posterior Probability pada Data

Testing Pertama ... 38

Tabel 4.5 Tabulasi Silang pada Analisis Naïve Bayes

Classifier ... 39

Tabel 4.6 Tabulasi Silang Kelas Aktual dan Prediksi Naïve

Bayes Classifier Cross Validation ... 40

Tabel 4.7 Ukuran Kebaikan Klasifikasi Naïve Bayes

Classifier Cross Validation ... 40

Tabel 4.8 Koefisien Parameter Awal Model Binary Logistic

Regression Full Training Set ... 41

Tabel 4.9 Koefisien Parameter Terbaik Model Binary

Logistic Regression ... 42

Tabel 4.10 Tabulasi Silang pada Analisis Binary Logistic

Regression ... 43

Tabel 4.11 Ukuran Kebaikan Model Binary Logistic

Regression ... 43

Tabel 4.12 Koefisien Parameter Awal Model Fold ke-1 CV

Binary Logistic Regression Full Training Set.... 44

Tabel 4.13 Koefisien Parameter Terbaik Model Fold ke-1

CV Binary Logistic Regression ... 45

Tabel 4.14 Model Binary Logistic Regression Pada Seluruh

Fold ... 46

Tabel 4.15 Tabulasi Silang pada Model Binary Logistic

(16)

xviii

Tabel 4.16 Ukuran Kebaian Model Binary Logistic

Regression CV ... 47

Tabel 4.17 Random Sampling Variabel Prediktor pada 4 Ruang Partisi Threshold 0,5 ... 48

Tabel 4.18 Koefisien Model Regresi Logistik 4 Partisi Threshold 0,5 ... 49

Tabel 4.19 Rata-Rata Nilai Probabilitas Pada 4 Partisi Threshold 0,5 ... 51

Tabel 4.20 Tabulasi Silang pada LORENS 4 Ruang Partisi Threshold 0,5 ... 52

Tabel 4.21 Ukuran Kebaikan Model LORENS Full Training Set ... 52

Tabel 4.22 Threshold Optimal untuk 2 Partisi ... 54

Tabel 4.26 Tabulasi Silang Hasil Klasifikasi LORENS dengan Cross Validation ... 56

Tabel 4.27 Ukuran Kebaikan Klasifikasi LORENS dengan Cross Validation ... 56

Tabel 4.28 Perbandingan Ketepatan Klasifikasi Pada Prosedur Evaluasi Full Traininig Set ... 58

(17)

xix

Lampiran 1. Data Microarray Ekspresi Gen ... 67

Lampiran 2. Rata-Rata Variabel Prediktor Tiap Kelas . 68

Lampiran 3. Peluang Posterior Naïve Bayes Full

Training Set ... 69

Lampiran 4. Peluang Posterior Naïve Bayes Cross

Validation ... 70

Lampiran 5. Output Learning Decision LORENS

Full Training Set ... 71

Lampiran 6. Alokasi Variabel Prediktor Pada

LORENS 2 Partisi Threshold 0,5 ... 72

LORENS 2 Partisi Threshold Optimal ... 73

Lampiran 13. Koefisien Model Regresi Logistik

(18)

xx

Lampiran 20. Syntax R untuk split data... 86

Lampiran 21. Syntax R untuk Logistic Regression

(19)

1

1.1 LatarBelakang

Otak merupakan pusat sistem saraf yang mengatur seluruh kegiatan didalam tubuh makhluk hidup. Gangguan atau penyakit sekecil apapun pada otak dapat mempengaruhi kegiatan yang terjadi didalam tubuh makhluk hidup. Salah satu penyakit yang menyerang otak manusia adalah penyakit Alzheimer. Alzheimer pertama kali diidentifikasi lebih dari 100 tahun yang lalu. Penyakit ini merupakan penyakit degeneratif dan penyebab paling umum dari kasus dimensia. Hal ini ditandai dengan penurunan memori/ingatan manusia, penurunan kemampuan memecahakan masalah dan ketrampilan kognitif yang lainnya. Akibatnya kemampuan seseorang untuk melakukan aktivitas sehari-hari akan terganggu atau bahkan tidak bisa melakukan aktivitas sama sekali dalam kondisi dimensia yang parah. Penurunan kemampuan ini terjadi karena sel-sel syaraf (neuron) di bagian otak yang terlibat dalam fungsi kognitif telah rusak dan biasanya tidak berfungsi lagi (Anonim, 2016). Meskipun banyak penelitian yang meneliti tentang penyaki ini, masih banyak hal yang belum terungkap mengenai penyakit ini. Terutama tentang perubahan biologis yang menyebabkan terjadinya Alzheimer, mengapa penyakit ini dapat berlangsung lebih cepat pada beberapa orang dan bagaimana penyakit ini bisa dicegah atau bahkan dihentikan. Para peneliti percaya bahwa salah satu kunci menangani penyakit ini adalah deteksi dini. Deteksi tersebut dapat diketahui dengan melihat ekspresi dari gen yang terkandung dalam DNA.

(20)

(21)

Masalah yang paling mendasar dalam memprediksi ekspresi gen dengan menggunakan data microarray adalah mendapatkan metode dan model terbaik yang dapat menganalisis dengan tepat. Data microarray yang pada umumnya merupakan high dimensional data mengharuskan metode klasifikasi statistika sebaiknya dilakukan dengan pendekatan komputasi. Tantangan para analis sekarang ini adalah big data dan high dimensional data. Pendekatan statistik yang mengharuskan untuk memenuhi asumsi-asumsi tertentu akan menjadi lemah ketika dihadapkan dengan big data ataupun high dimentional data. Pendekatan parametrik yang menggunakan pengujian signifikansi juga akan menjadi lemah ketika dihadapkan dengan big data ataupun high dimentional data. Hal itu dikarenakan p-value sensitif terhadap banyaknya observasi yang dilakukan (Lin, Lucas, & Shmueli, 2013). Permasalahan yang terjadi pada tahap pengujian hipotesis dengan pendekatan statistika inferensial adalah pembuktian hipotesa null dapat ditolak. Pengujian dengan menggunakan data yang besar cenderung menghasilkan keputusan bahwa parameter yang diuji berpengaruh signifikan karena p-value cenderung bernilai 0. Pendekatan parametrik untuk menganalisa data dengan jumlah yang besar akan menjadi tidak berguna, bahkan menghasilkan kesimpulan yang salah. Pendekatan komputasional dikembangkan untuk menangani kelemahan pendekatan inferensial, karena pendekatan komputasional tidak mengenal pengujian asumsi dan pengujian parameter. Pendekatan komputasional sangat dapat dipercaya, karena pendekatan ini mengadaptasi pendekatan inferensial dan menyempurnakannya dengan algoritma yang agregatif.

(22)

20 gen dengan rangking teratas. Penelitian ini memberikan hasil yang tepat dalam mengidentifikasi gen yang terkait penyakit Alzheimer. Penelitian dengan menggunakan data microarray juga pernah dilakukan untuk klasifikasi gen yang terkait penyakit kanker. Matsumoto, Aoki & Ohwada (2015) menggunakan metode Random Forest dan SVM untuk memprediksi proteksi radiasi dan toksisitas. Dalam prediksi fungsi proteksi radiasi, metode SVM menghasilkan akurasi yang lebih baik dibandingkan metode Random Forest. Sebaliknya, metode Random Forest memberikan akurasi yang lebih baik dibandingkan metode SVM saat memprediksi toksisitas.

Sebuah metode klasifikasi baru telah dikembagkan oleh Lim pada tahun 2007 dengan menggunakan algoritma Classification

by Ensembles from Random Partition (CERP) pada metode

klasifikasi regresi logistik biner. Metode baru tersebut memperbolehkan data kategori menjadi variabel prediktornya. Algoritma CERP mempartisi variabel prediktor menjadi beberapa subruang. Model-model berbasis Logistic Regression dari masing-masing partisi yang didapat kemudian akan digabung kembali menjadi satu fungsi. Metode tersebut dikenal dengan nama Logistic Regression Ensembles (LORENS). Metode LORENS memiliki keunggulan, karena menggunakan algoritma CERP yang menyebabkan variabel prediktor menjadi saling mutually exclusive dan dibangun dari sifat Logistic Regression yang informatif dan juga representatif (Lee, Ahn, Moon, Kodell, & Chen, 2013). LORENS diciptakan untuk mengatasi kasus dengan banyak variabel prediktor mempunyai jumlah yang jauh lebih besar daripada pengamatan yang dilakukan. Dalam metode klasifikasi, pada umumnya threshold yang digunakan adalah 0,5. Hal tersebut menjadi sebuah masalah, karena tidak adil jika probabilitas masing-masing kelas dinyatakan bernilai 0,5. LORENS mampu mengatasi masalah tersebut dengan menyediakan threshold yang optimal untuk masing-masing kelas.

(23)

Leukimia). Dalam penelitian tersebut, didapatkan kesimpulan bahwa metode LORENS terbukti meningkatkan akurasi, sensitivity dan specificity disbanding metode klasifikasi lainnya. Penelitian serupa juga pernah dilakukan oleh Kuswanto, Asfihani, Sarumaha, & Ohwada (2015), dimana LORENS digunakan dalam mengklasifikasikan kasus pembelotan konsumen dengan ukuran sample yang sangat besar. Kemampuan LORENS dalam menangani big data, ketidak-seimbangan variabel respon, dan ketimpangan variabel prediktor yang cukup baik, LORENS disimpulkan lebih terpercaya walaupun tidak bisa menjelaskan hubungan antar variabel karena tidak dapat menghasilkan model yang intepretatif. Metode LORENS juga pernah digunakan oleh Zakharov & Dupont (2011) untuk menanggani data microarray. Hasil dari penelitian tersebut menyebutkan bahwa LORENS menghasilkan hasil klasifikasi yang lebih stabil dan jauh lebik akurat daripada menggunakan regresi logistik. LORENS mampu menanggani kasus data dengan jumlah observasi yang jauh lebih sedikit daripada jumlah variabelnya.

(24)

lebih sederhana, serta metode binary logistic regression yang merupakan base classifier dari metode LORENS. Perbandingan ketiga metode tersebut diharapkan mampu memberikan hasil yang baik.

1.2 Rumusan Masalah

Metode klasifikasi untuk prediksi gen normal dan tidak normal dari data DNA microarray telah menjadi perhatian bagi pakar dibidang biologi molekular. Setelah diteliti oleh Ohwada (2015) menggunakan metode Random Forest, kasus ini akan diteliti dengan metode Naive Bayes Classifier, Binary Logistic Regrssion dan Logistic Regression Ensembles (LORENS). Dalam penelitian ini akan diteliti mengenai metode dan model klasifikasi yang terbaik dalam mengklasifikasikan gen normal dan gen yang terpengaruh penyakit Alzheimer. Pendekatan untuk prediksi klasifikasi pada kasus ini tidak menggunakan pendekatan inferensial. Pendekatan inferensial kurang terpercaya untuk menangani kasus dengan data yang besar, karena cenderung menghasilkan kesimpulan menolak hipotesa null pada tahap pengujian parameter. Oleh karena itu, pada kasus ini digunakan metode Naive Bayes Classifier dan Logistic Regression

Ensembles (LORENS) yang tidak memerlukan pengujian

parameter. Namun kelemahan kedua metode ini adalah tidak dapat memberikan model intepretatif yang dapat mengintepretasikan hubungan antara variabel prediktor dengan variabel respon. Perbandingan kedua metode diperlukan untuk memilih metode terbaik berdasarkan ketepatan klasifikasi yang diperoleh.

1.3 Tujuan Penelitian

Berdasarkan rumusan masalah yang dijelaskan diatas, berikut ini adalah tujuan penelitian dai penelitin ini.

(25)

2. Menghitung dan menganalisis hasil klasifikasi dan ketepatan klasifikasi gen yang terkait sindrom Alzheimer menggunakan metode Binary Logisic Regression.

3. Menghitung hasil klasifikasi dan ketepatan klasifikasi gen yang terkait penyakit Alzheimer menggunakan metode Logistic Regression Ensembles (LORENS).

4. Memilih metode klasifikasi terbaik dari hasil analisis mengunakan metode Naive Bayes Classifier, Binary Logistic Regression dan Logistic Regression Ensembles (LORENS).

1.5 Batasan Masalah

(26)

(27)

9

2.1 Naïve Bayes Classifier

Naïve Bayes Classifier merupakan sebuah metode

pengklasifikasi probabilitas sederhana yang menerapkan Teorema Bayes dengan asumsi ketidaktergantungan yang tinggi. Konsep dasar dari metode ini adalah teorema Bayes, dimana didalam statisik teorema ini banyak digunakan untuk menghitung peluang. Bila diketahui A A1, 2,...,An adalah sebuah kejadian yang

merupakan sebuah kejadian random dan kejadian

(28)

( | )_i

P A B merupakan posterior probability karena nilai

( | )_i

P A B bergantung pada nilai B. P A( )_i disebut prior probability karena nilainya tidak bergantung pada nilai B, sedangkan P B A( | )i adalah fungsi likelihood dan

P B

( )

merupakan keterangan.

Metode Naïve Bayes Classifier menggunakan konsep dari teorema Bayes. Bila diberikan { ,A A1 2,..., }An adalah atribut yang

digunakan untuk menentukan kelas C, dengan menggunakan teorema Bayes maka perhitungan posterior probability untuk setiap kelas C adalah sebagai berikut (Gorunescu, 2011).

1 2

Apabila kelas tersebut memaksimalkan nilai

1 2 ( j | , ,..., n)

P C A A A atau memaksimalkan nilai P A A( ,1 2,...,A Cn| j),

maka kelas tersebut yang dipilih. Berdasarkan persamaan diatas, diperlukan perhitungan P A A( ,1 2,...,A Cn| j). Setiap atribut

diasumsikan independen untuk setiap kelas C. Apabila terdapat atribut yang memiliki sifat kuantitatif atau kontinyu, maka

( i| j)

P A C dihitung dengan pendekatan distribusi normal. 2 dan kelas Cj, sehingga data baru dapat diklasifikasikan kedalam

kelas Ck jika peluang yang didapat merupakan yang terbesar

(29)

2.2 Binary Logistic Regression

Salah satu metode klasifikasi dasar adalah Logistic Regression. Logistic Regression dengan kasus menggunakan dua kelas respon bernama Binary Logistic Regression. Binary Logistic Regression merupakan suatu metode analisis data yang berguna untuk mencari sebuah hubungan variabel respon y yang bersifat biner dengan variabel prediktor x yang bersifat polikotomus (Hosmer dan Lemeshow, 2000). Variabel respon (y) dari regresi logistik biner terdiri dari 2 kategori yaitu “sukses” dan “gagal”, dimana notasi dariy1 untuk kategori “sukses” dan y0 untuk kategori “gagal”. Sehingga variabel respon y mengikuti distribusi Bernoulli untuk setiap observasi tunggalnya. Fungsi probabilitas untuk setiap observasinya adalah sebagai berikut:

1

dimana p adalah banyak variabel prediktor. Nilai f z( ) terletak antara 0 dan 1 untuk setiap nilai z yang diberkan, karena nilai z sendiri terletak antara  dan . Model regresi logistik tersebut sebenarnya menggambarkan sebuah probabilitas dari suatu objek. Model regresi logistiknya adalah sebagai berikut.

0 1 1

Pendugaan parameter regresi dapat diuraikan dengan menggunakan transformasi logit dari persamaan

(30)

0 1 1

Pada regresi logistik, variabel respon dapat dituliskan sebagai y( )x  dimana  memiliki nilai   1 ( )x dengan peluang ( )x jika y = 1 atau   ( )x dengan peluang 1( )x

jika y = 0. Kedua kemungkinan tersebut mengikuti distribusi binomial dengan rata-rata nol dan varians ( ( ))(1 x ( ))x .

(31)

1

Agar lebih mudah, fungsi likelihood tersebut dimaksimumkan dalam bentuk log l( ) dan dinyatakan dengan hasilnya adalah sama dengan nol.

0

(32)

0

Dengan statistik uji sebagai berikut.

ˆ

2.3 Logistic Regression Classification By Ensembles From

Random Partition (LR CERP)

LR CERP (Logistic Regression Classification By Ensembles

From Random Partition) adalah pasangan dari C-T CERP

(Classification Tree Classification By Ensembles From Random Partition) yang menggunakan regresi logistik sebagai basis pengkasifikasi. Algoritma ini mempartisi ruang prediktor secara random menjadi sub-sub ruang yang saling mutually exclusive dengan ukuran yang sama. Misalnya  adalah sebuah ruang prediktor yang dipartisi menjadi K sub ruang ( , ,..., )

 

1 2



k yang

saling mutually exclusive dengan ukuran yang sama sehingga dapat diasumsikan tdak terdapat bias dalam pengambilan prediktor pada masing-masing sub ruang.

Berdasarkan base classifier regresi logistik diatas, performa CERP sangat tergantung oleh banyaknya variabel prediktor yang digunakan dalam satu partisi. Partisi yang optimal dapat diperoleh dari persamaan berikut ini.

6 p partisi yang optimal dapat didapatkan dengan membagi data sebanyak

i

menjadi p

i , dimana

(33)

kurang dari n. K p i

 yang menghasilkan akurasi tertinggi

merupakan jumlah partisi yang optimal. Berikut ini adalah bagan yang menggambarkan konsep Logistic Regression Classification by Ensembles from Random Partition.

Gambar 2.1 Bagan Konsep LR CERP

Model klasifikasi akan dibentuk pada tiap-tiap subruang dengan model regresi logistik, dimana model regresi logistik memiliki kelemahan pada pemilihan variabel. LR CERP berguna meningkatkan akurasi dengan cara mengombinasikan hasil klasifikasi pada masing-masing sub ruang yang terbentuk. Hal tersebut disebabkan jumlah prediktor dalam satu subruang lebih daripada banyaknya pengamatan. Kombinasi beberapa model regresi logistik yang dilakukan LR CERP berguna untuk meningkatkan akurasi dengan mengambil rata-rata nilai prediksi yang dihasilkan dalam satu ensemble. Nilai prediksi yang dihasilkan dari semua base classifiers dirata-rata dan dikategorikan menjadi 0 atau 1 berdasarkan threshold (Lim, 2007).

Prediktor

Subruang 1 Subruang 2 ... Subruang k

Classifier 1 Classifier 2 ... Classifier k

(34)

2.3 LogisticRegression Ensemble

LORENS dikembangkan oleh Lim, Ahn, Moon dan Chen pada tahun 2010 dengan menggunakan regresi logistik sebagai base classifier dan berdasarkan algoritma LR CERP. Dalam rangka meningkatkan akurasi prediksi, LORENS mengombinasikan hasil model regresi logistik untu mendapatkan satu classifier yang kuat dibanding metode agregasi kompleks lainnya. LORENS menggunakan prosedur yang sama dengan LR CERP, namun disini LORENS mengulangi prosedur LR CERP beberapa kali sampa terbentuk beberapa ensemble. LORENS mempartisi ruang prediktor  yang dipartisi menjadi K subruang

1 2

( , ,..., )

 



_k _{yang sama. Subruang dipilih secara acak}

berdasarkan distribusi yang sama, diasumsikan tidak terdapat bias pada saat pengambilan prediktor pada masing-masing subruang. Model regresi yang terbentuk pada masing-masing ruang dilakukan tanpa melalui seleksi variabel. Dengan melakukan pengacakan ini, diharapkan probabilitas yang sama pada pada masing-masing classifier pada satu ensemble dan juga error klasifikasi yang hampir sama.

Peningkatan akurasi dalam satu ensemble yang dihasilkan LORENS didapatkan dengan mengombinasikan nilai prediksi dari model-model regresi logistik pada masing masing partisi yang didapat. Dengan mengulangi prosedur LR CERP, LORENS mendapatkan kombinasi rata-rata ataupun nilai terbanyak yang menghasilkan akurasi yang hampir sama. Rata-rata menghasilkan nilai sedikit lebih unggul daripada nilai terbanyak, sehingga LORENS lebih baik menggunakan nilai rata-rata. Dengan menggunakan prosedur LR CERP, LORENS menghasilkan beberapa ensemble dengan patisi acak yang berbeda-beda pula. Dari beberapa ensemble yang terbentuk, diambil nilai terbanyak diantaranya. Berdasarkan nilai tersebut didapatkan satu akurasi umum. Nilai akurasi tersebut telah ditingkatka dengan sumbangsih dari beberapa ensemble yang dibangun.

(35)

klasifikasi dengan respon biner adalah 0,5. Apabila proporsi kelas 0 dan 1 tidak seimbang, akurasi klasifikasi tidak akan baik.

Threshold yang optimal dibutuhkan untuk menyeimbangkan

sensitifity dan spesificity. Berikut merupakan rumus untuk menghitung threshold optimal dari LORENS.

0, 5

2

p

Threshold  (2.17)

p adalah probabilitas pengamatan yang berada di kelas positif. Berikut merupakan tahapan dalam proses klasifikasi.

1. Membentuk model logit dari data training.

2. Memasuka data testing ke dalam model logit, sehingga diperoleh nilai probabilitas.

3. Mengklasifikasikan pengamatan data testing. Jika nilai probabilitasnya lebih besar daripada nilai threshold maka pengamatan masuk ke dalam kelas positif, sebaliknya jika nilai probabilitasnya lebih kecil daripada nilai threshold maka pengamatan masuk ke dalam kelas negatif.

4. Membandingkan kelas aktual dengan prediksi klasifikasi. 5. Mengelompokkan hasil perbandingan ke dalam kelompok

TP, TN, FP, dan FN.

TP (True Positive) adalah total ekspresi gen positif yang tepat terprediksi ke dalam kelas positif. TN (True Negative) adalah total ekspresi gen negatif yang tepat terprediksi ke dalam kelas negatif. FP (False Positive) adalah total ekspresi gen negatif yang terprediksi ke dalam kelas positif. FN (False Negative) adalah total ekspresi gen positif yang terprediksi ke dalam kelas negatif. Berikut merupakan tabel yang menunjukan prediksi klasifikasi dan kelas aktual.

Tabel 2.1 Tabel Tabulasi Silang Klasifikasi Aktual dan Klasifikasi Prediksi

Kelas Aktual

p (+) n (-)

Kelas Prediksi p (+) True Positive False Positive

(36)

Untuk menghitung ketepatan prediksi klasifikasi, dapat dihitung dengan cara membagi jumlah prediksi yang tepat dengan total jumlah prediksi. Rumus untuk menghitung ukuran ketepatan klasifikasi adalah sebagai berikut (Catal, 2010).

( )

(37)

Prediktor

LR CERP 1

PR 1 PR 2 …… PR K Part 1 Part 2 …… Part K

Model 1 Model 2 …… Model K

Rata rata nilai probabilitas

Ensemble

Prediks klasifikasi 1

Rata-Rata Nilai Prediksi

Hasil klasifikasi LORENS

…… ……

A

PR 1 PR 2 …… PR K Part 1 Part 2 …… Part K

Model 1 Model 2 …… Model K

Rata rata nilai probabilitas

Ensemble

Prediks klasifikasi n

LR CERP n

Rata-Rata Nilai Prediks

(38)

LORENS mempunyai kelebihan bebas dari asumsi dimensi data, karena LORENS melakukan partisi secara acak terhadap prediktornya. Dalam hal komputasi, LORENS lebih unggul daripada LR CERP yang masih menggunakan tree algorithm (algoritma pohon). Keakuratan metode dapat menjadi lebih baik dengan dua keunggulan LORENS tersebut diatas (Lee dkk., 2013).

2.4 Cross Validation

Terdapat beberapa metode untuk mengevaluasi performa sebuah model dalam melakukan prediksi melalui data testing dan data training, diantaranya adalah Holdout dan Cross Validation (Witten, Frank, & Hall, 2001). Metode Holdout menggunakan dua-pertiga dari data untuk digunakan menjadi data training dan menggunakan sisanya sebagai data testing. Ada kemungkinan sampel yang diambil tidak representatif, karena ada peluang setiap kelas dalam data tidak terwakili. Untuk memeriksa apakah sampel yang diambil representatif atau tidak, yaitu dengan cara menyeimbangkan proporsi masing-masing kelas untuk data testing dan data training. Apabila ada satu kelas yang tidak terwakili dalam data training, classifier tidak dapat terbentuk dengan baik untuk melakukan klasifikasi dalam data testing. Pengambilan sampel secara random harusnya memperhatikan dan menjamin bahwa sampel yang diambil sudah cukup mewakili masing-masing kelas yang ada. Salah satu cara agar setiap kelas dapat terwakili dalam data trainig dan data testing adalah dengan melakukan stratifikasi. Berikut merupakan langkah sederhana untuk melakukan stratifikasi.

1. Memisahkan data berdasarkan kelasnya.

2. Mengambil sampel dari masing-masing kelas dengan proporsi yang tepat.

3. Menggabungkan sampel dari masing-masing kelas yang terpilih.

(39)

saat gilirannya. Jelasnya, metode cross validation menggunakan satu partisi data sebagai data testing dan k1 sisanya sebagai data training. Prosedur ini terus berulang sampai semua partisi data telah menjadi data testing. Metode atau prosedur ini dikenal dengan nama k fold cross validation. Namun apabila prosedur stratifikasi juga dilakukan, metode ini disebut stratified k fold cross validation. Misalnya digunakan 10 folds untuk metode cross validation. Pertama, data dibagi secara acak menjadi 10 bagian dengan proporsi sama. Selanjutnya metode cross validation ini dijalankan sebanyak 10 kali dengan data training yang berbeda. Dimana setiap set data memiliki jumlah yang sama dengan set data yang lainnya. Pengujian telah dilakukan dengan menggunakan data yang berbeda dan teknik belajar yang berbeda pula, kesimpulanya 10 folds merupakan folds terbaik untuk mendapatkan kesalahan yang terbaik. Metode 10 folds cross validation telah menjadi metode standar dalam machine learning dan data mining. Metode evaluasi ini juga menunjukan dengan penggunaan stratifikasi dapat meningkatkan akurasi prediksi. Berikut merupakan langkah dalam melakukan metode Cross Validation.

1. Memisahkan variabel respon berdasarkan kelasnya. 2. Membagi keseluruhan pengamatan menjadi 10 partisi

pada masing-masing kelas.

3. Menggabungkan kedua kelas pada bagian yang sama. 4. Mengunakan salah satu partisi sebagai data testing dan

menggunakan bagian kedua sampai ke sepuluh menjadi data training pada folds yang pertama. Terus berlanjut sampai folds ke sepuluh menjadi data testing.

Prosedur ini menggunakan sebanyak 100 kali algoritma pada dataset, dengan tujuan mendapatkan performa yang baik. Pembagian data menjadi 9

10 data training dan 1

(40)

2.5 AUC (Area Under Curve)

Salah satu ukuran dasar yang digunakan mengukur dan mengevaluasi performa klasifikasi adalah sensitivitas dan spesifitas. Satu model klasifikasi biner memiliki sepasang sensitivitas dan spesifitas. Apabila dalam suatu kasus klasifikasi digunakan beberapa model klasifikasi, akan timbul masalah dalam hal pemilihan model dan metode terbaik. Hal tersebut dikarenakan terdapat beberapa pasang sensitifitas dan spesifitas dari model klasifikasi yang digunakan. Masalah tersebut dapat diatasi dengan menggunakan kurva ROC (Receiving Operating

Characteristic). Kurva ROC merupakan representasi dari

hubungan antara sensitifitas dan spesifitas secara grafis (Erke & Pattynama, 1998).

Kurva ROC sering digunakan untuk mengevaluasi metode klasifikasi karena mempunyai kemampuan menyeluruh dan cukup baik (Chou dkk., 2010). Pada kurva ROC, sensitivitas (true positive rate) diplot dalam fungsi 1-spesifitas (false positive rate) untuk poin cut off yang berbeda-beda. Setiap titik pada kurva ROC merupakan pasangan dari sensitivitas dan spesifitas yang sesuai dengan batasan keputusan tertentu. Sebuah tes dengan diskriminasi sempurna memiliki plot yang melewati sudut kiri atas dari kurva ROC (sensitivitas 100% dan spesifitas 100%. Semakin dekat plot ROC ke sudut kiri atas, maka semakintinggi pula akurasi dari keseluruhan tes (Zweig & Campbell, 1993).

Metode yang umum digunakan untuk menghitung performasi klasifikasi adalah dengan menghitung luas daerah dibawah kurva ROC. Area dibawah kurva ROC biasa disebut

Area Under The ROC Curve (AUC). Nilai AUC berada diantara 0

dan 1. Apabila nilai AUC semakin mendekati 1, maka model klasifikasi yang terbentuk semakin akurat. Kurva ROC yang baik berada disebelah atas dari garis diagonal (0,0) dan (1,1), sehingga tidak ada nilai AUC yang lebih kecil dari 0,5.

(41)

interpolasi kinier antara masing-masing titik pada kurva ROC. Khusus untuk kasus biner, nilai AUC dapat didekati dengan nilai Balanced Accuracy (Bekkar, Djemaa, & Alitouch, 2013).

1

Tabel 2.2 Kategori Pengklasifikasian Model Berdasarkan Nilai AUC

Nilai AUC Model Diklasifikasikan Sebagai

0,91-1,00 Excelent (Sempurna) 0,81-0,90 Very Good (Sangat baik) 0,71-0,80 Good (Baik)

0,61-0,70 Fair (Cukup) 0,51-0,60 Poor (Lemah)

Sumber : Bekkar dkk. (2013)

2.6 DNA Microarray Alzheimer

Perubahan atau mutasi gen dalam DNA tertentu dapat menjadi indikator untuk terjadinya penyakit tertentu. Namun sangat sulit untuk mengembangkan tes untuk mendeteksi mutasi ini. Pada kasus kanker payudara herideter dan kanker ovarium misalnya, mutasi pada gen BRCA1 dan BRCA2 menyebabkan menyebabkan 60% dari jumlah kasus tersebut. Peneliti menyimpulkan bahwa tidak hanya satu mutasi saja yang meyebabkan kasus tersebut, namun ditemukan lebih dari 800 mutasi yang berbeda pada gen BRCA1 saja. Microarray DNA merupakan alat yang digunakan untuk menentukan apakah DNA dari suatu makhluk hidup tertentu mengandung mutasi gen seperti pada gen BRCA1 dan BRCA2. Microarray DNA berupa chip yang terdiri dari lempengan kaca kecil yang terbungkus plastik. Setiap chip berisi ratusan bahkan ribuan fragmen DNA (Anonim, 2015).

(42)

(43)

25

3.1 Sumber Data

Data yang digunakan dalam penelitian ini adalah data sekunder yag berasal dari penelitian yang dilakukan oleh Nishiwaki dkk (2015). Dalam penelitian tersebut telah dilakukan seleksi variabel menggunakan metode Random Forest. Dari hasil penelitian tersebut didapatkan 20 variabel dari 11.555 variabel dengan importance scores tertinggi. Sehingga dalam penelitian ini hanya menggunakan 20 variabel terbaik yang didapatkan dari penelitian sebelumnya. Terdapat dua jenis ekspresi gen dalam data penelitian ini, yaitu gen normal dan gen abnormal (Alzheimer).

3.2 Variabel Penelitian

Variabel yang digunakan dalam penelitian ini terdiri dari 1 variabel respon biner (Y) yaitu Gen Normal dan Gen AD (Alzheimer Disease) dan 20 variabel prediktor. Berikut merupakan struktur data yang akan digunakan dalam penelitian ini.

Tabel 3.1 Struktur Data Penelitian

No

Ekspresi Gen Gene Symbol

Normal/AD WWOX TAGLN3 MT1H

1 Normal

X

1,1

X

2,1

X

20,1

2 AD X1,2 X2,2 X20,2

3 Normal

X

1,3

X

2,3

X

20,3

178 AD

X

1,178 X2,178

X

20,178

(44)

penyakit Alzheimer. Tabel dibawah ini merupakan kode-kode protein gen beserta nama ilmiahnya.

Tabel 3.2 Variabel Penelitian

Variabel Gene title Symbol

X1 WW domain containing oxidoreductase WWOX

X2 transgelin 3 TAGLN3

X3 collagen, type V, alpha 2 COL5A2

X4 metallothionein 1F MT1F

X5 Ets2 repressor factor ERF

X6 apelin receptor APLNR

X7 WNT inhibitory factor 1 WIF1

X8 glial fibrillary acidic protein GFAP

X9 inositol-trisphosphate 3-kinase B ITPKB

X10 collectin sub-family member 12 COLEC12

X11 lactate dehydrogenase A LDHA

X12 solute carrier family 16, member 5 SLC16A5

X13 neuritin 1 NRN1

X14 synaptotagmin V SYT5

X15 versican VCAN

X16 neuronal pentraxin II NPTX2

X17 hippocalcin HPCA

X18 RAB6A, member RAS oncogene family RAB6A

X19 WW domain containing transcription WWTR1

X20 metallothionein 1H MT1H

3.3 Langkah Analisis

(45)

1. Membuat analisa deskriptif terhadap data.

2. Melakukan analisis klasifikasi menggunakan metode Naïve Bayes Classifier dengan prosedur evaluasi full training set. 3. Melakukan analisis klasifikasi menggunakan metode Naïve

Bayes Classifier dengan prosedur evaluasi Cross Validation. a. Melakukan stratifikasi pada data.

b. Membagi data menjadi 10 bagian yang sama.

c. Mengambil sampel satu bagian data sebagai data testing dan menggunakan 9 bagian data lainnya sebagai data training.

d. Menghitung rata-rata dan standar deviasi dari setiap prediktor pada masing-masing kelas pada data training. e. Menghitung peluang tiap masing-masing variabel

prediktor pada masing-masing kategori.

f. Menghitung posterior probability pada data testing. g. Menentukan kelas prediksi pada data testing.

4. Melakukan analisis klasifikasi menggunakan metode Binary Logistic Regression dengan prosedur evaluasi full training set.

5. Melakukan analisis klasifikasi menggunakan metode Binary

Logistic Regression dengan prosedur evaluasi Cross

Validation..

6. Melakukan analisis klasifikasi menggunakan metode LORENSdengan prosedur evaluasi full training set.

7. Melakukan analisis klasifikasi menggunakan metode Logistic Regression dengan prosedur evaluasi Stratified 10-folds Cross Validation.

a. Melakukan stratifikasi pada data.

b. Membagi data menjadi 10 bagian yang sama.

c. Mengambil sampel satu bagian data sebagai data testing dan menggunakan 9 bagian data lainnya sebagai data training.

(46)

e. Mempartisi variabel prediktor menjadi (

k

) subruang partisi dari data training.

f. Menyusun model LR masing-masing subruang partisi dari data training.

g. Mendapatkan nilai akurasi prediksi dari masing-masing model untuk semua pengamatan dari data testing.

h. Menghitung nilai rata-rata dari semua nilai prediksi untuk masing-masing pengamatan.

i. Mengulangi langkah a hingga e sampaiterbentuk n ensemble.

j. Mencari nilai prediksi terbanyak masing-masing pengamatan diantara semua ensemble.

k. Menghitung nilai threshold optimal.

l. Membandingkan hasil dari langkah g dengan nilai threshold 0,5 dan threshold optimal.

m.Mengulangi semua langkah hingga semua data telah diperlakukan sebagai data training dan data testing. 8. Menghitung nilai accuracy, sensitivity, specificity dan AUC

dari semua model yang terbentuk.

9. Memilih metode terbaik dari hasil analisis pada langkah 2, 3, 4, 5 dan 6 berdasarkan ketepatan klasifikasi terbaik.

10. Membuat kesimpulan dari hasil analisis yang telah dilakukan.

(47)

Gambar 3.1 Diagram Alir Penelitian Mulai

Data Microarray DNA

Analisis Karakteristik Data

Analisis NBC Analisis Binary Logistic Regression

Analisis LORENS

Evaluasi full training set

dan CV

Evaluasi full training set dan

CV Evaluasi hold out

(70% training dan 30% testing)

Perhitungan ukuran kebaikan model

Pemilihan metode terbaik

(48)

(49)

31

4.1 Analisis Karakteristik Data

Penelitian mengenai klasifikasi gen ini ditujukan untuk mengetahui deteksi dini penyakit Alzheimer dengan memanfaatkan data yang diperoleh dari microarray DNA. Penelitian ini menggunakan variabel respon yang bersifat biner, yaitu gen yang bersifat normal dan gen yang terindikasi penyakit Alzheimer. Sedangkan variabel prediktor yang digunakan adalah 20 gen yang diduga sebagai identifier penyakit Alzheimer. Sebanyak 178 sampel ekspresi gen dari hasil scanning microarray DNA digunakan untuk memprediksi klasifikasi gen normal dan Alzheimer. Gambar 4.1 berikut menunjukan proporsi kelas respon yang digunakan dalam penelitian ini.

Gambar 4.1Perbandingan Jumlah Gen Antara Gen Normal dan Alzheimer

Gambar 4.1 menunjukan bahwa sebanyak 98 gen Alzheimer atau sebanyak 55% gen Alzheimer digunakan sebagai sampel dalam penelitian ini, sedangkan gen normal yang digunakan dalam penelitian ini adalah 80 atau 45% dari total sampel gen yang digunakan. Hal tersebut menunjukan bahwa kelas respon

98 80

Jumlah Gen pada masing-masing Kelas

(50)

yang digunakan dalam penelitian ini tidak balance, sehingga diperlukan perhitungan threshold optimal dalam proses klasifikasi yang akan dilakukan. Klasifikasi dilakukan dengan menggunakan 20 variabel prediktor yang telah diseleksi dari 11.555 variabel. Variabel prediktor yang digunakan merupakan komponen penyusun DNA. Nilai variabel prediktor yang digunakan dalam penelitian ini adalah nilai hasil scanning microarray. Gambar dibawah ini merupakan grafik perbandingan nilai rata-rata nilai hasil scanning microarray ke-20 variabel prediktor antara gen normal dan gen yang terkait dengan sindrom Alzheimer.

Gambar 4.2Perbandingan Rata-Rata Nilai Scanning Microarray Gen Normal dan Alzheimer

(51)

(52)

4.2 Pengujian Proporsi Variabel Respon

Pengujian proporsi antar kelas dalam variabel respon diperlukan untuk mengetahui apakah proporsi antara gen Alzheimer dan gen normal seimbang atau tidak. Pengujian proporsi ini mengunakan uji Z statistik, dengan hipotesis sebagai berikut.

H0 : Proporsi Kelas Alzheimer sama dengan 0,5

H1 : Proporsi Kelas Alzheimer tidak sama dengan 0,5

Pengambilan keputusan dilakukan dengan mengunakan p-value. Berikut ini merupakan tabel perbandingan p-value dengan alpha 0,05.

Tabel 4.1. Perbandingan P-value dan alpha

Z P-value Alpha

1,349 0,202 0,05

Karena p-value lebih besar daripada alpha 0,05, maka keputusannya adalah gagal menolak H0. Artinya proporsi antara

kelas gen Alzhiemer dan Normal dikatakan sama secara statistik. Hal tersebut mengakibatkan nilai accuracy dan AUC yang digunakan akan memiliki nilai yang hampir sama. Namun proporsi antara kelas Alzheimer dan normal belum tentu sama pada tiap fold Cross Validation, sehingga AUC tetap digunakan dalam penelitian ini.

4.3 Analisis Naive Bayes Classifier Full Training Set

(53)

terbesar. Apabila nilai peluang kelas respon 1 lebih besar daripada kelas respon 0, maka data tersebut masuk kedalam kelas 1, begitu juga sebaliknya. Dengan menggunakan 20 prediktor, gambar struktur Naïve Bayes memprediksi gen dapat diilustrasikan kedalam gambar berikut.

Gambar 4.3 Struktur Naïve Bayes Klasifikasi Gen

Selanjutnya adalah melakukan perhitungan nilai probabilitas pada masing-masing pasangan data. nilai probabilitas yang terbesar memiliki kecendrungan lebih besar terhadap prediksi klasifikasi variabel respon. Naïve Bayes mengharuskan variabel prediktornya diskrit, apabila ada beberapa atau semua variabel prediktor yang bersifat kontinyu maka (P A Ci| j) harus dihitung dengan pendekatan distribusi normal. Sebelum menghitung nilai

( _i| _j)

(54)

dibawah ini merupakan perhitungan rata-rata dan standar deviasi pada semua variabel prediktor dan kelas respon.

Tabel 4.2 Rata-Rata dan Standar Deviasi Setiap Prediktor dan Kelas

Gen Rata-Rata Standar Deviasi

C=0 C=1 C=0 C=1

WWOX 0,1381 0,1707 0,0464 0,0679

TAGLN3 0,1592 0,1470 0,0765 0,0633

COL5A2 0,1672 0,1239 0,0929 0,0769

MT1F 0,1200 0,1686 0,0519 0,0933

ERF 0,1210 0,1720 0,0555 0,0840

APLNR 0,1005 0,1585 0,0602 0,1218

WIF1 0,1587 0,1259 0,0955 0,0855

GFAP 0,1129 0,1719 0,0475 0,0965

ITPKB 0,1266 0,1679 0,0753 0,0721

COLEC12 0,1176 0,1625 0,0552 0,1046

LDHA 0,1570 0,1426 0,0745 0,0782

SLC16A5 0,1317 0,1676 0,0657 0,0728

NRN1 0,1576 0,1439 0,0749 0,0743

SYT5 0,1465 0,1504 0,0848 0,0713

VCAN 0,1350 0,1687 0,0626 0,0674

NPTX2 0,1620 0,1319 0,0997 0,0647

HPCA 0,1548 0,1348 0,0966 0,0761

RAB6A 0,1567 0,1518 0,0678 0,0650

WWTR1 0,1231 0,1678 0,0699 0,0811

MT1H 0,1229 0,1680 0,0463 0,0937

(55)

Tabel 4.3 Peluang Tiap Kategori Pada Data Testing Pertama

Variabel Prediktor P X( ₁| C0) P X( ₁| C 1)

WWOX 0,3698 0,1638

TAGLN3 0,9975 0,9281

COL5A2 0,0878 0,0050

MT1F 0,4011 0,1759

ERF 0,0004 5,6.10-5

APLNR 2,5.10-8 _3,1.10-6

WIF1 0,4107 0,1456

GFAP 0,0001 0,0018

ITPKB 0,0010 8,3.10-8

COLEC12 0,9226 0,8656

LDHA 0,4089 0,3177

SLC16A5 0,0004 3,6.10-6

NRN1 0,1841 0,1159

SYT5 0,0089 0,0016

VCAN 0,0657 0,0038

NPTX2 0,9428 0,4809

HPCA 0,5952 0,2605

RAB6A 0,1847 0,1323

WWTR1 0,0202 0,0005

MT1H 0,6539 0,3689

Tabel 4.3 diatas menunjukan nilai peluang untuk masing-masing variabel prediktor pada data testing pertama. Untuk peluang parsial pada masing-masing prediktor pada tabel diatas dapat diketahui bahwa nilai peluang variabel prediktor X1 yaitu

(56)

1 2 20 0 1,1 0 1, 2 0 1, 20 0

Berdasarkan ilustrasi perhitungan posterior probability pada data testing pertama, didapatkan hasil bahwa data testing pertama diklasifikasikan kedalam kelas 0, yaitu gen normal. Hal tersebut dilakukan karena nilai peluang dari kelas gen normal lebih tinggi daripada kelas gen Alzheimer. Perhitungan yang sama dilakukan sampai dengan data testing terakhir.

Tabel 4.4 Perhitungan Posterior Probability pada Data Testing

No Kelas 0

(Gen Normal)

Kelas 1

(Gen Alzheimer) Kelas Prediksi

(57)

Berdasarkan Tabel 4.4, didapatkan nilai posterior probability untuk keseluruhan data testing. Dari nilai tersebut selanjutnya dapat dilakukan prediksi klasifikasi. Kelas prediksi didapatkan dari nilai peluang terbesar pada masing-masing kelas. Apabila kelas 0 ata gen normal memiliki nilai peluang yang lebi tinggi maka data testing tersebut masuk kedalam kelas 0 atau gen normal, begitu juga sebaliknya. Setelah semua data testing berhasil diprediksi, selanjutnya dilakukan pengelompokan True Positive, True Negative, False Positif dan False Negative. Hasil pengelompokan tersebut dapat dilihat pada tabel dibawah ini.

Tabel 4.5 Tabulasi Silang pada Analisis Naïve Bayes Classifier

Kelas Aktual

+ -

Kelas Prediksi + 59 39

- 12 68

Bedasarkan Tabel 4.15, dapat diketahui bahwa analisis menggunakan Naïve Bayes Classifier dan menggunakan 20 variabel memberikan hasil 59 ekspresi gen Alzheimer yang tepat diprediksi sebagai gen Alzheimer dan 68 ekspresi gen normal yang diprediksi sebagai gen normal. Sedangkan terdapat 39 ekspresi gen Alzheimer yang diprediksi sebagai gen normal dan 12 ekpresi gen normal yang diprediksi sebagai gen Alzheimer. Ukuran accuracy dari hasil prediksi diatas adalah 0,71348 dengan sensitivity sebesar 0,83098 dan specificity 0,6355. Analisis menggunakan Naïve Bayes Classifier telah mampu memprediksi ekpresi gen dengan ketepatan sebesar 71,35%. Metode ini cukup baik mengkasifikasikan gen Alzheimer tepat kedalam kelasnya sebesar 83,1%, sedangkan untuk memprediksi gen normal tepat terklasifikasi kedalam gen normal sebesar 63,55%.

4.4 Analisis Naive Bayes Classifier Cross Validation

(58)

testing. Analisis ini dilakukan dengan membagi data menjadi 10-folds yang seimbang. Salah satu fold akan dijadikan data testing dan Sembilan sisanya akan menjadi data training. Hal tersebut berulang sampai semua fold pernah menjadi data testing. Berikut ini merupakan tabulasi silang dari analisis Naïve Bayes Classifier.

Tabel 4.6 Tabulasi Silang Kelas Aktual dan Prediksi Naïve Bayes

Classifier Cross Validation

Kelas Aktual

+ -

Kelas Prediksi + 40 65 - 15 58

Berdasarkan Tabel 4.6, dapat diketahui bahwa terdapat 40 gen Alzheimer yang terprediksi tepat kedalam kelas Alzheimer. 58 gen normal yang tepat terprediksi kedala gen normal, sedangkan kesalahan dari prediksi sangat besar. Kesalahan dalam memprediksi gen Alzheimer namun masuk kedalam kelas normal terdapat 65 gen dan kesalahan dalam memprediksi gen normal namun masuk kedalam kelas Alzheimer terdapat 15 gen. berikut ini merupakan perhitungan ketepatan klasifikasi.

Tabel 4.7. Ukuran Kebaikan Klasifikasi Naïve Bayes Classifier

Crosss Validation

Accuracy Sensitivity Specifity AUC

0.55056 0.72727 0.47154 0.59941

Ukuran accuracy dari analisis diatas termasuk rendah bila dibandingkan dengan akurasi dari metode lainnya, hanya sekitar 55,06% dengan sensitivity sebesar 72,73% dan specifity sebesar 47,15%. Analisis ini memiliki nilai AUC sebesar 0,5994, yang mengindikasikan bahwa analisis ini lemah dalam menangani kasus klasifikasi gen.

4.5 Analisis Binary Logistic Regression Full Training Set

(59)

Evaluasi dalam analisis ini mmenggunakan prosedur Full Training Set. Dimana keseluruhan data akan digunakan sebagai data training, dan keseluruhan data pula yang digunakan sebagai data testing untuk menguji seberapa baik model yang terbentuk.

Koefisien parameter model regresi diestimasi menggunakan

Maximum Likelihood Estimation dari data training yang

digunakan untuk membangun model. Berikut ini adalah hasil estimasi parameter model Binary Logistic pada data training.

Tabel 4.8 Koefisien Parameter Awal Model Binary Logistic Regression

Full Training Set

Parameter Koefisien Wald P-Value

(60)

variabel yang tidak signifikan sampai didapatkan koefisien model regresi logistik yang seluruhnya signifikan. Berikut ini merupakan tabel koefisien regresi logistik biner yang telah melalui eliminasi backward.

Tabel 4.9 Koefisien Parameter Terbaik Model Binary Logistic

Regression

Intercept -4,26 16,1 0,000 variabel prediktor yang dieliminasi dari total 20 variabel prediktor. Seluruh koefisien parameter mempunyai p-value diatas batas kesalahan yang ditetapkan untuk mengeliminasi, yaitu 5%. Setelah koefisien parameter didapatkan, selanjutnya dapat dilanjutkan dengan menuliskan model yang terbentuk. Model regresi logistik biner yang terbentuk adalah sebagai berikut.

4 5 6 19

(61)

Tabel 4.10 Tabulasi Silang pada Binary Logistic Regression

Kelas Aktual

+ -

Kelas Prediksi + 68 6

- 30 74

Berdasarkan Tabel 4.10, dapat diketahui bahwa dari 54 data testing yang digunakan, 26 gen Alzheimer tepat terprediksi kedalam kelas Alzheimer, 7 gen normal tepat terprediksi kedalam kelas gen normal dan sisanya tidak terklasifikasi dengan tepat. Dari tabulasi diatas, selanjutnya dapat dhitung nilai keteatan klasifikasi. Berikut ini merupakan perhitungan ketepatan klasifikasi.

Tabel 4.11 Ukuran Kebaikan Model Binary Logistic Regression

Model Accuracy Sensitivity Specificity AUC

Regresi Logistik 0,798 0,694 0,925 0,809

Model Binary Logistic Regression mampu memperoleh akurasi sebesar 79,8%. Dengan nilai sensitivity dan specificity sebesar 69,4% dan 92,5%. AUC yang dihasilkan oleh analisis ini adalah 80,9%. Model yang terbentuk dapat mengklasifikasikan variabel respon dengan baik.

4.6 Analisis Binary Logistic Regression Cross Validation

Salah satu prosedur evaluasi dalam klasifikasi adalah Cross

Validation. Prosedur ini dapat mengevaluasi model yang

terbentuk dengan baik, karena semua data diperlakukan sebagai data training dan data testing. Pada penelitian ini, Cross Validation dilakukan dengan menggunakan 10 folds. Pada masing-masing fold akan terbentuk satu model regresi logistik biner, sehingga dalam analisis ini akan terbentuk 10 model regresi logistik biner yang berbeda.

(62)

signifikansi parameter sampai dengan didapatkan model terbaik dari masing-masing fold. Berikut ini adalah estimasi koefisien parameter model Binary Logistic pada fold pertama.

Tabel 4.12 Koefisien Parameter Awal Model fold ke-1 CV Binary

Logistic Regression

(63)

parameter dari model regresi logistik yang telah seluruhnya signifikan.

Tabel 4.13 Koefisien Parameter Terbaik Model Fold ke-1 CV Binary

Logistic Regression

Intercept -5,06 15,01 0,000

X3 -12,42 9,90 0,002

X8 25,84 9,47 0,002

X10 16,64 5,80 0,016

X12 -9,33 6,17 0,013

X15 -15,67 4,05 0,044

X16 -19,77 7,04 0,008

X18 20,02 6,73 0,009

X20 18,45 6,02 0,013

(64)

Tabel 4.14 Model Binary Logistic Regression Pada Seluruh Fold

Fold Model Binary Logistic Regression

1 3 8 10 12 15 16 18 20

3 8 10 12 15 16 18 20

5,06 12,42 25,84 16,64 9,33 15,67 19,77 20,02 18,45 5,06 12,42 25,84 16,64 9,33 15,67 19,77 20,02 18,45

1

4,39 9,32 13,92 9,49 10,88 21,06 16,44 17,42 12,3 4,39 9,32 13,92 9,49 10,88 21,06 16,44 17,42 12,3

1

1,81 16,19 12,68 16,92 11,97 14,94 28,89 20,7 1,81 16,19 12,68 16,92 11,97 14,94 28,89 20,7

1

3,33 24,66 26,28 23,72 38,44 3,33 24,66 26,28 23,72 38,44

1

Dari model yang terbentuk pada masing-masing fold, selanjunya dapat dihitung True Positive, True Negative, False Positive dan False Negative dari seluruh fold. Dari perhitungan tersebut, dapat dilanjutkan dengan menghitung ukuran ketepatan klasifikasi model Binary Logistic Regression dengan prosedur evaluasi Cross Validation. Tabel dibawah ini merupakan tabel yang menunjukan ukuran ketepatan klasifikasi pada analisis Binary Logistic Regression dengan prosedur evaluasi Cross Validation.

Tabel 4.15 Tabulasi Silang pada Binary Logistic Regression

(65)

klasifikasi pada analisis ini cukup besar. Perhitungan ukuran kebaikan model diperlukan untuk mengevaluasi model yang terbentuk. Berikut ini merupakan tabel yang menunjukan ukuran kebaikan model Binary Logistic Regression dengan evaluasi Cross Validation.

Tabel 4.16 Ukuran Kebaikan Model Binary Logistic Regression CV

Model Acc Sens Spec AUC

10 Fold CV Binary Logistic 0,652 0,562 0,781 0,671

Analisis Binary Logistic Regression dengan prosedur evaluasi Cross Validation mampu menghasilkan accuracy sebesar 65,2% dengan sensitifity 56,2% dan specificity sebesar 78,1%. Nilai AUC yang dihasilkan pada analisis ini sebesar 0,671, artinya model yang terbentuk belum cukup baik untuk menangani kasus klasifikasi gen yang terkait sindrom Alzheimer.

4.7 Analisis LORENS Full Training Set

Analisis Logistic Regression Ensembles (LORENS) merupakan pendekatan komputasional untuk menyelesaikan masalah klasifikasi. LORENS tidak memiliki asumsi apapun untuk dipenuhi. Demi mendapatkan hasil klasifikasi terbaik, analisis LORENS dilakukan beberapa kali dengan jumlah partisi yang berbeda pula. Dalam kasus ini, partisi yang dibentuk adalah sebanyak 2, 3, 4 dan 5 partisi. Kelebihan LORENS yang lain adalah dapat menemukan nilai threshold optimal, namun pada penelitian ini analisis LORENS dengan threshold 0,5 tetap akan digunakan sebagai perbandingan. Nilai ensemble yang akan digunakan dalam penelitian ini adalah sebesar 10, karena dari hasil penelitian sebelumnya dapat menghasilkan akurasi klasifikasi yang baik. Dengan ukuran ensemble 10, model yang didapatkan untuk 2 partisi adalah 20 model, 3 partisi adalah 30 model, 4 partisi adalah 40 model dan untuk 5 partisi adalah 50 model.

(66)

terus sampai dengan jumlah ensemble yang ditentukan. Dalam penelitian ini, 20 variabel prediktor yang digunakan akan dialokasikan ke dalam ruang-ruang partisi yang terbentuk. Berikut ini adalah analisis LORENS untuk masing-masing ruang partisi. Pada analisis LORENS full training set, didapatkan hasil paling baik menggunakan 5 partisi dengan threshold 0,5.

Analisis LORENS menggunakan 4 partisi dengan threshold 0,5 dan proses tersebut berulang sebanyak ensemble yang ditentukan, yaitu 10 kali membentuk 40 model regresi logistik. Tahap pertama dalam analisis LORENS adalah membagi variabel kedalam beberapa ruang partisi, partisi yang menghasilkan hasil terbaik pada penelitian ini adalah sebesar 4 partisi. Berikut adalah tabel pengalokasian variabel prediktor kedalam ruang partisi.

Tabel 4.17 Random Sampling Variabel Prediktor pada 4 Ruang Partisi

(67)

Tabel 4.17 menunjukan pengalokasian variabel prediktor

ruang partisi keempat. Cara pengalokasian variabel prediktor yang sama juga dilakukan untuk ensemble ke-2 hingga ke-10. Tiap ensemble akan terbentuk 4 model regresi logistik yang berbeda dengan variabel prediktor yang berbeda pula.

Tabel 4.18 Koefisien Model Regresi Logistik 4 Partisi Threshold 0,5

Intercept ens1 ens2 ens3 ens4 ens5 ens6 ens7 ens8 ens9 ens10

Partisi ke-1 dilambangkan warna Partisi ke-2 dilambangkan warna Partisi ke-3 dilambangkan warna Partisi ke-4 dilambangkan warna

(68)

masing-masing ensemble. Pada masing-masing ensemble terbentuk 4 model dengan koefisien yang ada pada tabel 4.2 diatas. Koefisien variabel prediktor tiap model regresi logistik sesuai dengan pengalokasian variabel prediktor pada tabel 4.1. Berikut ini merupakan ilustrasi beberapa model regresi logistik yang terbentuk pada ensemble pertama.