• Tidak ada hasil yang ditemukan

PROPENSITY SCORE MATCHING MENGGUNAKAN SUPPORT VECTOR MACHINE PADA KASUS DIABETES MELITUS (DM) TIPE 2

N/A
N/A
Protected

Academic year: 2022

Membagikan "PROPENSITY SCORE MATCHING MENGGUNAKAN SUPPORT VECTOR MACHINE PADA KASUS DIABETES MELITUS (DM) TIPE 2"

Copied!
165
0
0

Teks penuh

(1)

TESIS – SS142501

PROPENSITY SCORE MATCHING MENGGUNAKAN SUPPORT VECTOR MACHINE PADA KASUS

DIABETES MELITUS (DM) TIPE 2

SILVIATUL HASANAH NRP. 062116 5001 0034

DOSEN PEMBIMBING

Dr. Bambang Widjanarko Otok

Dr. Purhadi

(2)

TESIS – SS14 2501

PROPENSITY SCORE MATCHING MENGGUNAKAN SUPPORT VECTOR MACHINE PADA KASUS DIABETES MELITUS (DM) TIPE 2

SILVIATUL HASANAH NRP. 06211650010034

Dosen Pembimbing:

Dr. Bambang Widjanarko Otok Dr. Purhadi

PROGRAM MAGISTER DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA, KOMPUTASI, DAN SAINS DATA INSTITUT TEKNOLOGI SEPULUH NOPEMBER

SURABAYA 2018

(3)

THESIS – SS14 2501

PROPENSITY SCORE MATCHING USING SUPPORT VECTOR MACHINE IN CASE OF TYPE 2 DIABETES MELLITUS (DM)

SILVIATUL HASANAH NRP. 06211650010034

Supervisor:

Dr. Bambang Widjanarko Otok Dr. Purhadi

MAGISTER PROGRAM

DEPARTEMENT OF STATISTICS

FACULTY OF MATHEMATICS, COMPUTING, AND DATA SCIENCES INSTITUT TEKNOLOGI SEPULUH NOPEMBER

SURABAYA 2018

(4)
(5)

iii

(6)

iv

(Halaman ini sengaja dikosongkan)

(7)

v

PROPENSITY SCORE MATCHING MENGGUNAKAN SUPPORT VECTOR MACHINE PADA KASUS DIABETES

MELITUS (DM) TIPE 2

Nama mahasiswa : Silviatul Hasanah

NRP : 06211650010034

Pembimbing : Dr. Bambang Widjanarko Otok Co-Pembimbing Dr. Purhadi

ABSTRAK

Penelitian non-experimental dapat dilakukan diberbagai bidang salah satunya bidang kesehatan. Dalam bidang kesehatan Randomized Controlled Trials (RCT) tidak dapat dilakukan karena berhubungan dengan nyawa manusia. Pengacakan yang tidak dapat dilakukan pada penelitian non-experimental menyebabkan kovariat tidak seimbang antara kelompok treatment dan kontrol.

Ketidakseimbangan ini menyebabkan estimasi efek perlakuan menjadi bias.

Selain itu, adanya variabel confounding juga mengakibatkan estimasi efek perlakuan bias. Metode yang dapat digunakan untuk mengatasi estimasi yang bias pada efek perlakuan adalah metode Propensity Score (PS). Salah satu metode yang dikembangkan dari propensity score adalah metode Propensity Score Matching (PSM). Variabel confounding yang digunakan dalam penelitian ini adalah variabel aktivitas olahraga. Tujuan penelitian ini adalah mendapatkan hasil estimasi propensity score menggunakan metode support vector machine dan regresi logistik biner, kemudian setelah mendapatkan nilai estimasi tersebut menghitung hasil bias sebelum dilakukan matching serta bias setelah dilakukan matching dengan menggunakan metode propensity score matching support vector machine dan propensity score matching regresi logistik biner. Selanjutnya mendapatkan signifikansi hasil Average Treatment of Treated (ATT) untuk melihat pengaruh antara variabel confounding (Z) dengan variabel respon (Y).

Data yang digunakan dalam penelitian ini adalah data pasien Diabetes Melitus (DM) tipe 2 yang di rawat di Rumah Sakit Umum Daerah (RSUD) Pasuruan pada periode Maret 2016. Signifikansi hasil ATT untuk PSM-SVM maupun PSM- regresi logistik biner menunjukkan bahwa variabel aktivitas olahraga (Z) berpengaruh secara signifikan terhadap variabel komplikasi penyakit (Y). Metode PSM-SVM mampu mereduksi bias sebesar 16,65% dan metode PSM-regresi logistik biner mampu mereduksi bias sebesar 43,76%. Metode propensity score matching support vector machine merupakan metode yang lebih baik dibandingkan metode propensity score matching regresi logistik biner karena menghasilkan nilai bias setelah matching yang lebih kecil yaitu sebesar 0,0836.

Kata Kunci: ATT, Bias, Confounding, Diabetes Melitus, Non-experimental, Propensity Score Matching, Regresi Logistik Biner, SVM.

(8)

vi

(Halaman ini sengaja dikosongkan)

(9)

vii

PROPENSITY SCORE MATCHING USING SUPPORT VECTOR MACHINE IN CASE OF TYPE 2 DIABETES

MELITUS (DM)

Name : Silviatul Hasanah

NRP : 06211650010034

Supervisor : Dr. Bambang Widjanarko Otok Co-Supervisor : Dr. Purhadi

ABSTRACT

Non-experimental study can be done in various fields one of them is health field.

In the health field Randomized Controlled Trials (RCT) can not be done because it related to human life. Randomization that can not be done in non-experimental studies causes unbalanced covariates between treatment and control groups. This imbalance causes the estimation of the treatment effect was biased. In addition, the presence of confounding variables also results in biased estimation of treatment effect. The appropriate method to handle the bias estimation of treatment effect is Propensity Score (PS) method. One of the methods that have been developed from the propensity score is Propensity Score Matching (PSM).

Confounding variables that used in this study is exercise activities. The purpose of this study is to get the result of propensity score estimation using support vector machine method and binary logistic regression, then after getting the estimated value, calculate bias before matching and bias after matching by using propensity score matching-support vector machine and propensity score matching-binary logistic regression. Furthermore getting the significance of Average Treatment of Treated (ATT) to see the effect of confounding variable (Z) with response variable (Y). The data used in this study is type 2 Diabetes Mellitus (DM) patients data treated at Pasuruan regional public hospital on March period 2016.

Significance results of Average Treatment of Treated (ATT) for PSM-SVM and PSM-binary logistic regression showed that the exercise activity variables (Z) has significant influence for disease complication variables (Y). The PSM-SVM method can reduce the bias by 16.65% and the binary logistic PSM-regression method can reduce the bias by 43.76%. The PSM-support vector machine method is a better than PSM-binary logistic regression method because it produces a bias value after matching smaller, namely 0.083.

Keywords: ATT, Bias, Binary logistic regression, Confounding, Diabetes Mellitus, Non-experimental, Propensity Score Matching, SVM.

(10)

viii

(Halaman ini sengaja dikosongkan)

(11)

ix

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Allah SWT atas rahmat dan karunia- Nya kepada penulis, serta sholawat dan salam selalu tercurahkan kepada Nabi Muhammad SAW sehingga penulis dapat menyelesaikan Tesis dengan judul

“Propensity Score Matching Menggunakan Support Vector Machine Pada Kasus Diabetes Melitus (DM) Tipe 2”. Keberhasilan dalam penyelesaian Tesis ini tidak lepas dari bantuan, arahan, bimbingan, serta dukungan dari berbagai pihak. Untuk itu, penulis tidak lupa menyampaikan ucapan terima kasih sebesar-besarnya kepada:

1. Bapak Dr. Bambang Widjanarko Otok, M.Si dan Bapak Dr. Purhadi, M.Sc.

selaku dosen pembimbing Tesis yang telah sabar memberikan pengarahan, saran, dan semangat kepada penulis untuk menyelesaikan Tesis ini..

2. Ibu Santi Wulan Purnami, M.Si, Ph.D dan Ibu Santi Puteri Rahayu, M.Si, Ph.D selaku dosen penguji yang telah memberikan arahan dan masukan kepada penulis dalam menyelesaikan tesis.

3. Ibu Dr. Kartika Fithriasari, M.Si, selaku dosen wali selama masa perkuliahan yang telah banyak memberikan saran dan arahan dalam proses belajar di Departemen Statistika ITS.

4. Bapak Dr. Suhartono, M.Sc dan Bapak Dr. rer. pol. Heri Kuswanto, M.Si selaku Ketua Departemen dan Ketua Program Studi Pasca Sarjana Statistika- FMKSD ITS Surabaya.

5. Ibu dan Ayah tercinta, adik fifa, beserta keluarga besar yang tak henti- hentinya memberikan do’a, dukungan dan semangat untuk kesuksesan penulis.

6. Seluruh dosen dan karyawan di lingkungan Departemen Statistika ITS yang telah memberikan banyak ilmu, pengalaman dan bantuan kepada penulis selama menempuh proses perkuliahan.

7. Rumah Sakit Umum Daerah (RSUD) Pasuruan yang telah bersedia memberikan data kepada penulis.

(12)

x

8. Rekan seperjuangan dari Lab.Lingkungan Kesehatan, Ernawati, Milasari, Arlene, Farida, Niswa, Nendy, Rana, Silvyah dan teman-teman lain yang tidak dapat disebutkan satu per satu yang senantiasa berbagi ilmu dan motivasi kepada penulis dalam menyelesaikan Tesis ini.

9. Teman setanah air, M. Rizky Fauzy, I Made Gde Meranggi Dana, dan Elly Pusporani yang telah bersedia mendengarkan keluh kesah penulis selama pembuatan Tesis sehingga Tesis ini dapat terselesaikan.

10. Teman-teman seperjuangan di Pascasarjana S2 Statistika ITS 2016, yang selama kuliah bersama-sama dengan penulis. Susah, senang, serta jatuh bangunnya selama perjuangan penulis hingga empat semester berada di tengah-tengah kalian.

11. Semua pihak yang telah memberikan bantuan maupun dukungan yang tidak dapat disebutkan satu persatu dalam penyusunan Tesis ini.

Penulis menyadari sepenuhnya bahwa penyusunan Tesis ini masih jauh dari kesempurnaan, kritik maupun saran yang sifatnya membangun sangat diharapkan sebagai masukan dalam penelitian selanjutnya. Semoga penelitian ini bermanfaat bagi pembaca.

Surabaya, Juli 2018

Penulis

(13)

xi

DAFTAR ISI

Halaman

HALAMAN JUDUL ... i

LEMBAR PENGESAHAN ... iii

ABSTRAK ... v

ABSTRACT ... vii

KATA PENGANTAR ... ix

DAFTAR ISI ... xi

DAFTAR GAMBAR ... xv

DAFTAR TABEL ... xvii

DAFTAR LAMPIRAN ... xix

BAB 1. PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Permasalahan ... 8

1.3 Tujuan Penelitian ... 9

1.4 Manfaat Penelitian ... 9

1.5 Batasan Masalah ... 10

BAB 2. TINJAUAN PUSTAKA ... 11

2.1 Model Support Vector Machine (SVM) ... 11

2.1.1 SVM Linier Separable ... 12

2.1.2 SVM Linier Non-Separable ... 15

2.1.3 SVM Non-Linier Separable ... 17

2.2 Model Regresi Logistik Biner ... 19

2.2.1 Uji Signifikansi Parameter ... 28

2.2.2 Interpretasi Koefisien Parameter (Odd Ratio) ... 29

2.2.3 Uji Kesesuaian Model ... 30

2.3 Propensity Score ... 31

2.3.1 Faktor Confounding... 33

2.3.2 Propensity Score Menggunakan Regresi Logistik Biner ... 36

(14)

xii

2.3.3 Propensity Score Menggunakan Support Vector Machine ... 36

2.3.4 Propensity Score Matching... 36

2.3.5 Postmatching ... 39

2.3.6 Evaluasi Propensity Score Matching ... 39

2.3.7 Uji Balance Kovariat ... 39

2.3.7.1 Uji-t ... 40

2.3.7.2 Uji-z ... 41

2.3.8 Estimasi Average Treatment for Treated (ATT) ... 41

2.4 Konsep Klasifikasi ... 42

2.5 Metode Pengujian K-Fold Cross Validation ... 43

2.6 Metode Taguchi ... 44

2.7 Diabetes Melitus (DM) ... 45

2.7.1 Komplikasi Penyakit Diabetes Melitus Tipe 2 ... 47

2.7.2 Faktor yang Memengaruhi Komplikasi Penyakit DM Tipe 2 ... 47

BAB 3. METODOLOGI PENELITIAN ... 51

3.1 Sumber Data ... 51

3.2 Variabel Penelitian ... 51

3.3 Langkah Analisis ... 52

3.4 Diagram Alir Penelitian ... 60

BAB 4. ANALISIS DAN PEMBAHASAN ... 61

4.1 Hasil Estimasi Propensity Score Menggunakan Metode SVM ... 61

4.1.1 Gambaran Umum Karakteristik Pasien DM Tipe-2 ... 61

4.1.2 Pemilihan Variabel Confounding ... 69

4.1.3 Estimasi Nilai Propensity Score dengan SVM ... 71

4.2 Hasil Bias Sebelum Matching dan Sesudah Matching ... 74

a. Analisis Matching dengan Support Vector Machine ... 75

b. Analisis Matching dengan Regresi Logistik Biner ... 76

4.3 Signifikansi Hasil Average Treatment of Treated (ATT) ... 79

a. Propensity Score Matching dengan Support Vector Machine ... 79

b. Propensity Score Matching dengan Regresi Logistik Biner... 82

(15)

xiii

BAB 5. KESIMPULAN DAN SARAN ... 87

5.1 Kesimpulan ... 87

5.2 Saran ... 87

DAFTAR PUSTAKA ... 89

LAMPIRAN ... 95

BIOGRAFI PENULIS ... 143

(16)

xiv

(Halaman ini sengaja dikosongkan)

(17)

xv

DAFTAR GAMBAR

Halaman

Gambar 2.1 Klasifikasi SVM: Klasifikasi Linearly Separable (kiri)

dan Linearly Nonseparable ... 11

Gambar 2.2 Klasifikasi Linearly Separable dengan Metode SVM... 12

Gambar 2.3 Klasifikasi Linearly Non-Separable dengan Metode SVM ... 16

Gambar 2.4 Fungsi memetakan data ke ruang berdimensi lebih tinggi ... 18

Gambar 2.5 Grafik Model Regresi Logistik ... 22

Gambar 2.6 Ilustrasi Konsep Propensity Score ... 33

Gambar 2.7 Ilustrasi Faktor Confounding ... 34

Gambar 2.8 Ilustrasi Algoritma Nearest Neighbor Matching ... 38

Gambar 2.9 Kerangka Konsep Faktor-Faktor yang Memengaruhi Komplikasi Penyakit Pasien DM Tipe 2 ... 48

Gambar 3.1 Diagram Alir Penelitian ... 60

Gambar 4.1 Karakteristik Pasien Berdasarkan Variabel Komplikasi Penyakit ... 62

Gambar 4.2 Karakteristik Pasien Berdasarkan Variabel Jenis Kelamin ... 64

Gambar 4.3 Karakteristik Pasien Berdasarkan Variabel Riwayat Genetik ... 65

Gambar 4.4 Karakteristik Pasien Berdasarkan Variabel Obesitas ... 66

Gambar 4.5 Karakteristik Pasien Berdasarkan Variabel Hipertensi ... 67

Gambar 4.6 Karakteristik Pasien Berdasarkan Variabel Aktivitas Olahraga ... 68

Gambar 4.7 Balance Kovariat PSM-SVM Secara Visual, (a) variabel (X2); (b) Variabel (X3); (c) Variabel (X5); (d) Variabel (X6) ... 80

Gambar 4.8 Balance Kovariat PSM-Regresi Logistik Biner Secara Visual, (a) variabel (X2); (b) Variabel (X3); (c) Variabel (X5); (d) Variabel (X6) ... 83

(18)

xvi

(Halaman ini sengaja dikosongkan)

(19)

xvii

DAFTAR TABEL

Halaman

Tabel 2.1 Nilai Model Regresi Logistik bila Variabel X Dikotomus ... 30

Tabel 2.2 Contoh Perhitungan Matching ... 37

Tabel 2.3 Tabel Matriks Konfusi ... 43

Tabel 2.4 Perbedaan Diabetes Melitus Tipe 1 dan Tipe 2 ... 46

Tabel 3.1 Struktur Data Penelitian... 51

Tabel 3.2 Variabel Penelitian ... 51

Tabel 3.3 Struktur Data Penelitian dengan Variabel Confounding (Z) ... 52

Tabel 3.4 Nilai Akurasi 10-fold ... 54

Tabel 3.5 Nilai Rasio Signal-to-noise ... 56

Tabel 4.1 Karakteristik Pasien Berdasarkan Usia dan Lama Menderita DM ... 62

Tabel 4.2 Pengujian Hubungan Variabel yang Diduga Sebagai Confounding dengan Kovariat (X) Lainnya ... 69

Tabel 4.3 Pengujian Hubungan Variabel yang Diduga Sebagai Confounding dengan Variabel Komplikasi Penyakit ... 71

Tabel 4.4 Score Fungsi Klasifikasi Model SVM

f x

  

... 72

Tabel 4.5 Estimasi Nilai Propensity Score

e x

  

dengan SVM... 72

Tabel 4.6 Estimasi Parameter Model Regresi Logistik Biner antara Kovariat (X) dengan Aktivitas Olahraga (Z) ... 73

Tabel 4.7 Estimasi Nilai Propensity Score

e x

  

dengan Regresi Logistik Biner ... 74

Tabel 4.8 Jumlah Pasangan yang Terbentuk Menggunakan PSM-SVM ... 75

Tabel 4.9 Anggota Treatment dan Kontrol yang Matching Menggunakan PSM-SVM ... 75

Tabel 4.10 Jumlah Pasangan yang Terbentuk Menggunakan PSM- Regresi Logistik Biner ... 76

Tabel 4.11 Anggota Treatment dan Kontrol yang Matching

(20)

xviii

Menggunakan PSM-Regresi Logistik Biner ... 77

Tabel 4.12 Bias Sebelum dan Sesudah Matching ... 78

Tabel 4.13 Hasil Pengujian Balance Kovariat Menggunakan PSM-SVM ... 79

Tabel 4.14 Hasil Estimasi Nilai ATT Pada Metode PSM-SVM ... 82

Tabel 4.15 Hasil Pengujian Balance Kovariat Menggunakan PSM- Regresi Logistik Biner ... 82

Tabel 4.16 Hasil Estimasi Nilai ATT Pada Metode PSM- Regresi Logiastik Biner ... 85

(21)

xix

LAMPIRAN

Halaman

Lampiran 1 Data kasus kejadian diabetes mellitus tipe 2 ... 95

Lampiran 2 Syntax dan output tabulasi silang... 98

Lampiran 3 Syntax dan output chi-square ... 104

Lampiran 4 Syntax dan output estimasi propensity score dengan support vector machine ... 107

Lampiran 5 Syntax dan output estimasi propensity score dengan Regresi logistik biner ... 110

Lampiran 6 Hasil analisis matching PSM-SVM ... 111

Lampiran 7 Syntax dan output bias sebelum dan sesudah matching untuk PSM-SVM ... 114

Lampiran 8 Syntax dan output analisis matching PSM-regresi logistik biner ... 115

Lampiran 9 Syntax dan output bias sebelum dan sesudah matching untuk PSM-regresi logistik biner ... 118

Lampiran 10 Syntax dan output uji balance kovariat untuk PSM-SVM ... 119

Lampiran 11 Syntax dan output uji balance kovariat untuk PSM-regresi logistik biner ... 130

Lampiran 12 Syntax dan output ATT untuk PSM-SVM ... 140

Lampiran 13 Syntax dan output ATT untuk PSM-regresi logistik biner ... 141

Lampiran 14 Surat izin penggunaan data ... 142

(22)

xx

(Halaman ini sengaja dikosongkan)

(23)

1 BAB I PENDAHULUAN

1.1 Latar Belakang

Penelitian atau riset merupakan suatu proses pengumpulan informasi yang dilakukan secara sistematis untuk menyelesaikan suatu masalah yang diteliti.

Secara umum penelitian dibagi menjadi dua yaitu penelitian experimental dan non-experimental (observasi). Penelitian experimental merupakan penelitian yang dilakukan secara acak terhadap kelompok treatment atau kelompok kontrol, dengan tujuan untuk mengetahui akibat yang ditimbulkan dari suatu perlakuan yang diberikan secara sengaja oleh peneliti. Sedangkan penelitian non- experimental (studi observasi) merupakan penelitian empiris dari efek perlakuan ketika kelompok treatment dan kontrol tidak layak dilakukan pengacakan.

Penelitian non-experimental disusun menyerupai percobaan acak sederhana, sehingga pemahaman mengenai peran pengacakan dalam percobaan ini dianggap penting (Rosenbaum & Rubin, 1985). Data yang biasa digunakan dalam penelitian non-experimental ialah data survey, sensus, administratif, rekam medis atau data lainnya yang tidak mungkin dilakukan pengacakan (Guo & Fraser, 2010).

Penelitian experimental dapat dilakukan dibeberapa bidang, misal dalam bidang pertanian digunakan untuk melihat pengaruh pemberian jenis pupuk (AA, AB, AC, dan AD) terhadap tanaman padi. Bidang peternakan digunakan untuk mengetahui pengaruh pemberian ransum (rebon, tempe, casein, dan non protein) terhadap tikus putih. Bidang pendidikan digunakan untuk melihat pengaruh jenis media pembelajaran yang digunakan guru Matematika SMPN X terhadap nilai mata pelajaran Matematika di 4 kelas (tiap kelas media pembelajarannya berbeda- beda).

Penelitian non-experimental dapat dilakukan diberbagai bidang salah satunya bidang kesehatan, misal melihat pengaruh aktivitas olahraga terhadap komplikasi penyakit pada pasien diabetes mellitus tipe 2. Penelitian ini tidak dapat dilakukan pengacakan karena berhubungan dengan nyawa manusia sehingga Randomized Controlled Trials (RCT) tidak dapat dilakukan. Pengacakan yang tidak dapat dilakukan pada kelompok treatment dan kontrol pada penelitian non-

(24)

2

experimental mengakibatkan estimasi efek perlakuan bias. Bias tersebut akan berkurang ketika hasil perbandingan antara estimasi kelompok treatment dan kontrol hampir sama (Becker & Ichino, 2002).

Kovariat pada penelitian non-experimental biasanya tidak seimbang antara kelompok treatment dan kontrol. Ketidakseimbangan antara kelompok treatment dan kontrol akan menyebabkan bias, sehingga untuk mengurangi bias dapat menggunakan metode propensity score. Analisis Propensity score pertama kali diperkenalkan oleh Rosenbaum dan Rubin pada Tahun 1983. Analisis propensity score merupakan metode statistika yang dikembangkan untuk mengestimasi efek perlakuan dengan data non-experimental atau studi observasi (Guo & Fraser, 2010) .Tujuan propensity score adalah menghilangkan ketidakseimbangan kovariat antara kelompok treatment dan kontrol. Kovariat seimbang jika kelompok treatment dan kontrol memiliki distribusi yang sama dari kovariat yang diamati (Littnerova, et al., 2013).

Metode berbasis propensity score secara umum terbagi menjadi 4 yaitu Propensity score Stratification (PSS), Propensity score Matching (PSM), covariate adjustment propensity score dan Inverse Probability of Treatment Weighting propensity score (IPTW) (Austin & Mamdani, 2006). Metode PSS merupakan suatu prosedur untuk mengelompokkan subjek ke dalam beberapa strata berdasarkan nilai estimasi propensity score yang telah diurutkan dari terkecil ke terbesar. Metode ini biasanya dibagi menjadi 5 strata dengan ukuran yang sama menggunakan nilai kuantil dari nilai estimasi propensity score (Kirklin, Hanley, Blackstone, & Kouchoukos, 2013). Metode PSM merupakan metode yang digunakan untuk menyeimbangkan estimasi kelompok treatment dan kontrol dengan cara mencocokkan kelompok treatment dengan kelompok kontrol berdasarkan nilai estimasi propensity score yang paling sama. Metode covariate adjustment propensity score digunakan dengan cara variabel hasil diregresikan dengan variabel indikator yang menunjukkan status perlakuan dan diestimasi propensity score. Pemilihan model regresi bergantung pada sifat hasilnya. Jika hasilnya kontinu, model linier akan dipilih (mengestimasi rata-rata perbedaan adjusted). Sedangkan jika hasilnya dikotomis, model logistik akan dipilih (mengestimasi adjusted odds ratio). Dari keempat metode propensity score,

(25)

3

metode ini merupakan satu-satunya yang memerlukan penetapan model regresi yang berkaitan dengan status perlakuan dan kovariat (propensity score). Metode ini mengasumsikan bahwa sifat hubungan antara propensity score dan hasilnya telah dimodelkan dengan benar. Metode Inverse probability of treatment weighting propensity score (IPTW) merupakan metode yang menggunakan bobot dari nilai propensity score untuk membuat sampel sintetis yang mana distribusi kovariat tidak bergantung pada perlakuan. Penggunaan IPTW sama dengan penggunaan survey sampling weights yang digunakan untuk sampel survei bobot sehingga mewakili populasi tertentu (Austin, 2011a).

Penelitian sebelumnya mengenai estimasi propensity score telah banyak dilakukan yaitu, Islamiah (2015) menggunakan regresi logistik biner untuk mengestimasi nilai propensity score pada kasus HIV/AIDS. Akolo (2016) mengestimasi nilai propensity score menggunakan regresi logistik biner dengan stratifikasi boostrap pada kasus Diabetes Melitus. Ningsih (2016) menggunakan Structural Equation Model - Partial Least Square (SEM-PLS) untuk mengestimasi nilai propensity score pada kasus HIV/AIDS. McCaffrey, Ridgeway & Moral (2004) menggunakan Generalized Boosted Model (GBM).

Littnerova, et al., (2013) mengestimasi nilai propensity score menggunakan regresi logistik biner. Berdasarkan penelitian diatas masih terdapat beberapa kelemahan seperti metode regresi logistik biner tidak dapat digunakan pada data non linier dan tidak dapat mengklasifikasikan data berdimensi tinggi sehingga diusulkan menggunakan metode machine learning. Metode machine learning yang digunakan dalam penelitian ini adalah metode Support Vector Machine (SVM).

Metode ini memiliki beberapa kelebihan diantaranya adalah SVM memiliki sifat global optima dan dapat digunakan untuk data non-linier, karena fungsi kernel pada SVM secara implisit memuat transformasi non-linier, selain itu SVM juga mampu mengklasifikasikan data berdimensi tinggi dan SVM baik digunakan untuk data sampling kecil.

Penelitian sebelumnya tentang metode pengklasifikasin SVM (Support Vector Machine) telah banyak digunakan, yaitu Guyon, Weston, & Barnhill (2002) menggunakan data DNA Microarray untuk mendeteksi penyakit kanker dan metode yang digunakan adalah SVM dengan algoritma feature selection RFE

(26)

4

(Recursive feature elimination) untuk menyeleksi gen (gene selection). SVM menghasilkan nilai akurasi lebih baik yaitu 100% dibanding metode baseline sebesar 90%. Kumari & Chitra (2013) menggunakan SVM dengan kernel RBF untuk mendeteksi penyakit diabetes melitus, menghasilkan nilai akurasi sebesar 78%, nilai sensitivity sebesar 80% dan specificity sebesar 76,5%. Hongzong, et al., (2007) membandingkan 3 metode untuk mendiagnosis penyakit jantung koroner yaitu metode SVM dengan kernel RBF, LDA, dan gabungan antara metode RBF dan LDA. Metode SVM menghasilkan akurasi training dan testing sebesar 96,8% dan 78,18%. Metode LDA menghasilkan akurasi training dan testing sebesar 90,57% dan 72,72%. Metode gabungan antara metode RBF dan LDA menghasilkan akurasi training dan testing sebesar 92,67% dan 85,4%.

Berdasarkan ketiga metode, SVM merupakan metode yang tepat untuk mendiagnosis penyakit jantung koroner karena menghasilkan nilai akurasi yang lebih tinggi dibanding metode yang lain.

Cho, et al., (2008) mendeteksi penyakit nefropati diabetik menggunakan metode regresi logistik, SVM dengan kernel linier dan kernel RBF (tanpa menggunakan cost-sensitive learning atau feature selection), regresi logistik, SVM dengan kernel linier dan kernel RBF (menggunakan feature selection dengan threshold 0,5), SVM dengan kernel linier dan kernel RBF (menggunakan feature selection dengan threshold 0,5 dan cost-sensitive learning). Didapatkan hasil terbaik menggunakan metode SVM kernel linier dengan 39 feature yang menghasilkan akurasi sebesar 92,1%. Yao, et al., (2012) memprediksi B-cell epitope menggunakan metode Support Vector Machine kombinasi Tri-peptide similarity and Propensity scores (SVMTriP), AAP dan BCPred. Didapatkan hasil bahwa metode SVMTrip merupakan metode terbaik dengan hasil sensitivitas sebesar 80,1 %.

Penelitian tentang metode berbasis propensity score juga telah banyak dikembangkan, yakni: Littnerova, et al., (2013) menggunakan PSM untuk mereduksi pengaruh bias pada penelitian tentang tingkat kematian yang diakibatkan oleh penyakit gagal jantung akut. Didapatkan hasil bahwa kedua jenis kelamin memiliki perbedaan yang signifikan dalam tingkat kematian dan dengan menggunakan PSM kovariat telah seimbang. Sehingga dapat diartikan bahwa

(27)

5

sebagian besar bias yang mempengaruhi tingkat kematian telah berkurang dan diperoleh estimasi tingkat kematian yang lebih tepat untuk kedua jenis kelamin.

D’Agostino (1998) menggunakan PSM dan PSS untuk mereduksi pengaruh bias pada perbandingan kelompok treatment dan kontrol. Kasus pada metode PSM yang digunakan adalah menguji efek kelahiran post-term pada neuropsychiatric, sosial dan penghargaan akademik pada anak-anak usia sekolah (yaitu anak-anak berusia 5-10 tahun). Teknik yang digunakan untuk membangun sampel yang cocok adalah mahalanobis metric matching dan estimasi yang digunakan adalah analisis diskriminan. Didapatkan hasil bahwa bias telah tereduksi sebesar 85,9 % pada variabel Hobel intrapartum risk score, 93,2 % untuk variabel Child’s birthweight, 74,7 % untuk variabel Abnormal labour dan 95,9 % untuk variabel logit of the propensity score. Sehingga dapat disimpulkan metode PSM cukup baik untuk mereduksi bias. Kasus pada metode PSS yang digunakan adalah meneliti wanita nulliparous untuk diberikan anastesi epidular sebelum caesar. Estimasi yang digunakan adalah regresi logistik biner.

Didapatkan hasil bahwa melakukan caesar dengan diberi anastesi epidural jauh lebih banyak daripada yang tidak diberi anastesi epidural.

Austin (2011b) menggunakan 4 metode propensity score (PSM, PSS, Inverse probability of treatment weighting propensity score dan covariate adjustment propensity score) untuk mereduksi pengaruh bias pada perbandingan kelompok treatment dan kontrol dalam kasus Smoking Cessation Counseling on Mortality, diperoleh kesimpulan bahwa metode PSM dan Inverse probability of treatment weighting propensity score merupakan metode terbaik dalam mereduksi pengaruh bias untuk kasus tersebut. Adityaningrum (2017) mengestimasi nilai propensity score matching menggunakan multivariate adaptive regression splines pada kasus Diabetes Melitus, menghasilkan nilai akurasi sebesar 92% dan didapat variabel yang berpengaruh secara langsung terhadap status NDP adalah variabel umur, jenis kelamin, dislipidemia dan obesitas. Berdasarkan beberapa penelitian diatas dapat disimpulkan bahwa metode PSM mampu mereduksi pengaruh bias secara signifikan pada studi observasi.

Penyakit Diabetes Melitus merupakan penyakit penyebab kematian kedelapan di seluruh dunia pada tahun 2012. World Health Organization (2016)

(28)

6

menunjukkan bahwa Jumlah penderita Diabetes Melitus mencapai 108 juta jiwa di dunia pada tahun 1980 dan mengalami peningkatan menjadi 422 juta jiwa di dunia pada tahun 2014. International Diabetes Federation (2013) menunjukkan bahwa jumlah penderita Diabetes Melitus mencapai 382 juta jiwa di dunia pada tahun 2013 dan diperkirakan akan meningkat pada tahun 2035 menjadi 592 juta jiwa di dunia. Kementerian Kesehatan atau Kemenkes (2013) menunjukkan bahwa penderita diabetes melitus di Indonesia mencapai 6,9% atau sekitar 12 juta jiwa dan mencapai 2,1% atau sekitar 256 ribu jiwa di Provinsi Jawa Timur. Angka ini cukup tinggi, sehingga perlu diperhatikan untuk menangani penyakit tersebut.

Diabetes Melitus (DM) secara umum dibagi menjadi dua yaitu DM tipe 1 dan DM tipe 2. DM tipe 1 (insulin-dependent atau childhood onset diabetes) merupakan penyakit autoimun kronis yang disebabkan oleh rusaknya sel dan sel T. Sel berguna untuk memproduksi antibodi terhadap patogen dalam darah.

Sedangkan sel T berguna sebagai pembunuh atau penghancur sel-sel tubuh yang terinfeksi oleh patogen. Sehingga dengan rusaknya sel dan sel T, tubuh tidak dapat memproduksi insulin secara sempurna. Hal ini menyebabkan pasien DM tipe 1 akan ketergantungan dengan insulin (Herold, et al., 2002). DM tipe 2 (non- insulin-dependent atau adult-onset diabetes) merupakan suatu kelompok penyakit metabolik yang ditandai dengan kadar gula dalam darah diatas normal (Hiperglikemia) yang mengakibatkan gangguan metabolisme karbohidrat, lemak dan protein. Keadaan ini disebabkan karena adanya gangguan sekresi insulin, kerja insulin atau keduanya. Hiperglikemia yang tidak diobati akan menyebabkan komplikasi kronis. Komplikasi kronis terbagi menjadi dua yaitu komplikasi mikrovaskuler dan makrovaskuler. Komplikasi mikrovaskuler yang biasa muncul diantaranya kerusakan pada pembuluh darah retina (retinopati diabetik) dan, kerusakan ginjal (nefropati diabetik). Komplikasi makrovaskuler yang biasa muncul ialah penyakit jantung koroner dan stroke. Sedangkan Komplikasi mikrovaskuler dan makrovaskuler adalah kerusakan saraf (neuropati) (American Diabetes Association, 2014). Adanya komplikasi mikrovaskuler dan makrovaskuler pada pasien diabetes melitus tipe 2, maka perlu dilakukan penanganan khusus pada penyakit tersebut.

(29)

7

Penelitian tentang diabetes melitus tipe 2 telah banyak dilakukan, yakni Bruce & Young (2008) meneliti tentang prevalensi dan faktor resiko diabetic neuropathy (yang merupakan salah satu komplikasi penyakit diabetes melitus) menggunakan uji nonparametrik Kruskal-Wallis dan regresi logistik multivariat, menghasilkan beberapa variabel yang berpengaruh terhadap diabetic neuropathy yaitu variabel jenis kelamin perempuan, tingkat pendidikan yang rendah, A1C, merokok, dan homocysteine. Young, Boulton, Macleod, Williams, & Sonksen (1993) mendeteksi penyakit diabetic neuropathy menggunakan metode regresi logistik, didapatkan hasil variabel yang berpengaruh terhadap NDP adalah umur, jenis kelamin, tipe diabetes dan lama menderita diabetes.

UK Prospective Diabetes Study Group (1998a) meneliti apakah mengontrol tekanan darah yang ketat menggunakan penghambat angiotensin converting enzyme dapat mencegah komplikasi makrovaskuler dan mikrovaskuler pada pasien diabetes tipe 2. Didapatkan hasil bahwa mengontrol tekanan darah dengan menggunakan penghambat angiotensin converting enzyme secara substansial mampu mengurangi risiko kematian dan komplikasi akibat diabetes. UK Prospective Diabetes Study Group (1998b) meneliti apakah mengontrol gula darah secara intensif dengan sulphonylurea dapat mencegah risiko komplikasi mikrovaskuler dan makrovaskuler pada pasien diabetes tipe 2 dalam uji RCT.

Didapatkan hasil bahwa mengontrol gula darah secara intensif dengan sulphonylurea secara substansial mampu menurunkan komplikasi mikrovaskuler dan makrovaskular pada pasien diabetes tipe 2.

Mengingat semakin tingginya prevalensi kejadian DM tipe 2 di Jawa Timur, yang berdampak pada tingginya prevalensi komplikasi penyakit, maka perlu dilakukan penelitian untuk mengkaji lebih jauh faktor-faktor yang menyebabkan komplikasi penyakit pada pasien DM tipe 2. Penelitian ini membandingkan antara metode klasik dan metode machine learning untuk mengestimasi nilai propensity score matching (PSM). Metode klasik yang digunakan adalah Propensity Score Matching (PSM) dengan metode regresi logistik biner. Sedangkan metode machine learning yang digunakan adalah Propensity Score Matching (PSM) dengan support vector machine dimana dalam pemilihan nilai parameter optimal

(30)

8

dari parameter SVM yaitu C (cost) dan  (gamma) menggunakan metode Taguchi. Hasil penelitian Prangga (2014) pada data leukemia dan Colon Tumor menunjukkan bahwa pemilihan parameter optimal dengan menggunakan pendekatan metode Taguchi memberikan tingkat akurasi yang meningkat secara signifikan dan waktu proses komputasi lebih efisien jika dibandingkan dengan menggunakan metode grid search. Algoritma yang digunakan dalam matching adalah Nearest neighbor matching. Faktor-faktor penyebab DM tipe 2 yang digunakan dalam penelitian ini antara lain: usia, jenis kelamin, riwayat genetik, lama menderita, obesitas, hipertensi dan aktivitas olahraga. Variabel yang diduga sebagai variabel confounding adalah variabel obesitas, hipertensi dan aktivitas olahraga. Variabel hipertensi diduga sebagai variabel confounding karena hipertensi merupakan salah satu jenis komplikasi penyakit yang sering terjadi pada pasien DM tipe 2. Sedangkan variabel aktivitas olahraga dan obesitas diduga sebagai variabel confounding karena bagi penderita DM tipe 2 efektivitas dalam olahraga dan menjaga berat badan tetap normal mampu menurunkan kadar glukosa darah. Penelitian ini menggunakan data pasien DM tipe 2 yang dirawat di Rumah Sakit Umum Daerah (RSUD) Pasuruan, Jawa Timur.

1.2 Permasalahan

Metode Support Vector Machine (SVM) merupakan salah satu metode machine learning yang bisa digunakan untuk klasifikasi atau prediksi. Jika variabel respon skalanya nominal atau ordinal dapat digunakan untuk klasifikasi.

Sedangkan jika variabel respon skalanya interval atau rasio dapat digunakan untuk prediksi. SVM memiliki beberapa kelebihan dibandingkan metode klasik diantaranya adalah SVM memiliki sifat global optima dan dapat digunakan untuk data non-linier, karena fungsi kernel pada SVM secara implisit memuat transformasi non-linier, selain itu SVM juga mampu mengklasifikasikan data berdimensi tinggi. Adanya hubungan antara faktor-faktor yang mempengaruhi komplikasi penyakit pada pasien DM tipe 2 seringkali dapat menyebabkan hasil estimasi yang bias dan kesimpulan yang tidak akurat karena adanya faktor confounding yang tidak teridentifikasi. Beberapa penelitian sebelumnya berusaha menangani faktor confounding dengan randomisasi (pengacakan) namun dalam

(31)

9

bidang kesehatan hal ini tidak bisa dilakukan. Oleh karena itu, dibutuhkan suatu metode yang dapat menangani efek bias yang biasanya terjadi pada studi observasi. Salah satu metode yang bisa menangani bias adalah metode Propensity Score Matching (PSM). Berdasarkan uraian tersebut maka tulisan ini memaparkan bagaimana hasil estimasi nilai propensity score menggunakan metode support vector machine dan regresi logistik biner, bagaimana hasil bias sebelum dilakukan matching dan bias setelah dilakukan matching serta hasil signifikansi Average Treatment of Treated dengan menggunakan metode propensity score matching support vector machine dan propensity score matching regresi logistik biner.

1.3 Tujuan Penelitian

Berdasarkan rumusan masalah yang telah diuraikan diatas, maka tujuan yang ingin dicapai dalam penelitian ini adalah sebagai berikut.

1. Mendapatkan hasil estimasi nilai propensity score menggunakan metode support vector machine dan regresi logistik biner pada kasus diabetes mellitus tipe 2.

2. Mendapatkan nilai bias sebelum dilakukan matching dan bias setelah dilakukan matching dengan menggunakan metode propensity score matching support vector machine dan propensity score matching regresi logistik biner pada kasus diabetes mellitus tipe 2.

3. Mendapatkan signifikansi hasil Average Treatment of Treated (ATT) dengan menggunakan metode propensity score matching support vector machine dan propensity score matching regresi logistik biner pada kasus diabetes mellitus tipe 2.

1.4 Manfaat Penelitian

Manfaat yang ingin dicapai dari hasil penelitian ini adalah sebagai berikut.

1. Menambah wawasan keilmuan dalam pengembangan dan penerapan analisis propensity score matching, regresi logistik biner dan SVM khususnya dalam bidang kesehatan.

2. Memberikan informasi seberapa besar pengaruh aktivitas olahraga (Z) terhadap kejadian komplikasi penyakit (Y) pada saat pengaruh dari variabel lain (kovariat) sudah direduksi menjadi variabel confounder (Z). Variabel confounder pada penelitian ini adalah variabel aktivitas olahraga.

(32)

10 1.5 Batasan Masalah

Adapun batasan masalah dalam penelitian ini adalah sebagai berikut.

1. Data yang digunakan dalam penelitian ini merupakan data rekam medis pasien DM tipe 2 pada periode Maret 2016 di Rumah Sakit Umum Daerah (RSUD) Pasuruan.

2. Metode yang digunakan dalam estimasi nilai propensity score matching adalah metode support vector machine dan metode regresi logistik biner.

Algoritma yang digunakan dalam matching adalah Nearest neighbor matching.

3. Uji balance kovariat menggunakan uji t dan uji z.

4. Variabel confounding yang digunakan hanya satu.

(33)

11 BAB II

TINJAUAN PUSTAKA

Pada bab ini membahas tentang metode-metode yang digunakan yaitu Propensity Score - Support Vector Machine (PS-SVM), Propensity Score - Regresi Logistik Biner, PSM (Propensity Score Matching), Uji Chi-square, Uji-t, Uji-z, ATT (Average Treatment for Treated), Evaluasi propensity score matching dan evaluasi performansi metode klasifikasi untuk kasus penyakit diabetes melitus tipe 2.

2.1 Model Support Vector Machine (SVM)

SVM merupakan metode machine learning yang diperkenalkan pertama kali oleh Boser, Guyon, & Vapnik pada tahun 1992 pada saat di presentasikan di Annual Workshop on Computational Learning Theory. SVM dapat digunakan untuk klasifikasi atau prediksi. Konsep klasifikasi dengan SVM adalah mencari pemisah (hyperplane) terbaik antara dua kelas data. Suatu hyperplane dikatakan baik jika memiliki margin terbesar. Margin (d) adalah dua kali jarak antara hyperplane dengan support vector. Titik yang terdekat dengan hyperplane disebut support vector. SVM bisa digunakan untuk mengatasi masalah data berdimensi tinggi dan sampel training yang sedikit (Pal & Mather, 2005). SVM merupakan metode yang bekerja atas prinsip Structural Risk Minimization (SRM). SRM digunakan untuk memaksimalkan margin dan meminimalkan batas atas pada risiko yang diharapkan (expected risk) (Qi, Wang, Tian, & Zhang, 2016).

Prinsip dasar SVM adalah linear classifier, tetapi juga dapat bekerja untuk data non linear dengan memasukkan konsep kernel trick pada ruang fitur berdimensi tinggi. Pada klasifikasi linier, SVM dapat dibedakan menjadi dua yaitu linearly separable dan linearly nonseparable. Ilustrasi klasifikasi linier pada metode SVM dapat dilihat pada Gambar 2.1.

Gambar 2.1 Klasifikasi SVM: Klasifikasi Linearly Separable (kiri) dan Linearly Nonseparable (kanan) (Haerdle, Prastyo, & Hafner, 2014)

(34)

12 2.1.1 SVM Linier Separable

Menurut Haerdle, Prastyo, & Hafner (2014), setiap observasi terdiri dari sepasang p prediktor xi

xi1,xi2,...,xip

p untuk i1, 2,...,n, dimana n merupakan banyak data dan label kelas dari data xi dinotasikan y   i y

1,1 .

Jika xi adalah anggota kelas (+1) maka xi diberi label (target) y  i 1 dan jika tidak maka diberi label (target) y  i 1 sehingga data yang diberikan berupa pasangan

x1,y1

 

,..., xn,yn

merupakan himpunan data training dari dua kelas yang akan diklasifikasikan dengan SVM, maka dapat dinyatakan dalam himpunan berikut:

   

1, 1 ,..., ,

1,1 .

n n n

D x y x y   X

Ilustrasi klasifikasi linearly separable dengan metode SVM dapat dilihat pada Gambar 2.2.

Gambar 2.2 Klasifikasi Linearly Separable dengan Metode SVM (Haerdle, Prastyo, &

Hafner, 2014)

Pertama akan dijelasikan SVM pada kasus Linearly Separable. Sebuah konsep utama untuk menetapkan pemisah yang bersifat linier adalah dot product atau bisa disebut sebagai inner product atau scalar product, antara dua vektor

(35)

13 yang ditetapkan sebagai

1 n

i i i

x w

 

x w . Keluarga F dari fungsi klasifikasi yang terdapat pada ruang data diberikan sebagai berikut:

, p, ,

Fx w b w b

dimana wmerupakan vektor bobot yang tegak lurus terhadap hyperplane dan b merupakan posisi bidang relatif terhadap pusat koordinat. Bidang pemisah (separating hyperplane) dapat dituliskan sebagai berikut.

 

0

h xx w  b

(2.1)

Bidang pembatas kelas 1: x wi   b 1 untuk y  i 1 (2.2)

Bidang pembatas kelas 2: x wi   b 1 untuk y  i 1 (2.3)

11 12 1

21 22 2

1 2

p p

n n np

x x x

x x x

x x x

 

 

 

 

 

 

 

X xi xi1 xi2 xip

1 2

p

w w

w

  

  

  

 

w

1 2 i

n

y y y

y

  

 

  

 

Pada Gambar 2.2 menunjukkan bahwa panjang vektor w adalah norm

2 2 2

1 2 ... p

w w w

     

w w w . Bidang pembatas pertama membatasi kelas

(+1) sedangkan bidang pembatas kedua membatasi kelas (-1). Bidang pembatas pertama x w  i b 1 mempunyai bobot wdan jarak tegak lurus dari titik asal sebesar 1 b

w , sedangkan bidang pembatas kedua x wi   b 1 mempunyai bobot wdan jarak tegak lurus dari titik asal sebesar  1 b

w . Jarak antara margin dengan bidang pemisah adalah 1

dd

w . Nilai maksimum margin (berdasarkan

(36)

14

rumus jarak garis ke titik pusat) adalah 1   b ( 1 b)  2

w w atau ekivalen dengan min1 2 2

w w .

Menentukan hyperplane terbaik dapat menggunakan Quadratic Programming (QP) problem yaitu mencari titik minimal persamaan (2.4) dengan memperhatikan constraint persamaan (2.5).

min1 2 2

w w

(2.4)

 

1 0,

i i

y x w   b i (2.5) Untuk mempermudah menyelesaikan persamaan (2.4) dan (2.5) dapat dipecahkan dengan berbagai teknik komputasi, salah satunya adalah Lagrange Multiplier.

Berikut ini rumus Lagrange Multiplier.

 

2

   

1

, , 1 1

2

n

i i i

i

L by b

 

  

w α w x w , untuk i1, 2,...,n

(2.6)

i merupakan Lagrange Multiplier, yang bernilai nol atau positif i 0. Nilai optimal dari persamaan (2.6) dapat dihitung dengan meminimalkan L terhadap w dan b serta memaksimalkan L terhadap i sehingga diperoleh persamaan sebagai berikut.

 

 

maxLDmax minL , ,b

α α w,b w α

(2.7) Meminimalkan L terhadap wdan b dapat diberikan sebagai berikut.

 

1

, , 0

n

i i i

i

L b

y

   

w α

w x

w

1

n

i i i

i

y

w x

(2.8)

 

1

, , 0

n i i i

L b

by

  

w α

(2.9) Persamaan (2.8) dan (2.9) disubtitusikan ke persamaan (2.7) sehingga diperoleh persamaan sebagai berikut.

(37)

15

1 1 1

max max 1

2

n n n

D i i j i j i j

i i j

L y y

  



x x

(2.10) Constraint yang digunakan untuk memaksimalkan  pada persamaan (2.10) i adalah sebagai berikut,

1

0,

n i i i

y

 i 0 (2.11)

nilai i dapat diperoleh dan nilai tersebut digunakan untuk mencari nilai w. Jika nilai i 0 atau sebuah titik data ke-i untuk setiap yi

x wi b

1. Setelah menyelesaikan optimasi dengan Lagrange Multiplier, maka suatu pengamatan baru xnew dapat diklasifikasikan menggunakan aturan klasifikasi sebagai berikut.

 

new

newˆ ˆ

f xsign xwb

(2.12) dimana

1

ˆ ˆ n i i i

i

y

w x dan

 

1

1 nsv 1 newˆ

sv i i

b n y

x w dengan xi adalah support vector, xnew adalah data yang diklasifikasikan dan nsv adalah jumlah support vector.

2.1.2 SVM Linier Non-separable

Berdasarkan asumsi bahwa kedua buah kelas dapat terpisah secara sempurna oleh hyperplane. Namun, pada umumnya kedua buah kelas pada input space tidak dapat terpisah secara sempurna. Menurut Haerdle, Prastyo, & Hafner (2014) kasus linier nonseparable adalah mengklasifikasikan data linier yang tidak dapat dipisahkan sehingga constraint pada persamaan (2.2) dan (2.3) harus diubah secara linier dengan penambahan variabel slack i (soft margin) yang menunjukkan pelanggaran terhadap ketelitian pemisahan yang memungkinkan suatu titik berada di dalam margin error

0i  1, i

atau disebut misklasifikasi

1

, sehingga xi diklasifikasikan menjadi,

1 ,

i bi

   

x w untuk y i 1

(2.13)

1

,

i bi

    

x w untuk y  i 1 (2.14)

(38)

16

Ilustrasi klasifikasi linearly nonseparable dengan metode SVM dapat dilihat pada Gambar 2.3.

Gambar 2.3 Klasifikasi Linearly Non-separable dengan Metode SVM (Haerdle, Prastyo, & Hafner, 2014)

Kedua constraint pada persamaan (2.13) dan (2.14) dapat digabung menjadi

 

1 ,

i i i

y x w   b  i,

i0

(2.15) Formula pencarian bidang pemisah terbaik atau fungsi tujuan pada persamaan (2.4) diubah menjadi,

2

, 1

min1 2

n i i

C

w w

(2.16) dengan, nilai i 0 dan parameter pinalti C 0 dimana C adalah parameter yang menentukan besar biaya akibat kesalahan klasifikasi (misclassification) dari data training selama proses pembelajaran dan nilainya ditentukan oleh pengguna.

Ketika nilai C besar, maka margin akan menjadi lebih kecil, yang mengindikasikan bahwa tingkat toleransi kesalahan akan menjadi lebih kecil ketika suatu kesalahan terjadi. Sebaliknya, ketika nilai C kecil, tingkat toleransi kesalahan akan menjadi lebih besar (Huang, Hung, Lee, Li, & Jiang, 2014).

Fungsi Lagrange Multiplier untuk kasus linearly nonseparable adalah

 

2

   

1 1 1

, , , 1 1

2

n n n

i i i i i i i

i i i

L b C   y b   

 

 

     

w ξ α w x w (2.17)

(39)

17

dimana, i 0 dan i0 adalah Lagrange Multiplier,

 

1

0

i yi i b i

x w    dan  i i 0. Nilai optimal dari persamaan (2.17) dapat dihitung dengan meminimalkan L terhadap w, b dan i serta memaksimalkan L terhadap i sehingga diperoleh persamaan sebagai berikut.

 

, ,

max D max min , , ,

L w b L b

w ξ α

(2.18) Meminimalkan L terhadap w b dan i dapat diberikan sebagai berikut

 

1

, , ,

0

n

i i i

i

L b

y

   

w ξ α

w x

w

1

n

i i i

i

y

w x

(2.19)

 

1

, , ,

0

n i i i

L b

by

  

w ξ α

(2.20)

, , ,

i i 0

i

L b

C  

    

w ξ α

i C i

  

(2.21) Persamaan (2.19), (2.20) dan (2.21) disubtitusikan ke persamaan (2.18) sehingga diperoleh persamaan sebagai berikut.

1 1 1

max max 1

2

n n n

D i i j i j i j

i i j

L y y

  

 

    

 

x x

(2.22) Constraint yang digunakan untuk memaksimalkan  pada persamaan (2.22) i adalah sebagai berikut,

1

0,

n i i i

y

0i C (2.23) Sampel xi untuk i 0 (support vector) merupakan titik yang berada di atas margin atau dalam margin ketika soft margin digunakan. Support vector sering menyebar dan level penyebarannya berada pada batas atas (upper bound) untuk misclassification rate (Scholkopf & Smola, 2002).

2.1.3 SVM Non-Linier Separable

(40)

18

Pada umumnya masalah dalam dunia nyata jarang yang bersifat linier, kebanyakan bersifat non linear. Banyaknya data yang bersifat non linear dalam dunia nyata, maka SVM dimodifikasi dengan memasukkan fungsi Kernel yaitu fungsi non linear. Langkah pertama untuk SVM non linear separable adalah data dengan struktur non linear dipetakan dengan menggunakan fungsi pemetaan

: p

  H ke dalam ruang berdimensi lebih tinggi Hdimana aturan klasifikasi bersifat linier. SVM non linear separable dapat diilustrasikan sebagai berikut.

Gambar 2.4 Fungsi

memetakan data ke ruang berdimensi lebih tinggi (Nugroho, 2003)

Gambar 2.4a menunjukkan bahwa data pada kelas kuning dan data pada kelas merah tidak dapat dipisahkan secara linier jika menggunakan ruang berdimensi dua. Sedangkan Gambar 2.4b menunjukkan bahwa ruang berdimensi 3 dapat dipisahkan secara linier oleh hyperplane.

Menemukan titik-titik support vector dalam proses pembelajaran SVM bergantung pada dot product dari data yang sudah ditransformasikan ke ruang vektor baru yang berdimensi lebih tinggi

 

xi

 

xj . Fungsi transformasi pada SVM adalah menggunakan kernel trick (Scholkopf & Smola, 2002).

Kegunaan kernel trick untuk menghitung scalar product melalui sebuah fungsi kernel. Proyeksi fungsi :  Hp memastikan bahwa inner product

 

xi

 

xj

ditunjukkan oleh fungsi kernel,

i, j

 

i

 

j

K x x  x x

(2.24) Persamaan optimasi pada persamaan (2.22) dapat diubah menjadi,

 

1 1 1

max max 1 ,

2

n n n

D i i j i j i j

i i j

L y y K

  



x x

(2.25)

Gambar

Gambar 2.1 Klasifikasi SVM: Klasifikasi Linearly Separable (kiri) dan Linearly Nonseparable  (kanan) (Haerdle, Prastyo, & Hafner, 2014)
Ilustrasi  klasifikasi  linearly  separable  dengan  metode  SVM  dapat  dilihat  pada  Gambar 2.2
Ilustrasi klasifikasi linearly nonseparable dengan metode SVM dapat dilihat pada  Gambar 2.3
Gambar 2.4 Fungsi     memetakan data ke ruang berdimensi lebih tinggi (Nugroho,  2003)
+7

Referensi

Dokumen terkait

Pada Bab II diuraikan mengenai konsep landasan teori yang digunakan untuk mencapai tujuan penelitian, yaitu propensity score stratification menggunakan regresi logistik

FSVM diterapkan sebagai classifier untuk menghindari area unclassifiable sebagai pengembangan pada metode Support Vector Machine (SVM), dimana metode SVM mengklasifikasikan

Didasari oleh permasalahan tersebut, penelitian ini bertujuan untuk membangun sebuah metode klasifikasi dengan algoritma Support Vector Machine (SVM) untuk dapat

Untuk mengetahui hasil akurasi metode Support Vector Machine (SVM) pada klasifikasi pendonor darah menggunakan dataset RFMTC rasio data testing dan data trainging

Data opini tersebut dilabelkan dan diklasifikasikan menjadi kelas positif, dan kelas negatif, dengan menggunakan metode support vector machine (SVM), dimana data

Berdasarkan beberapa penjelasan tersebut, maka pada peneli- tian ini akan digunakan metode Regresi Logistik Biner, CTree dan SVM dalam mengklasifikasikan data hasil pengolahan

Pada penelitian ini bertujuan untuk deteksi dan klasifikasi penyakit malaria berat berdasarkan histori pemeriksaan data pasien dengan menggunakan metode Support Vector Machine SVM

1 Tinjauan Pustaka No Detail Refrensi Keterangan 1 Judul Klasifikasi Data Twitter Pelanggan Berdasarkan Kategori myTelkomsel Menggunakan Metode Support vector machine SVM Tahun