Manfaat Penelitian - PROPENSITY SCORE MATCHING MENGGUNAKAN SUPPORT VECTOR MACHINE PADA KASUS DI

BAB 1. PENDAHULUAN

1.4 Manfaat Penelitian

Manfaat yang ingin dicapai dari hasil penelitian ini adalah sebagai berikut.

1. Menambah wawasan keilmuan dalam pengembangan dan penerapan analisis propensity score matching, regresi logistik biner dan SVM khususnya dalam bidang kesehatan.

2. Memberikan informasi seberapa besar pengaruh aktivitas olahraga (Z) terhadap kejadian komplikasi penyakit (Y) pada saat pengaruh dari variabel lain (kovariat) sudah direduksi menjadi variabel confounder (Z). Variabel confounder pada penelitian ini adalah variabel aktivitas olahraga.

10 1.5 Batasan Masalah

Adapun batasan masalah dalam penelitian ini adalah sebagai berikut.

1. Data yang digunakan dalam penelitian ini merupakan data rekam medis pasien DM tipe 2 pada periode Maret 2016 di Rumah Sakit Umum Daerah (RSUD) Pasuruan.

2. Metode yang digunakan dalam estimasi nilai propensity score matching adalah metode support vector machine dan metode regresi logistik biner.

Algoritma yang digunakan dalam matching adalah Nearest neighbor matching.

3. Uji balance kovariat menggunakan uji t dan uji z.

4. Variabel confounding yang digunakan hanya satu.

11 BAB II

TINJAUAN PUSTAKA

Pada bab ini membahas tentang metode-metode yang digunakan yaitu Propensity Score - Support Vector Machine (PS-SVM), Propensity Score - Regresi Logistik Biner, PSM (Propensity Score Matching), Uji Chi-square, Uji-t, Uji-z, ATT (Average Treatment for Treated), Evaluasi propensity score matching dan evaluasi performansi metode klasifikasi untuk kasus penyakit diabetes melitus tipe 2.

2.1 Model Support Vector Machine (SVM)

SVM merupakan metode machine learning yang diperkenalkan pertama kali oleh Boser, Guyon, & Vapnik pada tahun 1992 pada saat di presentasikan di Annual Workshop on Computational Learning Theory. SVM dapat digunakan untuk klasifikasi atau prediksi. Konsep klasifikasi dengan SVM adalah mencari pemisah (hyperplane) terbaik antara dua kelas data. Suatu hyperplane dikatakan baik jika memiliki margin terbesar. Margin (d) adalah dua kali jarak antara hyperplane dengan support vector. Titik yang terdekat dengan hyperplane disebut support vector. SVM bisa digunakan untuk mengatasi masalah data berdimensi tinggi dan sampel training yang sedikit (Pal & Mather, 2005). SVM merupakan metode yang bekerja atas prinsip Structural Risk Minimization (SRM). SRM digunakan untuk memaksimalkan margin dan meminimalkan batas atas pada risiko yang diharapkan (expected risk) (Qi, Wang, Tian, & Zhang, 2016).

Prinsip dasar SVM adalah linear classifier, tetapi juga dapat bekerja untuk data non linear dengan memasukkan konsep kernel trick pada ruang fitur berdimensi tinggi. Pada klasifikasi linier, SVM dapat dibedakan menjadi dua yaitu linearly separable dan linearly nonseparable. Ilustrasi klasifikasi linier pada metode SVM dapat dilihat pada Gambar 2.1.

Gambar 2.1 Klasifikasi SVM: Klasifikasi Linearly Separable (kiri) dan Linearly Nonseparable (kanan) (Haerdle, Prastyo, & Hafner, 2014)

12 2.1.1 SVM Linier Separable

Menurut Haerdle, Prastyo, & Hafner (2014), setiap observasi terdiri dari sepasang p prediktor x_i 



x_i1,x_i2,...,x_ip



^p untuk ⁱ^^{1, 2,...,}ⁿ, dimana n merupakan banyak data dan label kelas dari data x_i dinotasikan y   i y



^{1,1 .}



Jika x_i adalah anggota kelas (+1) maka x_i diberi label (target) y  _i 1 dan jika tidak maka diberi label (target) y  _i 1 sehingga data yang diberikan berupa pasangan



x1,y1

 

,..., x_n,y_n



merupakan himpunan data training dari dua kelas yang akan diklasifikasikan dengan SVM, maka dapat dinyatakan dalam himpunan berikut:

   



1, 1 ,..., ,



^ 1,1 .^

n n n

D  x y x y   X

Ilustrasi klasifikasi linearly separable dengan metode SVM dapat dilihat pada Gambar 2.2.

Gambar 2.2 Klasifikasi Linearly Separable dengan Metode SVM (Haerdle, Prastyo, &

Hafner, 2014)

Pertama akan dijelasikan SVM pada kasus Linearly Separable. Sebuah konsep utama untuk menetapkan pemisah yang bersifat linier adalah dot product atau bisa disebut sebagai inner product atau scalar product, antara dua vektor

13 yang ditetapkan sebagai

1 terdapat pada ruang data diberikan sebagai berikut:

, ^p, ,

Fx w b w b

dimana wmerupakan vektor bobot yang tegak lurus terhadap hyperplane dan b merupakan posisi bidang relatif terhadap pusat koordinat. Bidang pemisah (separating hyperplane) dapat dituliskan sebagai berikut.

 

⁰

w . Jarak antara margin dengan bidang pemisah adalah 1

d_ d_

w . Nilai maksimum margin (berdasarkan

rumus jarak garis ke titik pusat) adalah 1   b ( 1 b)  2

w w atau ekivalen dengan min1 2 2

w w _.

Menentukan hyperplane terbaik dapat menggunakan Quadratic Programming (QP) problem yaitu mencari titik minimal persamaan (2.4) dengan memperhatikan constraint persamaan (2.5). Untuk mempermudah menyelesaikan persamaan (2.4) dan (2.5) dapat dipecahkan dengan berbagai teknik komputasi, salah satunya adalah Lagrange Multiplier.

Berikut ini rumus Lagrange Multiplier.

 

   

optimal dari persamaan (2.6) dapat dihitung dengan meminimalkan L terhadap w dan b serta memaksimalkan L terhadap _i sehingga diperoleh persamaan sebagai berikut. Meminimalkan L terhadap wdan b dapat diberikan sebagai berikut.

 

Persamaan (2.8) dan (2.9) disubtitusikan ke persamaan (2.7) sehingga diperoleh persamaan sebagai berikut.

nilai _i dapat diperoleh dan nilai tersebut digunakan untuk mencari nilai w. Jika nilai _i 0 atau sebuah titik data ke-i untuk setiap yi



x wi b



¹. Setelah menyelesaikan optimasi dengan Lagrange Multiplier, maka suatu pengamatan baru x__new_ dapat diklasifikasikan menggunakan aturan klasifikasi sebagai berikut.

 

^new



^new^ˆ ^ˆ



2.1.2 SVM Linier Non-separable

Berdasarkan asumsi bahwa kedua buah kelas dapat terpisah secara sempurna oleh hyperplane. Namun, pada umumnya kedua buah kelas pada input space tidak dapat terpisah secara sempurna. Menurut Haerdle, Prastyo, & Hafner (2014) kasus linier nonseparable adalah mengklasifikasikan data linier yang tidak dapat dipisahkan sehingga constraint pada persamaan (2.2) dan (2.3) harus diubah secara linier dengan penambahan variabel slack _i (soft margin) yang menunjukkan pelanggaran terhadap ketelitian pemisahan yang memungkinkan suatu titik berada di dalam margin error



⁰i  ^1, i



atau disebut misklasifikasi



^ ^¹



, sehingga x_i diklasifikasikan menjadi,

1 ,

Ilustrasi klasifikasi linearly nonseparable dengan metode SVM dapat dilihat pada Gambar 2.3.

Gambar 2.3 Klasifikasi Linearly Non-separable dengan Metode SVM (Haerdle, Prastyo, & Hafner, 2014)

Kedua constraint pada persamaan (2.13) dan (2.14) dapat digabung menjadi

 

¹ ^,

i i i

y x w   b  i^,



i ⁰



(2.15) Formula pencarian bidang pemisah terbaik atau fungsi tujuan pada persamaan (2.4) diubah menjadi, menentukan besar biaya akibat kesalahan klasifikasi (misclassification) dari data training selama proses pembelajaran dan nilainya ditentukan oleh pengguna.

Ketika nilai C besar, maka margin akan menjadi lebih kecil, yang mengindikasikan bahwa tingkat toleransi kesalahan akan menjadi lebih kecil ketika suatu kesalahan terjadi. Sebaliknya, ketika nilai C kecil, tingkat toleransi kesalahan akan menjadi lebih besar (Huang, Hung, Lee, Li, & Jiang, 2014).

Fungsi Lagrange Multiplier untuk kasus linearly nonseparable adalah

 

   

17 memaksimalkan L terhadap _i sehingga diperoleh persamaan sebagai berikut.

 

Persamaan (2.19), (2.20) dan (2.21) disubtitusikan ke persamaan (2.18) sehingga diperoleh persamaan sebagai berikut. misclassification rate (Scholkopf & Smola, 2002).

2.1.3 SVM Non-Linier Separable

Pada umumnya masalah dalam dunia nyata jarang yang bersifat linier, kebanyakan bersifat non linear. Banyaknya data yang bersifat non linear dalam dunia nyata, maka SVM dimodifikasi dengan memasukkan fungsi Kernel yaitu fungsi non linear. Langkah pertama untuk SVM non linear separable adalah data dengan struktur non linear dipetakan dengan menggunakan fungsi pemetaan

: ^p

   H ke dalam ruang berdimensi lebih tinggi Hdimana aturan klasifikasi bersifat linier. SVM non linear separable dapat diilustrasikan sebagai berikut.

Gambar 2.4 Fungsi



memetakan data ke ruang berdimensi lebih tinggi (Nugroho, 2003)

Gambar 2.4a menunjukkan bahwa data pada kelas kuning dan data pada kelas merah tidak dapat dipisahkan secara linier jika menggunakan ruang berdimensi dua. Sedangkan Gambar 2.4b menunjukkan bahwa ruang berdimensi 3 dapat dipisahkan secara linier oleh hyperplane.

Menemukan titik-titik support vector dalam proses pembelajaran SVM bergantung pada dot product dari data yang sudah ditransformasikan ke ruang vektor baru yang berdimensi lebih tinggi ^

 

^xⁱ ^^

 

^x^j ^.Fungsi transformasi pada SVM adalah menggunakan kernel trick (Scholkopf & Smola, 2002).

Kegunaan kernel trick untuk menghitung scalar product melalui sebuah fungsi kernel. Proyeksi fungsi :  H^p memastikan bahwa inner product

 

^xⁱ

 

^x^j

 ^ ditunjukkan oleh fungsi kernel,



ⁱ^, ^j

 ^{ }

ⁱ

 

K x x  x ^ x

(2.24) Persamaan optimasi pada persamaan (2.22) dapat diubah menjadi,

 

1 1 1

max max 1 ,

n n n

D i i j i j i j

i i j

L y y K

    

  









^{x x}

(2.25)

Nilai dari fungsi klasifikasi (score) dapat dirumuskan sebagai berikut.

     

Fungsi kernel yang umum digunakan adalah sebagai berikut.

a. Linear kernel

Berdasarkan fungsi-fungsi kernel diatas dapat dibuat fungsi keputusan sebagai berikut sebagai penalti akibat kesalahan dalam klasifikasi untuk masing-masing kernel dan nilainya ditentukan oleh pengguna.

2.2 Model Regresi Logistik Biner

Menurut Hosmer dan Lemeshow (2000) metode regresi telah menjadi komponen integral dari beberapa analisis data yang bersangkutan dengan deskripsi hubungan antara variabel respon

 

^y dan satu atau lebih variabel prediktor

 

^x . Pada kasus-kasus penelitian yang memiliki tujuan untuk

mengetahui hubungan antara variabel respon dan variabel prediktor, dimana variabel responnya berupa data kategorik, maka analisis regresi linier standar tidak dapat digunakan, sehingga salah satu pendekatan yang dapat digunakan adalah regresi logistik.Regresi logistik dapat digunakan untuk mencari hubungan antara variabel respon

 

^y yang bersifat dichotomous (berskala nominal atau ordinal dengan dua kategori) atau polychotomus (berskala nominal atau ordinal dengan lebih dari dua kategori) dengan variabel prediktor

 

^x yang berskala kategori atau kontinu.

Regresi logistik biner merupakan regresi logistik yang memiliki variabel respon

 

^y yang bersifat dichotomous (mempunyai 2 kategori) yakni 1 untuk kategori “sukses” dan 0 untuk kategori “gagal”. Distribusi Bernoulli digunakan untuk variabel random biner dengan peluang kejadian sukses ^{P Y}



^{ }¹



^ ^dan

peluang kejadian gagal ^{P Y}



^⁰



^{ }¹ ^. Estimasi parameter yang digunakan untuk menaksir parameter β pada model regresi logistik biner adalah metode Maksimum Likelihood Estimation (MLE). Penaksiran parameter tersebut dapat dilakukan dengan memaksimumkan fungsi ln likelihood dengan cara menurunkan fungsi log likelihood terhadap β. Sedangkan penaksiran varian dan kovarian diperoleh dari turunan kedua fungsi ln likelihood. Setiap pasangan



x yi^, i



, ketika Y  1i maka kontribusi terhadap fungsi likelihood sebesar 

 

xi dan untuk pasangan pengamatan ketika Y  0_i maka kontribusi terhadap fungsi likelihood sebesar ¹

 

xi dengan i=1,2,…,n. Fungsi kepadatan probabilitas untuk setiap pasangan adalah sebagai berikut.

   

i i ^yⁱ ⁽¹

 

i ⁾¹ ^yⁱ^,

f y 



x 



x ^

^{y  0 1}ⁱ ^, (2.28) Hubungan antara 

 

xi dan y_i dengan parameter  diperoleh dari pembuktian distribusi Bernoulli sebagai keluarga eksponensial. Suatu fungsi distribusi dikatakan keluarga eksponensial jika fungsi ditribusi tersebut dapat diubah menjadi fungsi keluarga eksponensial sesuai persamaan berikut.

 

  

 ^{ }

i ^exp

 ^{ }

 ^{ }

f y a  x b y c  x b y  (2.29)

Dari pengerjaan di atas diperoleh persamaan (2.30).

 

ⁱ



 

ⁱ



^exp ⁱ^ln



^{ } _{ }

ⁱ ⁱ



Persamaan (2.30) merupakan persamaan keluarga eksponensial dengan,

  

 

 



Dari persamaan (2.32) diperoleh persamaan sebagai berikut.

 



 



^exp

 



x  



x β x

  

xi ^exp

 

^xi





     

xi ^exp β x^ i



  

xi 

     

xi ^exp β x^ i



^exp

 

β x^ i



^{1 exp}

 

^xi

     



^exp

 

β x^ i

sehingga diperoleh model regresi logistik biner dengan p variabel prediktor dapat dituliskan dalam persamaan berikut.

Berdasarkan persamaan (2.33) dapat dibuat Grafik logistik sebagai berikut.

Gambar 2.5 Grafik Model Regresi Logistik

Berdasarkan Gambar 2.5 dapat dilihat bahwa nilai probabilitas model regresi logistik adalah antara 0 dan 1. Nilai threshold model regresi logistik adalah

0,50. Nilai probabilitas model regresi logistik dikoding 1 jika lebih besar dari 0.50



^^0,5



dan dikoding 0 jika kurang dari sama dengan 0,5



^^0,5



Setelah membuktikan y_i merupakan keluarga eksponensial, maka langkah selanjutnya adalah mengestimasi parameter model regresi logistik biner. Estimasi parameter dilakukan dengan metode Maximum Likelihood. Fungsi likelihood dapat diperoleh sebagai berikut. Selanjutnya memaksimumkan fungsi likelihood ^{L β}

 

. Memaksimumkan fungsi likelihood sama saja dengan memaksimumkan fungsi ln likelihood. Sehingga fungsi yang akan dimaksimumkan adalah fungsi ln likelihood yang dinotasikan sebagai berikut.

 

^ln

 

l β  L β (2.35) Dari persamaan (2.35) diperoleh persamaan sebagai berikut.

     ^{ } _{ }   ^{ } 

24 dan (2.37) dapat disubtitusi ke dalam persamaan (2.36).

 

Langkah selanjutnya yaitu memaksimumkan ln likelihood dengan cara mendifferensialkan ^{l β}

 

^terhadapj dan menyamakannya dengan nol.

25 Karena hasil turunan pertama pada persamaan (2.39) tidak mendapatkan hasil yang eksplisit atau rumus untuk mencari nilai β tidak didapat atau tidak close form, maka nilai β diestimasi dengan metode numerik yaitu metode iterasi Newton Raphson. Estimasi varian kovarian dikembangkan menurut teori MLE yang menyatakan bahwa estimasi varian kovarian diperoleh dari turunan kedua fungsi ln likelihood. Turunan kedua dari fungsi ln likelihood yaitu:

26 Rumus metode iterasi Newton-Raphson adalah sebagai berikut.

 ^t^¹ ^  ^t ^

  

^{ }^t



^¹

^{ }

^{ }^t

β β H β g β

;t 1, 2,...,sampai konvergen

dengan,



^{H β}

 

^{ }^t



merupakan matriks Hessian dan ^{g β}

 

^{ }^t merupakan vektor gradient yang dapat dituliskan pada persamaan (2.41) dan (2.42).

 

^{ } ⁰⁰10 11⁰¹ ⁰1 ²

 

Untuk setiap langkah iterasi ke-t, berlaku:

 

Berdasarkan persamaan (2.43) dapat dibentuk matriks Hessian sebagai berikut.

 ^{ }

Matriks Hessian pada persamaan (2.44) dapat ditulis sebagai berikut.

 ^{ }^t diag  1^{ }^t 1  1^{ }^t , 2 ^{ }^t 1  2 ^{ }^t ,..., _n ^{ }^t 1  _n ^{ }^t ¹

28 Vektor gradient pada persamaan (2.46) dapat ditulis sebagai berikut.

 ^{ }^t  ^  i ^{ }^t ^

berdasarkan persamaan (2.45) dan (2.47) diperoleh estimasi parameter sebagai berikut.

Langkah-langkah Iterasi Newton-Raphson adalah sebagai berikut:

1. Menentukan nilai awal dari ˆβ pada saat iterasi pertama yaitu β^ˆ 0

2. Mulai dari iterasi pertama atau t=0 dan dilakukan iterasi dengan menghitung

   ¹  1^{ }  1^{ }  2^{ }  2^{ }  ^{ }  ^{ } ¹ ^{ }

Jika telah didapat estimasi parameter yang konvergen, maka iterasi berehenti.

Pengecekan dilakukan dengan menggunakan rumus βˆ^{ }^t^¹ βˆ^{ }^t   dimana  adalah bilangan yang sangat kecil.

2.2.1 Uji Signifikansi Parameter

Setelah didapat nilai estimasi parameter yang digunakan dalam model, selanjutnya akan dilakukan pengujian apakah parameter yang didapat tersebut signifikan atau tidak dalam menjelaskan hubungan antara variabel prediktor dengan variabel respon. Terdapat dua jenis pengujian yang akan dilakukan, yaitu pengujian secara serentak dan secara parsial. Pengujian regresi logistik secara

serentak (bersama) bertujuan untuk mengetahui apakah model telah signifikan.

Hipotesis pada pengujian ini adalah sebagai berikut.

H0: ₁₂ ... _p 0

H1: minimal ada satu _j  0 , j1, 2,...,p Statistik Uji yang digunakan adalah sebagai berikut:

G = - 2 ln n = Banyaknya observasi

Daerah penolakan: pada tingkat kepercayaan , H0 ditolak bila nilai G_²_db_;__ atau Pvalue (Hosmer & Lemeshow, 2000).

Jika pada pengujian serentak menghasilkan kesimpulan tolak H0, maka pengujian akan dilanjutkan dengan uji parsial. Hipotesis pada pengujian parsial adalah sebagai berikut. normal (Hosmer & Lemeshow, 2000).

2.2.2 Interpretasi Koefisien Parameter (Odd Ratio)

Menurut Hosmer dan Lemeshow (2000),estimasi koefisien dari variabel prediktor menyatakan slope atau nilai perubahan variabel respon untuk setiap

perubahan satu unit variabel prediktor. Interpretasi meliputi, penentuan hubungan fungsional antara variabel respon dan variabel prediktor serta mendefinisikan unit perubahan variabel respon yang disebabkan oleh variabel prediktor.

Untuk menginterpretasikan koefisien parameter digunakan nilai odds ratio

 

 . Sebelumnya akan dilakukan pembahasan terhadap beberapa keadaan variabel pengamatan untuk melakukan interpretasi koefisien parameter. Variabel prediktor x yang bersifat kategori terbagi dalam 2 kategori yang dinyatakan dengan kode 0 dan 1. Disini kategori 1 dibandingkan terhadap kategori 2 berdasarkan nilai -nya yang menyatakan variabel 1 berpengaruh  kali variabel 2 terhadap variabel respon. Berdasarkan model ada dua nilai ^

 

^x dan dua nilai

 

1 x . Nilai–nilai itu dapat dinyatakan seperti pada Tabel 2.1.

Tabel 2.1 Nilai Model Regresi Logistik bila Variabel X Dikotomus Variabel

Hubungan antara odds rasio dan koefisien regresi adalah sebagai berikut.

   

Oleh karena itu, untuk regresi logistik dengan variabel independen dikotomus diberi kode 1 dan 0, hubungan antara odds ratio dan koefisien regresi adalah ORe^1. Odds rasio adalah ukuran asosiasi yang dapat diartikan secara luas, terutama dalam epidemiologi.

2.2.3 Uji Kesesuaian Model

Pengujian ini dilakukan untuk menguji apakah model regresi logistik yang diperoleh sudah layak. Uji kesesuaian model ini biasa disebut dengan goodness of

fit. Pengujian ini menggunakan statistik uji Hosmer dan Lemeshow (Hosmer &

Lemeshow, 2000) dengan hipotesis yang digunakan sebagai berikut.

H0 : Model sesuai (tidak ada perbedaan antara hasil obsevasi dengan

k= rata-rata taksiran peluang

g = jumlah grup (kombinasi kategori dalam model serentak) nk= banyaknya observasi pada grup ke-k

2.3 Propensity Score

Analisis propensity score merupakan metode statistika yang dikembangkan untuk mengestimasi efek perlakuan dengan data non-Experimental atau studi observasi. Analisis propensity score diperkenalkan pertama kali oleh Rosenbaum dan Rubin tahun 1983. Metode ini dapat membantu menyelesaikan permasalahan ketika kelompok treatment dan kontrol tidak layak dilakukan pengacakan dan mampu memberikan estimasi yang valid dari Average Treatment for Treated (Guo

& Fraser, 2010). Rosenbaum dan Rubin (1983) mendefinisikan propensity score untuk pengamatan i (i = 1,…,n) sebagai probabilitas bersyarat dari kelompok treatment tertentu



Z i ¹



dibandingkan dengan kelompok kontrol



Z i ⁰



berdasarkan kovariat x_i yang diamati, dimana pengacakan tidak bisa dilakukan.

Secara matematis nilai propensity score dapat ditulis sebagai berikut.

 i



i ¹ i i



e x  pr Z  X x

(2.53)

32 independen tersebut tidak dapat dicapai karena adanya faktor confounding.

Akibatnya, perbandingan sederhana dari hasil rata-rata antara kelompok treatment dan kontrol tidak akan secara umum mengungkapkan efek kausal atau dengan kata lain kesimpulan yang diperoleh tidak akurat karena adanya seleksi bias (Li, Graham & Majumdar, 2013).

Menurut Austin dan Mamdani (2006) metode berbasis propensity score secara umum terbagi menjadi 4 yaitu Propensity score Stratification (PSS), Propensity score Matching (PSM), covariate adjustment propensity score and Inverse Probability of Treatment Weighting propensity score (IPTW). Metode berbasis Propensity score ini mampu mengatasi permasalahan seleksi bias jika diterapkan secara tepat. Selain mengatasi masalah seleksi bias, Propensity score dapat mereduksi dimensi, dimana jika vektor x memiliki banyak kovariat yang direpresentasikan dalam banyak dimensi, maka pendekatan propensity score mampu mereduksi semua dimensi menjadi satu skor dimensi, yaitu nilai propensity score (Guo & Fraser, 2010).

Menurut Yanovitzky, Zanutto, & Hornik (2005), langkah-langkah analisis propensity score secara umum dapat dijelaskan sebagai berikut.

1. Memilih kovariat sebagai confounder untuk estimasi propensity score.

2. Menentukan ketidakseimbangan awal pada confounder 3. Estimasi nilai propensity score

4. Pencocokan (matching)

5. Mengecek keseimbangan kovariat pada confounder antara kelompok treatment dan kelompok kontrol

6. Menghitung efek perlakuan

Misalkan terdapat variabel prediktor x x₁, ₂,...,x₄ memengaruhi variabel respon y yang dapat dibentuk suatu fungsi y f x x



1, 2,...,x4



. Fungsi tersebut menunjukkan bahwa masing-masing variabel prediktor x berpengaruh terhadap variabel respon y. Namun terkadang terdapat suatu kondisi antar variabel prediktor x saling berhubungan, misalkan variabel prediktor x₄ berpengaruh terhadap variabel prediktor lainnya. Variabel prediktor x₄ ini sering disebut sebagai variabel confounder, dimana variabel tersebut dapat dinotasikan dengan z . Hubungan variabel confounder z dengan semua variabel prediktor selain x₄ dapat dituliskan dalam bentuk fungsi z f x x x



1, 2, 3



. Variabel prediktor selain

x4 dapat direduksi menjadi satu skor dimensi menjadi variabel z dan variabel z ini dapat digunakan untuk estimasi propensity score. Estimasi propensity score tersebut dapat diestimasi menggunakan beberapa metode tergantung skala data pada variabel confounder z . Jika variabel z berskala nominal atau ordinal dapat menggunakan metode regresi logistik, CART, MARS klasifikasi atau SVM klasifikasi. Sedangkan jika variabel z berskala interval atau rasio dapat menggunakan metode regresi linier, MARS prediksi atau SVR. Sehingga konsep propensity score dapat diilustrasikan sebagai berikut.

y f x x



1, 2,...,x4



zˆ f x x x



1, 2, 3



Gambar 2.6 Ilustrasi Konsep Propensity Score

2.3.1 Faktor Confounding

Istilah confounding berasal dari bahasa latin confundere yang berarti bergabung atau tercampur secara bersama sama (to mix together). Berdasarkan kamus epidemiology, confounding merupakan Situasi dimana ukuran suatu efek dari faktor risiko terhadap suatu penyakit terdistorsi (diganggu) karena adanya

x4 menjadi variabel confounder z

hubungan faktor risiko dengan faktor lainnya yang mempengaruhi penyakit (Last, Silva, Hernan, & Greenland, 1983).

Secara umum confounder bisa menyebabkan overestimate atau underestimate. Overestimate mengarahkan peneliti untuk menyimpulkan ada perbedaan antara kedua kelompok (tolak Ho), padahal seharusnya tidak ada perbedaan. Sedangkan Underestimate mengarahkan peneliti untuk menyimpulkan tidak ada perbedaan antara kedua kelompok (gagal tolak Ho), padahal seharusnya ada perbedaan, sehingga dalam hal ini confounding juga bisa diartikan sebagai gangguan dalam menaksir pengaruh faktor risiko terhadap kejadian penyakit akibat tercampurnya pengaruh faktor luar. Faktor luar (extraneous variable) ini yang dapat mempengaruhi faktor resiko dan penyakit secara bersama-sama dalam proses timbulnya penyakit. Faktor inilah yang disebut faktor confounding. faktor confounding biasanya ada karena perbandingan antara kelompok treatment dan kontrol tidak seimbang. Berikut ini ilustrasi faktor confounding.

Gambar 2.7 Ilustrasi Faktor Confounding

Berdasarkan Gambar 2.7 terdapat tiga kriteria yang harus dipenuhi untuk mengetahui apakah suatu variabel bisa dianggap sebagai counfounder. Pertama, variabel harus dikaitkan dengan exposure. Kedua, variabel harus dikaitkan dengan outcome. Ketiga, variabel tidak terletak antara exposure dan outcome (Keys &

Rankin, 2015).

Menurut Kamangar (2012) mengidentifikasi faktor yang berpotensi sebagai confounding dapat dilakukan dengan dua cara. Pertama, variabel tersebut telah diidentifikasi sebagai variabel confounding pada penelitian sebelumnya. Kedua, antara exposure dan outcome memiliki hubungan. Proses pemilihan variabel confounding dapat dilakukan berdasarkan teori maupun bukti empiris untuk melihat hubungan antar variabel.

Exposure (faktor risiko) Outcome (Penyakit)

Faktor Confounder

Pemilihan variabel confounding secara empiris dapat dilakukan dengan melakukan pengujian dependensi menggunakan uji Chi-Square dengan hipotesis sebagai berikut (Agresti, 1990).

2: nilai variabel random yang distribusi sampelnya didekati oleh distribusi chi-square dengan derajat bebas v = (r-1)(c-1)

c : jumlah kolom r : jumlah baris

O :frekuensi observasi baris ke-i, kolom ke-j ij

ˆij

E :frekuensi ekspektasi baris ke-i, kolom ke-j O1.: jumlah baris pada observasi kelompok pertama O2.: jumlah baris pada observasi kelompok kedua O.1: jumlah kolom pada observasi kelompok pertama O.2: jumlah kolom pada observasi kelompok kedua

Oi: jumlah total baris ke-i

O

. j: jumlah total kolom ke-j O..: jumlah seluruh observasi Daerah penolakan:

Tolak H0, apabila _hitung² _²_;_{  }_r_₁ _c_₁ atau P value .

Ada beberapa cara yang dapat dilakukan peneliti untuk mengontrol confounding, yaitu mengontrol pada tahap desain atau pada tahap analisis statistik.

Pada tahap desain dapat dilakukan matching, randomization dan restriction (membatasi obyek penelitian). Sedangkan pada tahap analisis statistik dapat dilakukan stratification, restriction (membatasi obyek penelitian) dan multivariate analysis (salah satunya menggunakan regresi logistik) (Keys, & Rankin 2015).

2.3.2 Propensity Score Menggunakan Regresi Logistik Biner

Regresi logistik biner merupakan metode yang sering digunakan untuk estimasi propensity score. Estimasi propensity score menggunakan regresi logistik biner dilakukan dengan cara memasukkan model regresi logistik biner pada persamaan (2.33) ke model propensity score pada persamaan (2.53), sehingga didapatkan model estimasi propensity score menggunakan regresi logistik biner sebagai berikut. 2.3.3 Propensity Score Menggunakan Support Vector Machine (SVM)

Propensity score umumnya diestimasi menggunakan metode regresi logistik dan analisis diskriminan. Pada penelitian ini peneliti akan mengestimasi propensity score menggunakan metode machine learning yaitu SVM. Estimasi propensity score menggunakan SVM dilakukan dengan cara memasukkan model SVM pada persamaan (2.26) ke model propensity score pada persamaan (2.53), sehingga didapatkan model estimasi propensity score menggunakan SVM sebagai berikut.

Metode PSM merupakan metode yang digunakan untuk menyeimbangkan data kelompok treatment dan kontrol dengan cara mencocokkan kelompok treatment dengan kelompok kontrol berdasarkan nilai estimasi propensity score yang paling sama, kemudian membuang unit yang tidak cocok (Austin, 2011a).

Menurut Guo dan Fraser (2010) terdapat tiga tahap proses analisis propensity score matching yaitu tahap pertama mencari variabel atau kovariat yang diduga sebagai penyebab ketidakseimbangan antara kelompok treatment (1) dan kelompok kontrol (0). Kemudian menghitung nilai estimasi propensity score

dan diperoleh balance score, yang mana nilai tersebut selanjutnya akan digunakan dalam analisis pencocokan (matching). Pada propensity score matching jumlah kelompok kontrol lebih banyak daripada jumlah kelompok treatment.

Tahap kedua yaitu melakukan analisis (matching) dengan metode Nearest Neighbor matching. Nilai propensity score yang telah balance pada tahap pertama

Dalam dokumen PROPENSITY SCORE MATCHING MENGGUNAKAN SUPPORT VECTOR MACHINE PADA KASUS DIABETES MELITUS (DM) TIPE 2 (Halaman 31-165)