KLASIFIKASI PASIEN HASIL PAP SMEAR TEST SEBAGAI PENDETEKSI AWAL
UPAYA PENANGANAN DINI PADA PENYAKIT KANKER SERVIKS DI RS. “X”
SURABAYA DENGAN METODE BAGGING LOGISTIC REGRESSION
Oleh :
Ida Ayu Sevita Intansari (1308 100 079)
Dosen Pembimbing :
Santi Wulan Purnami, S.Si, M.Si, Ph.D Ir. Sri Pingit Wulandari, M.Si
PENDAHULUAN
Latar Belakang
Permasalahan Penelitian
Batasan Masalah
Tujuan
Manfaat
LATAR BELAKANG
KANKER SERVIKS
Angka kejadian 74% dibanding kanker ginekologi lainnya
Cenderung timbul pada usia 33-55 tahun, dapat juga pada usia yang lebih muda
Menurut WHO, Indonesia adalah negara penderita kanker serviks nomor 1 di Dunia Penyebab KEMATIAN
no.2 bagi wanita
500.000 wanita/tahun didiagnosa menderita Kanker Serviks, dan 60% diantaranya meninggal
dunia
Disebabkan oleh virus HPV
Latar Belakang
Penelitian mengenai klasifikasi pasien hasil Pap Smear Test pernah dilakukan oleh Yastuti (2011) dengan pendekatan Bagging MARS
Hasilnya : kesalahan klasifikasi untuk pasien hasil Pap Test di RS “X” Surabaya tahun 2007-2010 sebesar 20,33% dan sisanya 79,67% terklasifikasikan sesuai dengan data asli
Penelitian menggunakan metode Bagging Logistic Regression pernah dilakukan oleh Ningrum, E.S. (2011)
untuk mengklasifikasikan kesejahteraan rumah tangga di Kota Malang, hasil kesimpulan penelitian tersebut menunjukkan bahwa nilai ketepatan klasifikasinya sebesar 97,8% menjadi 98% setelah dilakukan bagging
Permasalahan Penelitian
1
• Bagaimana karakteristik pasien berdasarkan faktor-faktor
resiko penyebab kanker serviks?
2
• Bagaimana pengaruh serta pola hubungan antara
faktor-faktor resiko hasil Pap Smear Test penyakit kanker serviks
dengan pendekatan analisis Bagging Logistik Regression?
3
• Bagaimana ketepatan klasifikasi hasil Pap Smear Test
berdasarkan pendekatan Bagging Regresi Logistik?
MANFAAT
Menambahkan
wawasan
keilmuan dalam
pengembangan
dan penerapan
metode Bagging
Logistic
Regression
khususnya dalam
bidang kesehatan.
1
Memberikan
informasi tentang
faktor resiko yang
berkontribusi
terhadap
klasifikasi pasien
sehingga menjadi
perhatian untuk
mengurangi
faktor resiko
tersebut
2
Meminimumkan
kesalahan
klasifikasi pasien
hasil Pap Smear
Test penyakit
kanker serviks
dari model yang
diperoleh
Batasan Penelitian
Data yang digunakan data sekunder yang diperoleh dari RS.
“X” Surabaya berupa data anamesa Bagian Riset dan
Pengembangan RS. “X” tahun 2010.
Data mengenai hasil Pap Smear Test pasien dan faktor-faktor
yang diduga mempengaruhi penyakit kanker serviks.
TINJAUAN
PUSTAKA
Statistika Deskriptif
Analisis Regresi Logistik Biner
Interpretasi Model
Kanker Serviks
Faktor Resiko Kanker Serviks
Prosedur Klasifikasi
Bootstrap Aggregating
(Bagging)
Estimasi Bagging Class
Statistika Deskriptif
metode yang digunakan untuk mendeskripsikan data, meliputi pengumpulan, pengorganisasian, serta penyajian data dengan menggunakan ukuran pemusatan, ukuran keragaman, ukuran bentuk, dan ukuran relatif sehingga dapat memberikan informasi yang jelas, berguna, dan mudah dimengerti. Penyajian data secara deskriptif dapat dijelaskan dalam bentuk tabel, grafik, diagram, plot, serta besaran lainnya (Walpole, 1995).
Analisis Regresi Logistik Biner
Dalam model statistika dengan dua kategori, dengan variabel respon mengandung unsur “sukses” atau “gagal”. Data biner ini merupakan bentuk paling sederhana dari data kategori. Model yang paling sering digunakan untuk data dua kategori adalah regresi logistik biner
(Agresti, 1990).
REGRESI LOGISTIK BINER
Dengan menggunakan transformasi logit dari , maka model regresi fungsi logit dapat didefinisikan sebagai berikut
0 1 1 2 2 i i
i i 2 2 1 1 0 x β ... x β x β β x β ... x β x β βe
1
e
π(x)
π(x)Penaksiran Parameter
Menurut Hosmer dan Lemeshow (2000), metode estimasi yang digunakan dalam model regresi linear adalah maximum likelihood. Fungsi likelihood dalam metode ini merupakan fungsi peluang pengamatan untuk memperoleh taksiran parameter yang tidak diketahui. Parameter model regresi logistik dinotasikan yaitu :
Definisi p 1 0 β ... β β β
Pengujian Parameter Model Regresi Logistik
untuk mengetahui signifikansi parameter terhadap variabel respon secara keseluruhan. Pengujian signifikansi parameter tersebut menggunakan statistik uji G, dimana statistik uji G mengikuti distribusi
Chi-Square dengan derajat bebas satu (Hosmer dan Lemeshow, 2000).
Hipotesis yang digunakan: H0 :
H1: paling sedikit ada satu ≠ 0, dengan i = 1, 2, …, p Taraf Signifikan : 0,05
Statistik Uji :
Daerah penolakan : tolak Ho jika dengan derajat bebas v.
UJI SERENTAK i
β
n 1 i y 1 i y i n 0 n 1 i i 0 i πˆ 1 πˆ n n n n 2ln G
n 1 i i 1 y n
n 1 i i 0 1 y n 0 1n
n
n
α) (v, 2 χ G Pengujian Parameter Model Regresi Logistik
Untuk menguji pengaruh setiap secara individual. Hasil pengujian secara individual akan menunjukkan apakah suatu variabel prediktor layak
untuk masuk dalam model atau tidak. Hipotesis yang digunakan adalah
H0 : = 0
H1: ≠ 0, dengan i = 1, 2, …, p Taraf Signifikan : 0,05
Statistik Uji : Statistik Uji Wald
Daerah penolakan : tolak Ho jika.
UJI INDIVIDU i
β
iβ
) βˆ SE( βˆ W i i α/2 Z W UJI KESESUAIAN MODEL
Setelah estimasi model regresi logistik diperoleh, selanjutnya menguji seberapa besar keefektifan model dalam menjelaskan variabel respon. Menurut Hosmer and Lemeshow (2000) hal demikian disebut sebagai
goodness-of-fit (kesesuaian model). Adapun hipotesis yang digunakan
adalah :
H0: model sesuai
H1: model tidak sesuai
Statistik uji yang digunakan untuk menguji kesesuaianmodel adalah
Chi-Square dari Hosmer dan Lemeshow test.
Daerah penolakan : tolak Ho jika hitung > (db,α)
g 1 k k k k 2 k k k π 1 π n' π n' o Cˆ 2 χ 2 χInterpretasi Model
Untuk regresi logistik dengan variabel prediktor bersifat dikotomus, nilai
x dikategorikan 0 atau 1
Variabel respon Variabel Prediktor x = 1 x = 0 y = 1 y = 0
1 0 1 0 β β exp 1 β β exp 1 π
0β0 exp 1 β exp 0 π
1 0 β β exp 1 1 1 π -1
β0 exp 1 1 0 π -1 Interpretasi Model
Odds ratio, dinotasikan ψ, didefinisikan sebagai ratio odds untuk x = 1
terhadap odds untuk x = 0, yang dapat dituliskan
π(0)
π(0)/1
π(1)
π(1)/1
ψ
) β exp(β 1 1 ) exp(β 1 ) exp(β ) exp(β 1 1 ) β exp(β 1 ) β exp(β ψ 1 0 0 0 0 1 0 1 0)
exp(β
)
β
exp(β
0 1 0
exp(β
1)
Dari persamaan di atas, odds rasio berarti rata-rata besarnya kecenderungan variabel respon bernilai tertentu jika x = 1 dibandingkan jika x = 0 (Hosmer dan Lemeshow, 2000).
Prosedur Klasifikasi
Evaluasi prosedur klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi yang dilakukan oleh suatu fungsi klasifikasi (Johnson dan Wichern, 1992). Hasil Observasi Taksiran y1 y2 y1 n11 n12 y2 n21 n22 Keterangan :
n11 = Jumlah subjek dari y1 tepat diklasifikasikan sebagai y1 n12 = Jumlah subjek dari y1 salah diklasifikasikan sebagai y2 n21 = Jumlah subjek dari y2 salah diklasifikasikan sebagai y1 n22 = Jumlah subjek dari y2 tepat diklasifikasikan sebagai y2
22 21 12 11 21 12
n
n
n
n
n
n
APER (%) =Bootstrap Agregating (Bagging)
Metode bagging pertama kali digunakan oleh Breiman (1994). Bagging digunakan sebagai alat untuk memperbaiki stabilitas dan kekuatan prediksi dengan cara mereduksi variansi dari suatu prediktor. Bagging prediktor adalah metode untuk membangkitkan multiple version dari prediktor dan menggunakannya untuk
aggregate prediktor.
Bagging bekerja dengan baik pada metode klasifikasi yang menghasilkan parameter
yang tidak stabil, dimana perubahan kecil pada data set akan menghasilkan perubahan besar pada model yang diperoleh (Breiman, 1994).
Aggregate classifier atau metode klasifikasi agregat µA diberikan secara umum dalam :
µA(y) = EF [(y, k)]
Untuk setiap resampel bootstrap dari dihitung :
(*b)(y,
k(*b)), b = 1, ... , B
Estimasi Bagging Class Probability
Selama ini bukti-bukti mengindikasikan bahwa bagged menaksir lebih akurat daripada penaksir tunggal. Untuk menguji pernyataan ini dilakukan perbandingan estimasi
*(jx) dari nilai sebenarnya. Perbandingan dilakukan dengan membandingkan prediksi error dari hasil model tunggal sebagai berikut.
eS = (jx) – p*(jx)
dimana (jx) adalah penaksir peluang dari model tunggal dan p*(jx) adalah peluang sebenarnya.
Sedangkan untuk model hasil bagging, pada setiap iterasi bootstrap dilakukan perhitungan prediksi error.
eB = B(jx) – p*(jx)
dimana B(jx) penaksir dari peluang pada setiap replikasi, sehingga prediksi error dari model bagging merupakan hasil rata-rata prediksi error pada setiap pengambilan sampel pada setiap B replikasi bootstrap (Breiman, 1994).
Algoritma Bagging untuk Regresi Logistik Biner
1. Mengambil sampel bootstrap sebanyak n dari data set dengan pengulangan sebanyak n. Pengambilan sampel sedemikian hingga setiap variabel aggregate dalam setiap observasi. 2. Memodelkan regresi logistik biner data set hasil sampel bootstrap B .
3. Menghitung peluang respon untuk setiap observasi dan menghitung ketepatan klasifikasi. Kesalahan klasifikasi pada langkah ini disebut eB.
4. Mengulang langkah 1 sampai langkah 4 sebanyak B kali (replikasi bootstrap).
5. Memperoleh ketepatan klasifikasi bagging dari pengambilan sampel sampai B, sehingga kesalahan klasifikasi bagging untuk replikasi B kali adalah B.
6. Membentuk model bagging regresi logistik biner dari setiap parameter pada setiap pengambilan sampel sampai B.
7. Untuk memperoleh hasil yang lebih baik, maka replikasi bootstrap dilakukan sebanyak mungkin (Efron dan Tibshirani, 1993). Replikasi bootstrap yang biasa digunakan adalah 50 sampai 200.
Kanker Serviks
Kanker mulut rahim (serviks) atau karsinoma serviks uterus
merupakan kanker pembunuh wanita nomor dua di dunia setelah kanker
payudara. Di Indonesia, kanker mulut rahim bahkan menduduki
peringkat pertama. (Wikipedia, 2012).
Kanker Serviks berkembang secara bertahap, tetapi progresif
Tingkat displasia dan KIS
Karsinoma in-situ (1-7 tahun)
Karsinoma invasif (3-20 tahun)
Kanker Serviks
GEJALA KLINIS KANKER SERVIKS
Pada fase pra kanker, sering tidak ada gejala atau tanda-tanda yang khas. Namun, kadang bisa ditemukan gejala-gejala sebagai berikut (Wijaya, 2010) :
1. Keputihan atau keluar cairan encer dari vagina. Getah yang keluar dari vagina ini makin lama akan berbau busuk akibat infeksi dan nekrosis jaringan
2. Perdarahan setelah sanggama ( post coital bleeding ) yang kemudian berlanjut menjadi perdarahan yang abnormal.
3. Timbulnya perdarahan setelah masa menopause.
4. Pada fase invasif dapat keluar cairan berwarna kekuning-kuningan, berbau dan dapat bercampur dengan darah
5. Timbul gejala-gejala anemia bila terjadi perdarahan kronis.
6. Timbul nyeri panggul (pelvis) atau di perut bagian bawah bila ada radang panggul. Bila nyeri terjadi di daerah pinggang ke bawah, kemungkinan terjadi hidronefrosis. Selain itu, bisa juga timbul nyeri di tempat-tempat lainnya.
Faktor Resiko Kanker Serviks
Faktor risiko adalah faktor yang memudahkan terjadinya infeksi virus HPV dan faktor lain yang memudahkan atau meningkatkan risiko menderita kanker serviks. Selain infeksi HPV ditemukan faktor risiko yang meningkatkan peluang timbulnya kanker serviks adalah sebagai berikut :
Kanker seviks sering terjadi pada wanita usia 40 tahun keatas dan sangat jarang terjadi pada wanita dengan usia kurang dari 15 tahun. Kanker ini juga dapat menyerang manula (Nurwijaya, dkk., 2010).
Penggunaan kontrasepsi hormonal dalam jangka panjang dapat meningkatkan risiko 4 kali lebih besar terkena kanker serviks (Melva, 2008).
Melahirkan anak banyak dan sering hamil juga dapat meningkatkan risiko kanker serviks (Nurwijaya, dkk., 2010).
Siklus menstruasi yang tidak teratur dimungkinkan karena adanya gangguan hormonal serta kemungkinan lain yang telah terjadi (Setiawan, 2010)
USIA
Usia mens pertama Penggunaan kontrasepsi Frekuensi melahirkan Siklus menstruasi
Pemeriksaan Diagnostik
Pemeriksaan diagnostik dapat dilakukan dengan berbagai cara antara lain :
1
• Papanicolaouw Smear (Pap Smear Test)
2• Tes Schiller
3• Sitologi
4• Kolposkopi
5• Kolpomikroskopi
6• Biopsi
• Konisasi
Pap Smear Test
Ada dua pencegahan yang dapat dilakukan yaitu pencegahan primer dan sekunder :
PRIMER pencegahan faktor penyebab kanker serviks yang dilakukan dengan cara menghindari faktor-faktor yang menyebabakan infeksi HPV dan melakukan vaksin HPV.
SEKUNDER menemukan lesi pra-kanker dan mengobatinya agar tidak berkembang menjadi kanker serviks. Pencegahan sekunder dapat dilakukan melalui skrining (deteksi dini) lazim digunakan PAP
SMEAR TEST
Hasil Pap test sesuai klasifikasi Papanicolaou terdiri dari lima klas yaitu (Nurwijaya, 2010): 1. Normal, dimana tidak ditemukan sel abnormal
2. Tampak sel abnormal tetapi tidak ada bukti keganasan 3. Tampak sel-sel atypik yang meragukan untuk keganasan 4. Tampak sel-sel yang mencurigakan keganasan
5. Tampak adanya sel-sel ganas
Kelompok Jenis
Normal Normal smear
Abnormal Radang non spesifik TV AS (Atrophic Smear) HV
ASC-US Candida
METODOLOGI
PENELITIAN
Sumber Data Penelitian
Variabel Penelitian
Sumber Data Penelitian
Data SEKUNDER
RS. “X” Surabaya Data anamesa bagian Dept. Riset dan Pengembangan RS. “X”
Variabel Penelitian
Kode Variabel Definisi Operasional Skala Pengukuran
Variabel respon :
Y Hasil Pap Smear
Test
1. Normal (1) 2. Abnormal (2)
Nominal Variabel prediktor :
X1 Usia Usia pasien Rasio
X2 Usia melahirkan
pertama kali
Usia pertama kali melahirkan Rasio
X3 Usia menstruasi pertama kali
Usia pertama kali mengalami menstruasi Rasio X4 Siklus menstruasi 1. teratur (1)
2. tidak teratur (2)
Nominal
X5 Frekuensi
melahirkan
1. pernah melahirkan ≤2 anak (1) 2. pernah melahirkan ˃2 anak (2)
Nominal
X6 Penggunaan
kontrasepsi
1. tidak menggunakan kontrasepsi (1) 2. menggunakan kontrasepsi (2)
Nominal X7 Riwayat keguguran 1. tidak pernah keguguran (1)
2. pernah keguguran (2)
Struktur Data Penelitian
Pasien hasil Pap Smear Test
penyakit kanker serviks
Y
X
1X
2...
X
71
y
1X
1,1X
2,1...
x
7,12
y
2X
1,2X
2,2...
x
7,23
Y
3x
1.,3X
2,3...
x
7,3...
... ... ......
...N
y
nx
1,nx
2,n...
x
7,n Metode
Analisis
Mulai Analisis deskriptif
Analisis dengan Regresi Logistik Biner dengan pengujian secara individu
Menentukan model Regresi Logistik Biner Mendapatkan variabel prediktor yang signifikan berpengaruh terhadap model regresi logistik biner Melakukan Bagging untuk prediktor dari model logistik biner, 50 sampai 100 replikasi bootstrap dari 2 kombinasi
data
Menentukan ketepatan klasifikasi pada setiap pengambilan sampel B replikasi bootstrap
Menentukan kesalahan klasifikasi bagging B
Membentuk model bagging regresi logistik biner dari rata-rata setiap parameter pada setiap pengambilan sampel
Karakteristik Pasien Pap Smear Test Bedasarkan
Faktor Resiko Usia
Usia Pasien Hasil Pap Smear Test Total Normal Abnormal <= 35 tahun 63 157 220 > 35 tahun 198 482 680 Total 261 639 900 29% 71%
Pasien berusia < 35 tahun
normal abnormal
28% 72%
Pasien berusia > 35 tahun
normal abnormal 23% 77% abnormal <= 35 tahun > 35 tahun (a) (b) (c)
Karakteristik Pasien Pap Smear Test Bedasarkan
Faktor Resiko Usia Melahirkan Pertama Kali
Usia Pertama Melahirkan
Hasil Pap Smear Test
Total Normal Abnormal <= 20 tahun 24 71 95 > 20 tahun 237 568 805 Total 261 639 900 23% 77%
Usia melahirkan < 20 tahun
normal abnormal
29% 71%
Usia melahirkan > 20 tahun
normal abnormal 10% 90% abnormal <=20 tahun >20 tahun (a) (b) (c)
Karakteristik Pasien Pap Smear Test Bedasarkan
Faktor Resiko Usia Menstruasi Pertama Kali
Usia Pertama Menstruasi
Hasil Pap Smear Test Total Normal Abnormal <= 13 tahun 179 433 612 > 13 tahun 82 206 288 Total 261 639 900 29% 71%
Usia Mens Pertama < 13 tahun
normal abnormal
27% 73%
Usia Mens Pertama > 13 tahun normal abnormal 65% 35% Abnormal <=13 tahun >13 tahun (a) (b) (c)
Karakteristik Pasien Pap Smear Test Bedasarkan
Faktor Resiko Siklus Menstruasi
Siklus Menstruasi
Hasil Pap Smear Test Total Normal Abnormal Teratur 221 438 659 Tidak Teratur 40 201 241 Total 261 639 900 33% 67% Teratur normal abnormal 16% 84% Tidak Teratur normal abnormal 67% 33% Abnormal teratur tidak teratur (a) (b) (c)
Karakteristik Pasien Pap Smear Test Bedasarkan
Faktor Resiko Jumlah Anak (Paritas)
Paritas Hasil Pap Smear Test Total
Normal Abnormal Anak <= 2 148 358 506 Anak > 2 113 281 394 Total 261 639 900 29% 71% Paritas < 2 anak normal abnormal 27% 73% Paritas > 2 anak normal abnormal 55% 45% Abnormal jumlah anak < 2 jumlah anak > 2 (a) (b) (c)
Karakteristik Pasien Pap Smear Test Bedasarkan
Faktor Resiko Penggunaan Kontrasepsi
Penggunaan Kontrasepsi
Hasil Pap Smear Test
Total Normal Abnormal Tidak menggunakan 179 353 532 Menggunakan 82 286 368 Total 261 639 900 34% 66% Tidak Menggunakan Kontrasepsi normal abnormal 21% 79% Menggunakan Kontrasepsi normal abnormal 54% 46% Abnormal menggunakan tidak menggunakan (a) (b) (c)
Karakteristik Pasien Pap Smear Test Bedasarkan
Faktor Resiko Riwayat Keguguran
Riwayat Keguguran
Hasil Pap Smear Test
Total Normal Abnormal Tidak Pernah 189 448 637 Pernah 72 191 263 Total 261 639 900 30% 70%
Tidak Pernah Keguguran
normal abnormal 26% 74% Pernah Keguguran normal abnormal 68% 32% Abnormal tidak pernah pernah (a) (b) (c)
Analisis Regresi Logistik
Uji Individu
Hipotesis yang digunakan adalah sebagai berikut. H0 : βi = 0
H1 : βi ≠ 0, dengan i= 1,2,…,p
Tingkat signifikansi yang digunakan yaitu α = 5%. Statistik uji yang digunakan adalah statistik uji Wald. Keputusan penolakan H0 jika p-value < α atau nilai W2 lebih besar
dari (1;0,05)= 3,841
Variabel
Prediktor Deskripsi Wald p-value
X1 Usia 18,772 0,000*
X2 Usia melahirkan pertama 2,799 0,094
X3 Usia menstruasi pertama 0,118 0,665
X4 Siklus menstruasi 23,532 0,000*
X5 Paritas (Jumlah anak) 0,035 0,852
X6 Penggunaan kontrasepsi 13,484 0,000*
Analisis Regresi Logistik
Uji Serentak
Variabel prediktor yang digunakan untuk membentuk model regresi logistik biner ini adalah variabel prediktor yang secara individu signifikan berpengaruh terhadap variabel respon. Teknik yang digunakan dalam uji serentak adalah teknik backward
wald dengan hipotesis sebagai berikut
H0 : β1 = β2 = … = βp = 0
H1 : paling sedikit ada satu βi≠ 0, dengan i = 1,2,…, p
Tingkat signifikansi yang digunakan yaitu α = 5%. Statistik uji yang digunakan adalah statistik uji G yang mengikuti distribusi Chi-Square. Keputusan penolakan H0 jika p-value < α atau nilai G lebih besar (3;0,05)= 7,815.
Variabel
Prediktor Deskripsi β p-value
Odds Ratio X1 Usia pasien 0,035 0,000* 1,036 X4(1) Siklus menstruasi -0,878 0,000* 0,415 X6(1) Penggunaan kontrasepsi -0,565 0,000* 0,568 Konstanta -0,470 0,260 1,599
Analisis Regresi Logistik
Jadi, model regresi logistik biner yang diperoleh adalah sebagai berikut.
(1)) 0,565X -(1) 0,878X -0,035X (-0,470 exp 1 (1)) 0,565X -(1) 0,878X -0,035X exp(-0,470 (x) 6 4 1 6 4 1
Analisis Regresi Logistik
Uji Kesesuaian Model
Hipotesis yang digunakan adalah sebagai berikut.
H0 : model sesuai (tidak ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi)
H1 : model tidak sesuai (ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi) Tingkat signifikasi yang digunakan adalah α = 5%.
Pada Hosmer and Lemeshow test diperoleh nilai p-value sebesar 0,173 dimana nilai p-value > α sehingga keputusannya adalah Gagal tolak H0 yang berarti model sesuai atau tidak ada perbedaan antara hasil observasi dengan hasil prediksi pada tingkat signifikansi α = 5%. Sehingga model yang digunakan adalah
dengan model logit :
(1)) 0,565X -(1) 0,878X -0,035X (-0,470 exp 1 (1)) 0,565X -(1) 0,878X -0,035X exp(-0,470 (x) 6 4 1 6 4 1
Analisis Regresi Logistik
Interpretasi Model Regresi Logistik
Variabel
Prediktor Deskripsi β Odds Ratio X1 Usia pasien 0,035 1,036 X4(1) Siklus menstruasi -0,878 0,415 X6(1) Penggunaan kontrasepsi -0,565 0,568 Konstanta -0,470 1,599
Analisis Regresi Logistik
Uji Ketepatan Klasifikasi
Observasi Prediksi Ketepatan
Klasifikasi(%)
Normal Abnormal
Normal 2 259 0,8
Abnormal 5 634 99,2
Ketepatan Klasifikasi Total (%) 70,7
diketahui bahwa persentase seluruh observasi terklasifikasikan dengan benar adalah 70,7% sehingga besarnya misklasifikasi (APER) adalah 29,3%.
Kombinasi data Ketepatan Klasifikasi
Kombinasi 1 (80%-20%)
Training 71,20%
Bagging Regresi Logistik
Hasil pada model regresi logistik biner menyimpulkan bahwa variabel yang
signifikan berpengaruh terhadap hasil Pap Smear Test adalah jumlah usia
pasien (X
1), siklus menstruasi (X
4) dan penggunaan kontrasepsi (X
6).
Semua variabel kemudian akan diperlakukan resampling bagging. Data dibagi
menjadi data training dan testing dengan 2 kombinasi yaitu training-testing
80%-20% dan training-testing 70%-30% kemudian masing-masing kombinasi
data direplikasi bootstrap sebanyak 50, 60, 70, 80, 90 hingga 100 kali.
Estimasi Bagging Class Probability
Estimasi Bagging Class Probability pada kombinasi data 1
Replikasi
Bootstrap Rata-rata Ketepatan Klasifikasi
B
e
s50 kali 71,56% 28,44% 28,8% 60 kali 71,29% 28,71% 28,8% 70 kali 71,43% 28,57% 28,8% 80 kali 71,04% 28,96% 28,8% 90 kali 71,66% 28,34% 28,8% 100 kali 71,19% 28,81% 28,8% Replikasi
Bootstrap Rata-rata Ketepatan Klasifikasi B
e
s50 kali 68,33% 31,67% 49,45%
60 kali 67,78% 32,22% 49,45%
70 kali 68,33% 31,67% 49,45%
Hasil Bagging Regresi Logistik Data Training pada Data Kombinasi 1
Estimasi Bagging Class Probability
Estimasi Bagging Class Probability pada kombinasi data 2
Hasil Bagging Regresi Logistik Data Training pada Data Kombinasi 2Bagging Regresi Logistik Data Testing pada Data Kombinasi 2
Replikasi
Bootstrap Rata-rata Ketepatan Klasifikasi B
e
s50 kali 70,58% 29,42% 29,3% 60 kali 70,53% 29,47% 29,3% 70 kali 71,00% 29,00% 29,3% 80 kali 70,71% 29,29% 29,3% 90 kali 70,41% 29,59% 29,3% 100 kali 71,07% 28,93% 29,3% Replikasi
Bootstrap Rata-rata Ketepatan Klasifikasi B
e
s50 kali 70,37% 29,63% 29,25%
60 kali 70,37% 29,63% 29,25%
70 kali 70,37% 29,63% 29,25%
Perbandingan Hasil Ketepatan Klasifikasi Regresi Logistik Biner dengan Bagging Regresi Logistik
Dan jika dibandingkan dari tabel di atas hasil bootstrap data kombinasi kedua dengan data kombinasi pertama, data kombinasi pertama memiliki peningkatan ketepatan klasifikasi dan cukup tinggi.
Ketepatan Klasifikasi Ketepatan Klasifikasi
Kombinasi 1 (80%-20%) Hasil Bagging
Kombinasi 1 (80%-20%) Hasil data tunggal
Kombinasi 2 70%-30% Hasil Bagging
Kombinasi 2 70%-30% Hasii data tunggal
50,55% 68,33% 70,75% 70,37%
Jenis
Kombinasi Data
Regresi Logistik Biner Bagging Regresi Logistik
Katepatan Waktu (menit) Ketepatan Waktu (menit)
(1) 80%-20% 50,55% 1 68,33% 3600
Model Bagging Regresi Logistik
Model bagging regresi logistik yang diperoleh pada 90 kali replikasi bootstrap adalah :
)
1
(
0,58439X
)
1
(
0,82193X
-0,03828X
-1,06909
)
(
x
1 4
6g
Kesimpulan
Berdasarkan hasil analisis dan pembahasan, maka diperoleh kesimpulan sebagai berikut
1. Karakteristik pasien Pap Smear Test pendeteksi awal kanker serviks di rumah sakit “X” untuk hasil test
abnormal :
- Persentase terbesar berdasarkan variabel usia adalah pasien dengan usia diatas 35 tahun sebesar 77% sedangkan persentase pasien usia dibawah 35 tahun yaitu 23%.
- Persentase terbesar berdasarkan variabel usia melahirkan pertama kali adalah pasien dengan usia diatas 20 tahun sebesar 90% sedangkan persentase pasien usia dibawah 20 tahun yaitu 10%.
- Persentase terbesar berdasarkan variabel usia menstruasi pertama kali adalah pasien dengan usia di bawah 13 tahun sebesar 65% sedangkan persentase pasien usia di atas 13 tahun yaitu 35%.
- Persentase terbesar berdasarkan variabel siklus menstruasi adalah pasien dengan siklus menstruasi yang teratur sebesar 67% sedangkan persentase pasien dengan siklus menstruasi yang tidak teratur yaitu 33%. - Persentase terbesar berdasarkan variabel jumlah anak (paritas) adalah pasien dengan jumlah anak kurang
dari 2 anak sebesar 55% sedangkan persentase pasien dengan jumlah anak kurang dari 2 anak yaitu 45%. Keduanya memiliki selisih prsentase yang kecil.
- Persentase terbesar berdasarkan variabel penggunan kontrasepsi adalah pasien yang menggunakan kontrasepsi yaitu sebesar 54% sedangkan persentase pasien yang tidak menggunakan kontrasepsi yaitu sebesar 46%.
Kesimpulan
2. Variabel-variabel yang berpengaruh secara signifikan terhadap hasil Pap Smear Test adalah usia pasien (X1), siklus menstruasi (X4) dan penggunaan kontrasepsi (X6). Interpretasi model regresi logistik biner dapat digunakan untuk mengetahui peluang seorang pasien yang positif memiliki hasil Pap Smear Test yang abnormal. Sebagai ilustrasi penggunaan model regresi logistik yang diperoleh jika ada seorang pasien berusia 40 tahun, siklus menstruasinya tidak teratur dan menggunakan kontrasepsi memiliki nilai peluang untuk hasil Pap Smear Test normal adalah sebesar 0,12. Sehingga dapat diketahui pasien berusia 40 tahun, siklus menstruasinya tidak teratur dan menggunakan kontrasepsi memiliki nilai peluang untuk hasil Pap Smear Test abnormal sebesar 0,88.
3. Hasil analisis regresi logistik menunjukkan bahwa pola hubungan hasil Pap Smear Test sebagai test awal untuk kanker serviks dengan faktor-faktor yang mempengaruhinya digambarkan dalam model regresi logistik berikut.
Pada model tersebut terdapat 3 (tiga) variabel prediktor yang signifikan berpengaruh terhadap variabel respon, yaitu u usia pasien (X1), siklus menstruasi (X4) dan penggunaan kontrasepsi (X6), Model tersebut sudah sesuai untuk menjelaskan berapa besar peluang seorang pasien akan positif abnormal pada hasil Pap Smear Test, sehingga dapat langsung melakukan tindakan lanjut, dengan ketepatan klasifikasi sebesar 70,7%.
4. Hasil analisis bagging regresi logistik menunjukkan bahwa pada 90 kali pada data kombinasi 1 yaitu training-testing 80%-20% replikasi bagging diperoleh nilai ketepatan klasifikasi terbesar, yaitu sebesar 68,33%
Saran
Berdasarkan hasil analisis dan pembahasan, didapatkan informasi bahwa hasil Pap
Smear Test pendeteksi awal kanker serviks di rumah sakit “X lebih banyak dipengaruhi
oleh usia, siklus menstruasi dan penggunaan kontrasepsi sehingga diharapkan pasien dan calon pasien (wanita) di Indonesia lebih dini melakukan test Pap Smear Test, sebagai langkah awal pencegahan kanker serviks yang tidak dapat dirasakan gejala awalnya.
Sebaiknya pada penelitian selanjutnya yang menggunakan metode bagging, dilakukan replikasi bootstrap yang lebih banyak dan kombinasi data lainnya untuk meningkatkan ketepatan klasifikasi. Dan menggunakan metode lainnya yang lebih efisien dan dapat meningkatkan ketepatan klasifikasi misalkan Kernelized Logistic Regression.
DAFTAR PUSTAKA
Agresti, A. 1990. Categorical Data Analysis. John Wiley and Sons. New York.
Breiman, L. 1994. Bagging Predictor. Technical report No. 421. Departement of statistics University of California. Dias, J.G dan Vermunt J.K. 2005. A Bootstrap based Aggregate Classier for Model based Clustering. Journal of
Annals Statistics.
Efron, B., dan R. J. Tibshirani. 1993. An Introduction to the Bootstrap. Chapman and Hall. New York. Hosmer, D.W., dan Lemenshow. 2000. Applied Logistic Regression. USA : John Wiley and Sons.
Johnson, R. A. dan Wichern, D. W., 1992. Applied Multivariate Statistical Analysis. Prentice Hall. New Jersey.
Melva. (2008). Faktor-faktor yang Mempengaruhi Kejadian Kanker Leher Rahim Pada Penderita Yang Datang Berobat Di RSUP H. Adam Malik Medan. Tesis, Universitas Sumatera Utara, Medan.
Ningrum, E.S. (2012). Klasifikasi Kesejahteraan Rumah Tangga Di Kota Malang Dengan Pendekatan Bagging Regresi Logistik. Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya.
Nurdim, F.I. (2006). Klasifikasi Pasien Hasil Pap Test Penyakit Kanker Leher Rahim dengan Metode Multivariate Adaptive Regression Splines (MARS). Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya.
Nurwijaya, H., Andrijono, Suheimi, H.K., (2010). Cegah dan Deteksi Kanker Serviks. Gramedia, Jakarta. Setiawan, A. (2010). Kanker Serviks Penyebab Utama Kematian,
DAFTAR PUSTAKA
Walpole, R. E. (1995). Pengantar Statistika Edisi ke-3. Jakarta: PT Gramedia Pustaka Utama. Wijaya, D. (2010). Pembunuh Ganas Itu Bernama Kanker Serviks. Sinar Kejora, Yogyakarta.
Wikipedia. (2012). Kanker Leher Rahim. http://id.wikipedia.org/wiki/ Kanker_leher_rahim [diakses tanggal 9 Februari 2012].
Yastuti, H. (2011). Bagging Multivariate Adaptive Regression Splines (Mars) Untuk Klasifikasi Pasien Hasil Pap Test Penyakit Kanker Serviks (Studi Kasus Di RS “X” Surabaya). Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya.