DETEKSI DINI PENYAKIT KANKER LEHER
RAHIM (SERVIKS) DI KOTA BOGOR
MENGUNAKAN SUPPORT VECTOR MACHINE
(SVM) DAN REGRESI LOGISTIK BINER
JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA 2014
Seminar Hasil Tugas Akhir Jurusan Statistika ITS
Disusun oleh:
Agil Darmawan
Dosen Pembimbing:
PEMBAHASAN
Pendahuluan
Tinjauan Pustaka
Metodologi Penelitian
Analisis dan Pembahasan
PENDAHULUAN
Negara-negara berkembang menyumbang 370.000 dari total 466.000 kasus serviks kanker yang diperkirakan terjadi di dunia dalam tahun 2000 (WHO, 2001)
Latar Belakang
Di seluruh dunia, kanker serviks diklaim menjangkit 231.000 wanita per tahun, lebih dari 80% yang terjadi di negara berkembang (WHO, 2001)
PENDAHULUAN
Penelitian Yayasan Kanker Indonesia yang memperkirakan, ada sekitar 52 juta perempuan Indonesia memiliki risiko terkena kanker serviks. (kotabogor.go.id)
Latar Belakang
Faktor resiko kanker serviks bukan secara pasti menjadi penyebab terjangkitnya kanker serviks faktor yang menjadikan resiko terkena penyakit kanker menjadi besar.
RUMUSAN MASALAH
• Apa saja faktor-faktor yang mempengaruhi terjangkitnya penyakit kanker serviks di kota bogor menggunakan regresi logistik biner?
• Bagaimana klasifikasi penyakit kanker serviks berdasarkan faktor-faktor yang
mempengaruhi menggunakan Regresi Logistik Biner dan Support Vector Machine (SVM).
• Bagaimana ketepatan klasifikasi menggunakan metode Regresi Logistik Biner dan Support Vector Machine (SVM).
PENDAHULUAN
TUJUAN PENELITIAN
• Untuk mengetahui faktor-faktor yang mempengaruhi terjangkitnya penyakit kanker serviks di kota bogor menggunakan regresi logistik biner.
• Untuk mengetahui klasifikasi penyakit kanker serviks berdasarkan faktor-faktor yang mempengaruhi menggunakan Regresi Logistik Biner dan Support Vector Machine (SVM).
PENDAHULUAN
MANFAAT PENELITIAN
• Menambah khazanah penerapan ilmu statistika dalam bidang kesehatan.
• Dengan mengetahui faktor – faktor yang mempengaruhi penyakit kanker serviks bisa memberikan masukan kepada instansi kesehatan untuk rutin memberikan penyuluhan dan fasilitas kesehatan terkait kanker serviks kepada masyarakat.
Penelitian Intansari (2012) tentang kanker serviks menggunakan Bagging Logistik, menghasilkan akurasi klasifikasi sebesar 70,74%. Faktor yang berpengaruh
adalah Usia, Jumlah anak, Usia pertama melahirkan, dan Penggunaan kontrasepsi.
Penelitian Rachman (2012) tentang kanker payudara, didapatkan akurasi SVM sebesar 98,11%, jauh lebih besar dari akurasi Logistik Ordinal 56,6%.
PENDAHULUAN
TINJAUAN PUSTAKA
Regresi Logistik Biner
Regresi Logistik Biner adalah metode regresi yang mampu menyelesaikan kasus di mana variabel respon berupa dichotomous, ya-tidak, sukses-gagal, normal-cacat, hidup-mati, benar-salah, laki-laki-perempu-an, dan sebagainya. Varibel respon adalah data kategorik (Agresti, 2002).
Fungsi Probabilitas untuk tiap
observasi : f(y) y(1)1y y = 0, 1
Model Regresi Logitik adalah :
p
(
p = banyaknya prediktor (X)TINJAUAN PUSTAKA
Regresi Logistik Biner
Estimasi Parameter
Estimasi parameter pada regresi Logistik menggunakan Maximum Likelihood.
TINJAUAN PUSTAKA
Regresi Logistik Biner
Uji Parameter (Serentak)
H0 : β1 = β2 = … = βp = 0
Daerah penolakan; Tolak H0 jika
G > 2
TINJAUAN PUSTAKA
Regresi Logistik Biner
Uji Parameter (Indivisu)
H0 : βi = 0
H1 : βi ≠ 0 i = 1, 2, …, p
)
(
i iSE
W
Statistik uji :
TINJAUAN PUSTAKA
Regresi Logistik Biner
Uji Kebaikan Model
TINJAUAN PUSTAKA
Regresi Logistik Biner
Klasifikasi
Observa si
Prediksi
Gagal Sukses
Gagal n11 n12
Sukses n21 n22
n11: kategori gagal yang diprediksi gagal n12: kategori gagal yang diprediksi
sukses
n21: kategori gagal sukses diprediksi gagal
n22: kategori gagal sukses diprediksi sukses
Akurasi : n11+n22
n11+n12+n21+n22 Specificity : n21+n22n22
Sensitifity : n11
SVM adalah metode learning machine yang bekerja atas prinsip
Structural Risk Minimization (SRM) dengan tujuan menemukan
hyperplane terbaik yang memisahkan dua buah class pada input space
(Nugroho dan Witarto, 2003).
TINJAUAN PUSTAKA
Regresi Logistik Biner
Support Vector
Machine
TINJAUAN PUSTAKA
Support Vector Machine
Klasifikasi Linier
Himpunan data diberikan label (target) dan
Jika +1 dan -1 terpisah secara linier didefinisikan :
i l(masuk class –1) (masuk class +1) Penyesaian dengan meminimalkan
2Problem ini dapat diselesaikan dengan teknik metode Lagrange Multiplier :
TINJAUAN PUSTAKA
Support Vector
Machine
Non Linier
Umumnya dua buah class pada input space tidak dapat terpisah secara sempurna. dimodifikasi dengan memasukkan slack variabel , dengan > 0. Sehingga :
Pemisah hyperplane menjadi :
l
i i
w w w C 1
2
2 1 ,
min
i i
i
w
x
b
y
.
1
TINJAUAN PUSTAKA
Support Vector
Machine
Non Linier
separable
Prinsip dasar SVM adalah linear classifier, dan selanjutnya dikembangkan agar dapat digunakan untuk kasus non-linear dengan memasukkan konsep Kernel. (Lin, 2003).
)
,
(
:
K
x
ix
jKernel
Jenis Kernel Fungsi
Polynomial p=1,… dimana
TINJAUAN PUSTAKA
Kanker Serviks
Kanker ini merupakan kanker ganas yang terbentuk dalam jaringan ser-viks (organ yang menghubungkan uterus dengan vagina). Salah satu faktor utama tumbuhnya kanker jenis ini Infeksi Human Papilloma Virus (HPV). (www.parkwaycancercentre.com)
Faktor resiko bukanlah penyebab mutlak akan terjangkitnya kanker rahim, namun faktor – faktor
TINJAUAN PUSTAKA
TINJAUAN PUSTAKA
METODOLOGI PENELITIAN
Sumber Data
Sumber Data
Data yang digunakan merupakan data sekunder mengenai
METODOLOGI PENELITIAN
Variabel Penelitian
Kode Variabel Definisi Skala data Kode Variabel Definisi Skala
data
Y Diagnosa kanker serviks 1: Terjangkit Nominal X8 Jenis kontrasepsi
1: Hormonal
Nominal
2: Tidak terjangkit 2: Tidak hormonal
X1 Usia Usia pasien saat survey Rasio X9 Waktu kontrasepsi Lama penggunaan
kontrasepsi Rasio
X2 Status perkawinan
1: Iya
Nominal X10 Riwayat kangker pada keluarga
1: Ada
Nominal
2: Tidak 2: Tidak
X3 Jumlah pasangan seksual
1: 1 pasangan
Ordinal X11 Vaksinasi HPV
1: Pernah
Nominal
2: > 1 pasangan 2: Tidak pernah
X4 Pendarahan di luar menstruasi
1: Iya X5 Usia pertama melahirkan
Usia saat melahirkan anak
pertama Rasio 2: 3 tahun sekali
X6 Jumlah anak Jumlah anak yang dilahirkan Rasio 3: > 3 tahun sekali
X7 Penggunaan kontrasepsi
1: Iya
Nominal X14 Merokok
1: Iya
Nominal
METODOLOGI PENELITIAN
Langkah Analisis
1. Melakukan pengumpulan data sekunder dari penelitian Kohort Litbangkes 2011.
2. Melakukan statistika deskriptif untuk melihat karakteristi data.
3. Mendapatkan faktor-faktor yang mempengaruhi terjangkitnya penyakit kanker serviks di Kota Bogor menggunakan Regresi Logistik Biner, dengan langkah analisis:
a. Estimasi Parameter β menggunakan Maximum Likelihood
b. Melakukan Uji Estimasi Parameter c. Uji Kesesuaian Model
4. Membuat model klasifikasi penyakit kanker serviks menggunakan
Regresi Logistik Biner. Dengan pembagian data :
METODOLOGI PENELITIAN
Langkah Analisis
5. Menghitung klasifikasi penyakit kanker serviks menggunakan Support Vector Machine (SVM). Dengan langkah analisis :
a. Menentukan skala data training-testing dengan 3 kombinasi; I. Training-testing 90:10
II. Training-testing 70:30 III. Training-testing 50:50
b. Menentukan Fungsi Kernel yang dipakai, dalam penelitian kali ini menggunakan Polinomial.
c. Menentukan parameter C dan p.
d. Menghitung klasifikasi beserta ketepatan akurasinya.
ANALISA DAN PEMBAHASAN
Statistika
Deskriptif
Variabel berskala rasio
Variabel (satuan)
Mean
Min Max
Terjangkit terjangkit Tidak
Usia (tahun) [X1] 43,17 42,6345 22 65
Usia pertama melahirkan (tahun) [X5] 22,2 22,50276 13 41
Banyak anak (jumlah) [X6] 3,2 3,219405 1 10
Lama penggunaan kontrasepsi (hari)
[X9] 30,33333 98,39869 1 968
Variabel berskala
Terjangkit Tidak terjangkit
Nikah Tidak
Terjangkit Tidak terjangkit
1 pasang > 1 pasang
0 6 54
Terjangkit Tidak terjangkit
Pendarahan Tidak
Terjangkit Tidak terjangkit
Memakai Konrasepsi Tidak
ANALISA DAN PEMBAHASAN
3
Terjangkit Tidak terjangkit
Hormonal Non hormonal
1 5 40
Terjangkit Tidak terjangkit
Riwayat keluarga Tidak ada
0 6 5
Terjangkit Tidak terjangkit
Vaksinasi HPV Tidak
1 5 59
Terjangkit Tidak terjangkit
Tes Pap Smear Tidak
3
Terjangkit Tidak terjangkit
Merokok Tidak
ANALISA DAN PEMBAHASAN
Variabel
Diagnosa
Total
Terjangkit Tidak terjangkit
Status pernikahan Nikah 5 903 908
Tidak 1 123 124
Jumlah pasangan 1 pasang 5 910 915
> 1 pasang 1 116 117
Pendarahan saat mens
Iya 0 54 54
Tidak 6 972 978
Kontrsepsi Iya 4 769 773
Tidak 2 257 259
Jenis Kontrasepsi
Hormonal 3 634 637 Non
hormonal 3 392 395
Riwayat Keluarga Ada 1 40 41
Tidak 5 986 991
Vaksinasi HPV Pernah 0 5 5
Tidak 6 1021 1027
Tes Pap Smear Pernah 1 59 60
Tidak 5 967 972
Merokok Iya 3 269 272
Tidak 3 757 760
Tabulasi Silang (crosstab)
ANALISA DAN PEMBAHASAN
ANALISA DAN PEMBAHASAN
Regresi Logistik
Biner
Pada pengujian Regresi Logistik Biner ini
menggunakan = 0,2
Uji Univariabel
Variabel B df value
P-Y dengan X1
Usia -,013 1 ,781 Constant 5,440 1 ,014
Y dengan X2
Status pernikahan ,728 1 ,531 Constant 4,263 1 ,000
Y dengan X3
Jumlah.pasangan.s
eks ,940 1 ,419 Constant 4,078 1 ,000
Y dengan X4
Pendarahan mens 16,399 1 ,998 Constant 4,804 1 ,000
Y dengan X5
Usia melahirkan -,019 1 ,771 Constant 5,243 1 ,000
Y dengan X6
Banyak anak ,137 1 ,632 Constant 4,509 1 ,000
Y dengan X7
Kontrasepsi -,051 1 ,965 Constant 4,890 1 ,000
Variabel B df P-value
Y dengan X8
Jenis.kontrasepsi ,331 1 ,742 Constant 4,673 1 ,000
Y dengan X9
Lama kontrasepsi
,014 1 ,292
Constant 4,292 1 ,000
Y dengan X10
Riwayat keluarga
-1,871 1 ,111
Constant 5,090 1 ,000
Y dengan X11
Vaksinasi HPV 16,355 1 1,000 Constant 4,848 1 ,000
Y dengan X12
Usia menikah ,004 1 ,939 Constant 4,766 1 ,000
Y dengan X13
Tes Pap Smear -1,545 1 ,186
Constant 5,071 1 ,000
Y dengan X14
Merokok -2,136 1 ,065
Constant 5,935 1 ,000
ANALISA DAN PEMBAHASAN
Regresi Logistik
Biner
Uji Parameter
(serentak)
H0 : β10=β13=β14=0 (Variabel independen tidak mempengaruhi variabel dependen)
H1 : Minimal satu βi≠0 (Minimal satu variabel independen yang berpengaruh)
Chi-square df
P-value Step 6,576 3 ,087
Block 6,576 3 ,087
Mode
l 6,576 3 ,087
Tolak H0 jika P-value <
Terlihat dari tabel bahwa nilai P-value 0,087 yang berarti kurang dari (0,2). Maka keputusannya adalah tolak H0.
Jadi ketiga prediktor secara bersama-sama berpengaruh terhadap terjangkitnya penyakit kanker serviks. Juga bisa disimpulkan
ANALISA DAN PEMBAHASAN
Regresi Logistik
Biner
Estimasi dan Uji Parameter
(individu)
Tes PapSmear
-1,478
Constant 6,285 34,06
6
,000 536,5 74
Tolak H0 jika P-value <
Terlihat variabel dengan P-value < 0,2 adalah Riwayat Keluarga dan Merokok. Maka
Terlihat dari tabel nilai koefisien parameter (βi) adalah :
𝛽𝑖T : [β
0, β10, β13, β14]
: [6.286, -1.805, -1.478, -1.929]
ANALISA DAN PEMBAHASAN
Regresi Logistik
Biner
Estimasi dan Uji Parameter
(individu)
Seorang wanita yang tidak memiliki riwayat keluarga kemungkinan terserang kanker serviks adalah 0,164 kali (lebih rendah) dari pada yang memiliki riwayat keluarga. Seorang wanita yang tidak rutin tes Pap
Smear kemungkinan terserang kanker serviks adalah 0,228 kali (lebih
rendah) dari pada yang pernah tes Pap Smear. Seorang wanita yang tidak punya kebiasaan merokok kemungkinan terserang kanker serviks adalah 0,145 kali (lebih rendah) dari pada yang terbiasa merokok.
β
Tes PapSmear
-1,478 ,228
Merokok
-1,929 ,145
Constant 6,285 536,5
ANALISA DAN PEMBAHASAN
Regresi Logistik
Biner
Model Regresi Logistik
Biner
Model Logit :
g1 x =6,285−1,805X1(1)−1,929X3(1)
Model regresi logistiknya adalah sebagai berikut :
)
(
ˆ
1x
= e6,285−1,805X1(1)−1,929X3(1)1+e6,285−1,805X1(1)−1,929X3(1)
) ( ˆ 1 ) (
ˆ0 x
1 xANALISA DAN PEMBAHASAN
Regresi Logistik
Biner
Uji Kebaikan Model
H0: Model telah sesuai H1: Model tidak sesuai
Chi-square df
P-value
,716 2 ,699
Tolak H0 jika P-value <
Tabel Hosmer and Lemeshow Test
Terlihat bahwa nilai P-value lebih dari 0,2, maka keputusannya adalah gagal tolak H0. Jadi pada
ANALISA DAN PEMBAHASAN
Regresi Logistik
Biner
Klasifikasi
Kombinasi Akurasi Specivicity Sensitivity
50-50 99,4% 0% 100%
70-30 99,3% 0% 100%
90-10 99,02% 0% 100%
Dari tabel di atas terlihat bahwa tingkat akurasi klasifikasi paling tinggi dihasilkan kombinasi traning:testing 50:50 yaitu sebesar 99,4%. Kombinasi 70:30 menghasilkan akurasi 99,3%. Sedangkan untuk kombinasi 90:10 menghasilkan akurasi 99,02%. Nilai
sensitifity sama dengan nilai akurasi. Sedangkan nilai specificity bernilai 0%, karena
ANALISA DAN PEMBAHASAN
Support Vector
Machine
Analisis SVM pada penelitian ini menggunakan fungsi kernel Polinomial dengan parameter p=2. Parameter SVM sebagai titik penalt dengan C=10.
Kombinasi Akurasi Specivicity Sensitivity Support Vector
50-50 99,6% 0% 100% 512
70-30 100% 0% 100% 716
90-10 100% 0% 100% 923
Kombinasi Regresi Logistik Biner Support Vector Machine
Akurasi Specivicity Sensitivity Akurasi Specivicity Sensitivity
50-50 99,4% 0% 100% 99,6% 0% 100%
70-30 99,3% 0% 100% 100% 0% 100%
90-10 99,02% 0% 100% 100% 0% 100%
ANALISA DAN PEMBAHASAN
Perbandingan Performansi Logistik
Biner dan SVM
Dari tabel di atas terlihat bahwa pada penelitian kali ini tingkat akurasi Support Vector Machine
dan Regresi Logistik Biner mempunyai nilai akurasi yang sangat tinggi. Hal ini terjadi
overfitting karena proporsi kategori respon yang tidak seimbang. Dari total 1032 responden,
hanya 6 orang yang terjangkit. Selebihnya 1026 responden tidak terjangkit kanker serviks.
KESIMPULAN DAN SARAN
Kesimpulan
Faktor resiko yang berpengaruh signifikan pada taraf signifikasi 80% (=0,2) terhadap Kanker Serviks pada Analisis Regresi Logistik Biner adalah Riwayat Keluarga (X10) dan Merokok (X14).
Model Logit yang terbentuk dengan memodelkan respon dengan prediktor yang signifikan dalam uji univariabel (Riwayat Keluarga, Tes Pap Smear, dan Merokok) adalah g1 x =6,285−1,805X10(1)−1,929X14(1). Dari Model Logit tersebut didapatkan
model Logistik yang menggambarkan proba-bilitas atau resiko dari suatu objek. Model regresi logis-tiknya adalah berikut :
) ( ˆ1 x
= e6,285−1,805X10(1)−1,929X14(1)1+e6,285−1,805X10(1)−1,929X14(1)
(x) πˆ 1 (x)
Performansi klasifikasi menggunakan SVM pada kombinasi 90:10 dan 70:30 adalah sebesar 100%, sedangkan kombinasi 50:50 sebesar 99,6%. Akurasi klasifikasi menggunakan Logistik Biner pada kombinasi 90:10 dan 70:30 adalah sebesar 100%, sedangkan kombinasi 50:50 sebesar 99,6%. Jadi dalam kasus ini akurasi antara SVM dengan Logistik Biner adalah sama. Nilai
specificity sebesar 0%, sedangkan nilai sensitifity sebesar 100%. Hal ini
menunjukkan bahwa arah prediksi menuju kepada prediksi kategori y=0 (tak terjangkit). Terjadi demikian karena proporsi kategori yang tidak seimbang antara y=1 dengan y=0.
KESIMPULAN DAN SARAN
KESIMPULAN DAN SARAN
Saran
1. Jika terdapat kasus dengan kategori respon yang tidak seimbang, maka untuk mendapatkan hasil yang lebih baik dan tidak terjadi
over fitting perlu digunakan metode pengembangan SVM untuk
inballanced data.
Daftar Pustaka
Agresti, Alan. (2002), Categorical Data Analysis Second Edition. New York: John Wiley & Son’s, Inc. Bogor, Kota. (2011). Seminar Kesehatan "Peduli Perempuan: Cintai Diri, Cegah, Dan Deteksi Kanker
Serviks Sejak Dini". Retrieved March, 2014, from Web Site: http://www.kotabogor.go.id
Canhope. (2014). Apa itu Kanker Serviks?. Retrieved March, 2014, from Web Site: http://www.parkwaycancercentre .com
Evennet, Karen. (2003). Pap Smear, Apa yang Perlu Anda Ke-tahui. Jakarta : Arcan Publisher
Gunn, Steve. (1998). Support Vector Machine for Classification and Regression. Taiwan : National Taiwan University
Hosmer, D.,W., Lemeshow, S. (2000). Applied Regression Logis-tic, Second Edition. Canada: John Wiley & Son’s, Inc.
Hsu, C.W., Chang, C.C., Lin, C.J. (2003). A Practical Guide to Support Vector Classification. England : University of Southampton
Junita. (2014). Faktor Resiko Kanker Rahim. Retrieved March, 2014, from Web Site:
www.health.detik.com
Mc Cormick, C.,C., Giuntoli, R., L. (2011). Patient’s Guide to Cervical Cancer. Baltimore : The John Hopkins Health Corporation
Modern Cancer Hospital Guangzhou. (2014). Faktor Resiko Kanker Rahim. Retrieved March, 2014, from Web Site: www.asiancancer.com
Nugroho, A.S., Handoko, D., Witarto, A.B. (2003). Support Vector Machine – Teori dan Aplikasinya dalam Bioinformatika. BPPT
Rouzeau, Vanessa. (2012). Cervical Cancer : A Review. Florida : Herzing University
Rahman, Farizi. (2012). Klasifikasi Tingkat Keganasan Breast Cancer Dengan Menggunakan Regresi Logistik Ordinal Dan Support Vector Machine. Surabaya: Institut Teknologi Sepuluh Nopember. Susanti, Desi. (2012). Pemeriksaan Pap Smear. Riau : STIKES Tuanku Tambusai Bakinang
Walpole, R. E. (1995). Pengantar Statistika Edisi ke-3. Jakarta: PT Gramedia Pustaka Utama
World Health Organization. (2001). Effective screening programmes for cervical cancer in low- and middle-income developing countries. India : Bulletin of WHO