• Tidak ada hasil yang ditemukan

Klasifikasi Hasil Pap Smear Test Kanker Serviks Berdasarkan Faktor Resiko (Studi Kasus Di Rumah Sakit Swasta Surabaya

N/A
N/A
Protected

Academic year: 2021

Membagikan "Klasifikasi Hasil Pap Smear Test Kanker Serviks Berdasarkan Faktor Resiko (Studi Kasus Di Rumah Sakit Swasta Surabaya"

Copied!
6
0
0

Teks penuh

(1)

Abstrak—Kanker serviks adalah tidak terkontrolnya pertumbuhan siklus sel yang ada pada leher rahim (abnormal). Kanker serviks disebut juga kanker leher rahim atau kanker mulut rahim letaknya pada lapisan serviks. Menurut data Organisasi Kesehatan Dunia (World Health Organization/WHO) per tahun, ada sekitar 15.000 kasus kanker serviks ditemukan di Indonesia. Penyebab terjadinya kanker serviks yang paling utama adalah infeksi HPV (Human Papilloma Virus). Kanker serviks dapat di deteksi melalui Pap Smear Test. Dengan metode Classification and Regression Trees (CART) akan dihasilkan beberapa kelompok hasil pemeriksaan pasien kanker serviks yang relative lebih rinci. Berdasarkan hasil penelitian statistik deskriptif menunjukan bahwa pasien yang terdeteksi abnormal lebih banyak daripada pasien yang normal dengan menggunakan hasil Pap Smear Test, dengan perbandingan 70% (2452 pasien) abnormal dan 30% (1053 pasien) normal. Hasil klasifikasi dengan pendekatan CART memberikan informasi bahwa variabel yang paling berpengaruh terhadap hasil Pap Smear Test yaitu Usia Pasien, Riwayat Keguguran, Pemakaian Alat Kontrasepsi, Usia Menstruasi (Siklus Menstruasi dan Usia Melahirkan Pertama Kali), dan Frekuensi Melahirkan. Dan metode klasifikasi pohon menghasilkan pohon optimal dengan ketepatan klasifikasi data learning dan testing yaitu sebesar 58,3% dan 60,4% untuk kombinasi 80% data learning dan 20% data testing.

Kata Kunci—Pap Smear Test, Kanker Serviks, CART, Ketepatan Klasifikasi.

I. PENDAHULUAN

ANKER (Cancer) adalah salah satu penyebab utama kematian di negara-negara khususnya negara berkembang. Kanker merupakan penyakit yang ditandai dengan kelainan siklus sel, yang menimbulkan pertumbuhan sel tidak terkendali (pembelahan sel melebihi batas normal/abnormal) yang dapat menyerang jaringan biologis disekitarnya dan dapat pula bermigrasi ke jaringan tubuh yang lain melalui sirkulasi darah. Umumnya, kanker serviks ini terjadi pada wanita yang telah berumur (menopause) tetapi

bukti statistik menunjukan bahwa kanker leher rahim dapat juga menyerang wanita pada umur sekitar 20–30 tahun [1].

Menurut data Organisasi Kesehatan Dunia (World Health Organization/WHO) per tahun, ada sekitar 15.000 kasus kanker serviks ditemukan di Indonesia. Saat ini, Indonesia menjadi negara dengan jumlah kasus kanker serviks tertinggi di dunia. “Di Indonesia, setiap 1 jam wanita meninggal karena kanker serviks. Sedangkan di dunia, satu wanita meninggal karena kanker leher rahim tiap 2 menit [2].

Penelitian terkait metode CART dilakukan oleh Pertiwi [3] dengan judul “Klasifikasi Diagnosa Kanker Payudara (Patologi Anatomi) Pasien Kanker Payudara di Rumah Sakit ”X” Surabaya dengan Pendekatan Classification and Regression Trees (CART)”. Selain itu pada penelitian Sevita [4] dengan judul “Klasifikasi Pasien Hasil Pap Smear Test sebagai Pendeteksi Awal Upaya Penanganan Dini pada Penyakit Kanker Serviks di RS “X” Surabaya dengan Metode Bagging Logistic Regression”. Perbedaan dengan Tugas Akhir ini adalah metode yang digunakan dan jumlah data yang berbeda. Perbedaan Metode Bagging Logistic Regression dan CART (Classification And Regression Trees) adalah jika metode pertama dilihat variabel mana yang signifikan tapi jika metode CART adalah metode ini menggunakan pendekatan nonparametrik yang tidak membutuhkan asumsi distribusi, algoritma CART akan mengidentifikasi variabel secara otomotis variabel yang berpengaruh dan mereduksi kompleksitas data, mudah dalam mengatasi data outlier, dan mudah dalam interpretasi. Untuk itu diterapkan metode CART dengan tujuan mampu menghasilkan klasifikasi berdasarkan informasi data yang ada.

II. TINJAUANPUSTAKA A. Kanker Serviks

Kanker serviks adalah tidak terkontrolnya pertumbuhan siklus sel yang ada pada leher rahim (abnormal). Kanker serviks disebut juga kanker leher rahim atau kanker mulut rahim mulai tumbuh pada lapisan serviks.

Kanker serviks terbentuk sangat perlahan dan sangat sulit terdeteksi di awal kecuali terjadi infeksi pada fisik . Pertama, tumbuhnya siklus sel kanker yang ada dalam tubuh berubah dari keadaan normal menjadi sekumpulan sel-sel pra-kanker

Klasifikasi Hasil Pap Smear Test Kanker

Serviks Berdasarkan Faktor Resiko

(Studi Kasus Di Rumah Sakit Swasta Surabaya

Yuristian Ramdani dan Santi Wulan Purnami

Jurusan Statistika, Fakultas Matematika Dan Ilmu Pengetahuan Alam, Institut Teknologi Sepuluh

Nopember (ITS)

Jl. Arief Rahman Hakim, Surabaya 60111

E-mail

:

santiwulan08@gmail.com

(2)

yang kemudian berkembang menjadi sel kanker. Keadaan perubahan sel kanker ini terjadi secara kontinu, bertahap, dan memerlukan waktu yang bertahun-tahun, atau bahkan tidak jarang pertumbuhan siklus sel kanker ini berlangsung dalam kurun waktu yang relatif cepat. Hal ini disebabkan karena sistem kerja imunitas (daya tahan tubuh) setiap orang berubah-ubah. Perubahan ini sering disebut displasia. Mereka dapat ditemukan dengan tes Pap Smear dan dapat diobati untuk mencegah terjadinya kanker.

B. Faktor Resiko Kanker Serviks

Faktor resiko kanker serviks merupakan suatu faktor yang berguna untuk mengetahui faktor-faktor terjadinya kanker serviks (infeksi virus HPV) dan faktor lainnya atau meningkatkan resiko penderita kanker serviks.

Faktor resiko kanker serviks dintaranya sebagai berikut : 1. Usia

Faktor-faktor yang secara alami terjadi pada seseorang dan memang kita tidak berdaya untuk mencegahnya. Yang termasuk dalam faktor alamiah adalah usia diatas 40 tahun. Semakin tua seorang wanita maka semakin tinggi resikonya untuk terkena kanker serviks [5].

2. Pemakaian Alat Kontrasepsi

Menggunakan pil KB untuk waktu yang lama (5 tahun atau lebih) sedikit meningkatkan resiko kanker leher rahim atau serviks pada wanita dengan infeksi HPV. Namun, risiko menurun dengan cepat ketika wanita berhenti menggunakan pil KB [6].

3. Frekuensi Melahirkan

Penelitian menunjukkan bahwa melahirkan banyak anak (5 atau lebih) sedikit meningkatkan resiko kanker serviks atau leher rahim pada wanita dengan infeksi HPV [6].

4. Siklus Menstruasi

Siklus menstruasi yang tidak teratur bisa menjadi indikasi adanya gejala kanker rahim. Namun Anda tetap harus memeriksakan diri jika hal tersebut terjadi kepada Anda. Kanker rahim yang paling umum adalah endometrium, jenis kanker yang menyerang sekitar uterus [7].

5. Usia menstruasi pertama kali

Usia yang ideal untuk anak pertama kali menstruasi kurang lebih 12-16 tahun, disaat anak tersebut masuk sekolah menengah pertama atau ketika sudah bertambahnya ukuran buah dada. Jika anak tersebut pertama kali mengalami menstruasi di usia kurang dari 12 tahun, ataupun melebihi usia ideal maka anak tersebut memiliki kelainan hormon menstruasi [8].

6. Usia melahirkan pertama kali

Wanita yang melahirkan anak terakhir saat berusia 40 tahun atau lebih, mengalami penurunan risiko mengidap kanker rahim ketimbang perempuan yang melahirkan pada usia 25 tahun [9].

7. Riwayat Keguguran

Tidak pernah melahirkan dan juga pernah mengalami keguguran dapat menyebabkan kanker serviks [10].

C. Statistika Deskriptif

Statistik deskriptif merupakan metode statistik yang meringkas, menyajikan, dan mendeskripsikan data dalam bentuk yang mudah dibaca sehingga memberikan kemudahan dalam memberikan informasi [11]. Analisis Deskriptif

merupakan salah satu metode statistik yang yang mempelajari cara pengumpulan data dan penyajian data sehingga mudah dipahami. Fungsi statistika deskriptif adalah mengetahui dan menjelaskan tentang karakteristik data. Statistik deskriptif menyajikan data dalam tabel, grafik, ukuran pemusatan data, dan penyebaran data[12].

D. Klasifikasi Pohon

Classification and Regression Trees (CART) merupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk variabel respon kategorik maupun kontinu. CART menghasilkan suatu pohon klasifikasi jika variabel responnya kategorik, dan menghasilkan pohon regresi jika variabel responnya kontinu. Dengan tujuan untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian.

Kelebihan dari metode Classification and Regression Trees (CART)

[13]

.

1. Metode CART bersifat nonparametrik sehingga tidak memerlukan asumsi-asumsi yang mengikat seperti asumsi distribusi normal untuk variabel prediktor.

2. Struktur data dapat dilihat secara visual sehingga memudahkan eksplorasi dan pengambilan keputusan berdasarkan model yang diperoleh.

3. Tidak hanya memberikan klasifikasi, namun juga estimasi probabilitas kesalahan pengklasifikasian.

4. Mampu mengidentifikasi interaksi antar variabel prediktor yang berpengaruh secara lokal akibat diterapkannya pengambilan keputusan secara bertahap dalam himpunan bagian data pengukuran yang kompleks.

5. Hasil klasifikasi akhir berbentuk sederhana dan mengklarifikasikan data baru secara efisien.

6. Kemudahan dalam menginterpretasikan hasil.

Pembentukan pohon klasifikasi terdiri atas 3 tahap yang memerlukan learning sample L. Tahap pertama adalah pemilihan pemilah. Setiap pemilahan hanya bergantung pada nilai yang berasal dari satu variabel independen. Untuk variabel independen kontinu Xj dengan ruang sampel berukuran n dan terdapat n nilai amatan sampel yang berbeda, maka akan terdapat n−1pemilahan yang berbeda [13]. Sedangkan untuk Xj adalah variabel kategori nominal bertaraf

L, maka akan diperoleh pemilahan sebanyak 2L-1-1. Tetapi jika variabel Xj adalah kategori ordinal maka akan diperoleh L − 1 pemilahan yang mungkin. Metode pemilahan yang sering digunakan adalah indeks Gini dengan fungsi sebagai berikut 𝑖𝑖(𝑡𝑡) = ∑ 𝑝𝑝(𝑖𝑖|𝑡𝑡)𝑝𝑝(𝑗𝑗|𝑡𝑡)𝑖𝑖≠𝑗𝑗 (1) dengan 𝑖𝑖(𝑡𝑡) adalah fungsi keheterogenan indeks gini, p(i|t) adalah proporsi kelas i pada simpul t, dan p(j|t) adalah proporsi kelas j pada simpul t. Goodness of split merupakan suatu evaluasi pemilahan oleh pemilah s pada simpul t. Goodness of split

φ

( t

s

,

)

didefinisikan sebagai penurunan

keheterogenan.

∅(𝑠𝑠, 𝑡𝑡) = ∆𝑖𝑖(𝑠𝑠, 𝑡𝑡) = 𝑖𝑖(𝑡𝑡) − 𝑃𝑃𝐿𝐿𝑖𝑖(𝑡𝑡𝐿𝐿) − 𝑃𝑃𝑅𝑅𝑖𝑖(𝑡𝑡𝑅𝑅) (2) Pengembangan pohon dilakukan dengan mencari semua kemungkinan pemilah pada simpul 𝑡𝑡1 sehingga ditemukan pemilah s* yang memberikan nilai penurunan keheterogenan tertinggi yaitu,

∆𝑖𝑖(𝑠𝑠∗, 𝑡𝑡

(3)

dengan ∅(𝑠𝑠, 𝑡𝑡) adalah kriteria goodness of split, 𝑃𝑃𝐿𝐿𝑖𝑖(𝑡𝑡𝐿𝐿) adalah proporsi pengamatan dari simpul t menuju simpul kiri, dan 𝑃𝑃𝑅𝑅𝑖𝑖(𝑡𝑡𝑅𝑅) adalah proporsi pengamatan dari simpul t menuju simpul kanan.

Tahap kedua adalah penentuan simpul terminal. Simpul t dapat dijadikan simpul terminal jika tidak terdapat penurunan keheterogenan yang berarti pada pemilahan, hanya terdapat satu pengamatan (n=1) pada tiap simpul anak atau adanya batasan minimum n serta adanya batasan jumlah level atau tingkat kedalaman pohon maksimal.

Tahap ketiga adalah penandaan label tiap simpul terminal berdasar aturan jumlah anggota kelas terbanyak, yaitu:

𝑝𝑝(𝑗𝑗0|𝑡𝑡) = max𝑗𝑗 𝑝𝑝(𝑗𝑗|𝑡𝑡) = max𝑗𝑗𝑁𝑁𝑁𝑁(𝑡𝑡)𝑗𝑗(𝑡𝑡) (4) dengan 𝑝𝑝(𝑗𝑗|𝑡𝑡) adalah proporsi kelas j pada simpul t, 𝑁𝑁𝑗𝑗(𝑡𝑡) adalah jumlah pengamatan kelas j pada simpul t, dan 𝑁𝑁(𝑡𝑡) adalah jumlah pengamatan pada simpul t. Label kelas simpul terminal t adalah j0 yang memberi nilai dugaan kesalahan

pengklasifikasian simpul t terbesar.

Lewis [14] menyatakan proses pembentukan pohon klasifikasi berhenti saat terdapat hanya satu pengamatan dalam tiap simpul anak atau adanya batasan minimum n, semua pengamatan dalam tiap simpul anak identik, dan adanya batasan jumlah level/kedalaman pohon maksimal. Setelah terbentuk pohon maksimal tahap selanjutnya adalah pemangkasan pohon untuk mencegah terbentuknya pohon klasifikasi yang berukuran sangat besar dan kompleks, sehingga diperoleh ukuran pohon yang layak berdasarkan cost complexity prunning, maka besarnya resubtitution estimate pohon T pada parameter kompleksitas α yaitu :

𝑅𝑅𝛼𝛼 (𝑇𝑇) = 𝑅𝑅(𝑇𝑇) + 𝛼𝛼 |𝑇𝑇�| (5) dengan 𝑅𝑅𝛼𝛼 (𝑇𝑇) adalah resubtitution suatu pohon T pada kompleksitas α, 𝑅𝑅(𝑇𝑇) adalah resubstitution estimate, α adalah parameter cost-complexity bagi penambahan satu simpul akhir pada pohon T, dan |𝑇𝑇�| adalah banyaknya simpul terminal pohon T.

Cost complexity prunning menentukan pohon bagian 𝑇𝑇(𝛼𝛼 ) yang meminimumkan 𝑅𝑅𝛼𝛼 (𝑇𝑇)pada seluruh pohon bagian untuk setiap nilai 𝛼𝛼. Nilai parameter kompleksitas 𝛼𝛼 akan secara perlahan meningkat selama proses pemangkasan. Selanjutnya pencarian pohon bagian 𝑇𝑇(𝛼𝛼) < 𝑇𝑇𝑚𝑚𝑚𝑚𝑚𝑚 yang dapat meminimumkan 𝑅𝑅𝛼𝛼 (𝑇𝑇) yaitu :

𝑅𝑅𝛼𝛼��𝑇𝑇(𝛼𝛼)�� = min𝑇𝑇<𝑇𝑇𝑚𝑚𝑚𝑚𝑚𝑚 𝑅𝑅𝛼𝛼(𝑇𝑇) (6)

Setelah dilakukan pemangkasan diperoleh pohon klasifikasi optimal yang berukuran sederhana namun memberikan nilai pengganti yang cukup kecil. Penduga pengganti yang sering digunakan adalah penduga sampel uji (test sample estimate) dan validasi silang lipat V (Cross Validation V-Fold Estimate).

III. METODOLOGIPENELITIAN A. Sumber Data

Data yang digunakan dalam Tugas Akhir berasal dari hasil sitologi Pap Smear Test di Rumah Sakit Swasta Surabaya tahun 2010 yang merupakan jenis data sekunder. Data ini mengenai hasil Pap Smear Test pasien dan faktor-faktor yang diduga mempengaruhi penyakit kanker serviks.

Total pasien yang melakukan tes Pap Smear di Rumah Sakit Swasta Surabaya pada tahun 2010 sebesar 5.950 data. Namun, dalam penelitian hanya digunakan sebanyak 3.505 data, karena ada beberapa data pada variabel respon atau prediktor yang tidak terisi.

B. Variabel Penelitian

Variabel penelitian yang digunakan dalam penelitian ini terdiri dari satu variabel respon (Y) dengan tujuh variabel yang diduga mempengaruhinya seperti yang terlampir pada Tabel 1.

Tabel 1. Variabel Penelitian

Variabel Respon Keterangan Pengukuran Skala Hasil Pap Smear Test

(Y) 1 = Normal 2 = Abnormal Nominal

Variabel Prediktor

Usia Pasien (X1) 1 = Usia ≤ 40 tahun 2 = Usia > 40 tahun Nominal Usia Melahirkan

Pertam Kali (X2) 1 = Usia ≤ 25 tahun 2 = Usia > 25 tahun Nominal Usia Menstruasi

Pertama Kali (X3) 1 = Usia ≤ 12 tahun 2 = Usia > 12 tahun Nominal Siklus Mesntruasi

(X4)

1 = Pernah mengalami menstruasi tidak teratur

2 = mengalami menstruasi teratur Nominal Frekuensi Melahirkan

(X5) 1 = Melahirkan ≤ 2 anak 2 = Melahirkan > 2 anak Nominal Riwayat Keguguran

(X6) 1 = Tidak pernah keguguran 2 = Pernah keguguran Nominal Pemakaian Alat

Kontrasepsi (X7)

1 = Tidak Pernah Memakai Alat Kontrasepsi

2 = Pernah Memakai Alat Kontrasepsi

Nominal

C. Langkah Penelitian

Langkah-langkah analisis yang akan dilakukan dalam penelitian ini adalah sebagai berikut:

1. Membuat Pengkodingan data yaitu melakukan pengkodingan, dikatakan termasuk dalam penggolongan yang abnormal jika seseorang teridentifikasi salah satu dari tingkat keganasan kanker serviks (ASC-US, LSIL, HSIL, HSIL-AGC, atau AIS), selain itu dikatakan normal. 2. Untuk mencapai tujuan yang pertama yaitu melakukan

analisis statistika deskriptif.

3. Untuk mencapai tujuan yang terakhir atau yang kedua yaitu melakukan analisis CART. Analisis CART (Classification And Regression Trees). Langkah-langkah analisis yang digunakan adalah sebagai berikut.

a. Pembagian data menjadi dua yaitu data learning dan data testing.

b. Pembentukan (growing) pohon klasifikasi maksimal, meliputi pemilahan pemilah (splitter) terbaik dan penentuan simpul terminal (terminal node).

c. Pemangkasan pohon klasifikasi dimulai dengan memangkas pohon klasifikasi maksimal sampai diperoleh ukuran pohon klasifikasi yang paling kecil dengan kriteria kompleksitas kesalahan (cost complexity) yang minimum.

d. Memilih pohon terbaik dengan melakukan validasi model dengan memasukkan data testing pada pohon klasifikasi optimal.

(4)

IV. HASILDANPEMBAHASAN

A. Karakteristik Pasien Pap Smear Test (Patologi Anatomi) di Rumah Sakit Swasta Surabaya

Gambar. 1. Hasil Karakteristik Pasien Pap Smear Test Kanker Serviks

Hasil Karakteristik Pasien Pap Smear Test Kanker Serviks bahwa 70% hasil Pap Smear Test yang memeriksakan diri ke Rumah Sakit Swasta Surabaya adalah teridentifikasi abnormal, sedangkan 30% teridentifikasi normal.

Tabel. 2. Hasil Karakteristik Pasien Hasil Pap Smear Test Berdasarkan Faktor Usia

Variabel Persentase

Rata-rata Minimum Maksimum Usia Pasien 1: Usia ≤ 40 tahun 2: Usia > 40 tahun 49 % 51 % 42,31 14 80 Usia Menstruasi Pertama Kali 1: Usia ≤ 12 tahun 2: Usia > 12 tahun 47 % 53 % 12,94 10 19 Usia Melahirkan Pertama Kali 1: Usia ≤ 25 tahun 2: Usia > 25 tahun 46 % 54 % 25,92 12 52

Tabel diatas menjelaskan bahwa karakteristik pasien hasil Pap Smear Test berdasarkan faktor usia yang memeriksakan diri ke Rumah Sakit Swasta Surabaya menunjukan mayoritas usia pasien > 40 tahun, usia menstruasi pertama kali pada usia > 12 tahun sedangkan untuk usia melahirkan pertama kali usia > 25 tahun.

Tabel. 3. . Hasil Karakteristik Pasien Hasil Pap Smear Test Berdasarkan Faktor Riwayat

Variabel Jumlah Persentase Siklus Menstruasi

1 : Pernah mengalami mentruasi tidak teratur 2: Mengalami menstruasi teratur

556 2949 16 % 84 % Frekuensi Melahirkan 1: Melahirkan ≤ 2 anak 2: Melahirkan > 2 anak 1936 1569 55 % 45 % Riwayat Keguguran

1: Tidak Pernah Keguguran 2: Pernah Keguguran

2498 1007

71 % 29 % Pemakaian Alat Kontrasepsi

1: Tidak pernah memakai alat kontrasepsi 2: Pernah memakai alat kontrasepsi

1811 1694

52 % 48 % Tabel diatas menjelaskan bahwa karakteristik pasien hasil Pap Smear Test berdasarkan faktor usia yang memeriksakan diri ke Rumah Sakit Swasta Surabaya menunjukan mayoritas pasien yang mengalami menstruasi teratur, melahirkan ≤ 2 anak, tidak pernah keguguran, dan tidak pernah memakai alat kontrasepsi karena mempunyai jumlah serta persentase tertinggi.

B. Analisis Klasifikasi Pasien Pap Smear Test dengan Metode Classification and Regression Trees (CART)

Pembagian proporsi data tersebut tidak memiliki ketentuan khusus antara kedua jenis data hanya saja pada data

learning lebih banyak dibandingkan data testing, maka akan dicoba dengan melihat proporsi pembagian data. Proporsi yang akan dicoba untuk pembagian proporsi data learning dan testing adalah 95%:5%, 90%:10%, 85%:15%, 80%:20%, 75%:25%, 70%:30%, 65%:35% dan 60%:40%. Maka selanjutnya dari beberapa pembagian proporsi antara data learning dan testing akan dilihat dari nilai ketepatan klasifikasi dipilih salah satu yang mempunyai hasil ketepatan klasifikasi data terbaik.

Tabel. 4. Perhitungan Kemungkinan Pemilah Pada Variabel Prediktor

Variabel Kategori Skala Kategori Jumlah Kemungkinan Pemilah X1= Usia Pasien Nominal 2 2

2-1-1 = 1 pemilahan X2= Pemakaian Alat Kotrasepsi Nominal 2 2

2-1-1 = 1 pemilahan X3= Frekuensi Melahirkan Nominal 2 2

2-1-1 = 1 pemilahan X4= Siklus Menstruasi Nominal 2 2

2-1-1 = 1 pemilahan X5= Riwayat Keguguran Nominal 2 2

2-1-1 = 1 pemilahan X6= Usia Melahirkan Pertama Kali Nominal 2 2

2-1-1 = 1 pemilahan X7= Usia Menstruasi Pertama Kali Nominal 2 2

2-1-1 = 1 pemilahan Tahap pertama pembentukan pohon klasifikasi maksimal adalah pemilihan pemilah. Tabel 4 menjelaskan bahwa seluruh variabel prediktor berskala nominal dengan kemungkinan pemilahan adalah sebesar 2.

Tabel. 5. Nilai Kriteria Pemilahan Goodness of Split

No Variabel Pemilah Improvement Nilai Reduction

No Variabel Pemilah Improvement Nilai Reduction

1 Usia Pasien 0,006 4 Pemakaian Alat Kontrasepsi .929824E-03 2 Usia Melahirkan Pertama Kali 0,002 5 Usia Menstruasi Pertama Kalai .296332E-03 3 Melahirkan Frekuensi 0,001 6 Menstruasi Siklus .466603E-04 Pemilah terbaik pada simpul 1 (pemilah utama) pada penelitian kali ini adalah variabel usia pasien (X1). Variabel

usia pasien terpilih sebagai pemilah utama karena menghasilkan nilai penurunan keheterogenan tertinggi sebesar 0,006 pada simpul 1.

Tahap kedua yaitu penentuan simpul terminal. Pada pohon klasifikasi maksimal penelitian ini terdiri dari 71 simpul dalam, 70 simpul terminal dengan 8 kedalaman. Tahap ketiga adalah penandaan label kelas. Pemberian label kelas untuk setiap simpul terminal berdasarkan rumus pada persamaan (4). Perbedaan warna pada tiap simpul terminal menunjukkan adanya perbedaan label kelas.

Tabel. 6. Ketepatan Klasifikasi Data Learning Pada Pohon Maksimal

Kelas Aktual Prediksi Kelas Total Prediksi Kelas Sensitivity (%) Specificity (%) Total Tingkat Akurasi (%) 1 2 1 565 264 829 68,2 51,8 56,7 2 941 1010 1951

Tabel 4 menjelaskan ketepatan hasil klasifikasi pada pohon maksimal pada data learning terdapat 829 pasien dengan label kelas normal (1) yang terdiri dari 565 pasien yang benar prediksinya sedangkan 264 pasien yang salah prediksinya. Sedangkan untuk label kelas abnormal (2) sebesar 1.951 pasien terdiri dari 941 pasien yang salah prediksinya sedangkan ada sebesar 1.010 pasien yang benar prediksinya sehingga diperoleh total akurasi dari data learning yaitu 56,7%.

30%

70%

(5)

Tabel. 7. Ketepatan Klasifikasi Data Testing Pada Pohon Maksimal Kelas Aktual Prediksi Kelas Total Prediksi Kelas Sensitivity (%) Specificity (%) Total Tingkat Akurasi (%) 1 2 1 133 91 224 59,4 51,9 54,2 2 241 260 501

Tabel 7 menjelaskan ketepatan hasil klasifikasi pada pohon maksimal pada data testing terdapat 224 pasien dengan label kelas normal (1) yang terdiri dari 133 pasien yang benar prediksinya sedangkan 91 pasien yang salah prediksinya. Sedangkan untuk label kelas abnormal (2) sebesar 501 pasien terdiri dari 241 pasien yang salah prediksinya sedangkan ada sebesar 260 pasien yang benar prediksinya sehingga diperoleh total akurasi dari data testing yaitu 54,2%.

Selanjutnya dilakukan pemangkasan dengan cara memangkas bagian pohon yang kurang penting sehingga didapatkan pohon optimal. Untuk mendapatkan ukuran pohon yang layak dilakukan pemangkasan dengan ukuran cost complexity minimum dan penggunaan penduga sampel uji (test sample estimate). Nantinya akan menghasilkan pohon yang mempunyai relative cost minimum.

Gambar. 2. Plot Relative Cost

Gambar 2 memberikan informasi bahwa nilai relative cost yang dimiliki oleh pohon maksimal sebesar 0,887 sedangkan untuk relative cost pada pohon optimal sebesar 0,830, jadi nilai relative cost maksimal lebih besar daripada pohon optimal. Sedangkan untuk nilai test set relative cost dan parameter complexity masing-masing sebesar 0,830 ± 0,040 dan 0,002.

Pemilahan pohon klasifikasi optimal menjelaskan bahwa simpul 1 dipilah menjadi dua simpul anak berdasarkan variabel usia pasien (X1) yang merupakan simpul utama.

Dengan penjelasannya adalah dari 2.780 pasien pada simpul 1 dipilah menjadi dua simpul yaitu simpul kiri adalah simpul 2 dan simpul kanan adalah simpul terminal 8. Pada simpul 2 yaitu usia pasien ≤ 40 tahun sebanyak 1.360 pasien yang dipilah ke simpul kiri (simpul 2). Dengan proporsi terdapat pasien yang normal sebesar 467 (34,3%) dan pasien abnormal sebesar 893 (65,7%). Sedangkan untuk simpul terminal 8 yang terdiri dari 1.420 pasien dengan usia pasien > 40 tahun dipilah ke simpul kanan (simpul terminal 8). Dengan proporsi terdapat pasien yang normal sebesar 362 (25,5%) dan pasien abnormal sebesar 1.058 (74,5%) simpul terminal ini menjelaskan bahwa simpul tidak dapat dipilah lagi karena telah homogen dan diberi label kelas 2 atau akan diprediksi masuk ke dalam kategori pasien yang abnormal (2) atau beresiko kanker serviks. Pada simpul 2 dan selanjutnya intepretasinya sama seperti simpul 1 diatas.

Dari 8 simpul terminal yang dihasilkan klasifikasi pohon optimal, ada 4 simpul (simpul terminal 1, 2, 3, dan 5) yang di prediksi termasuk sebagai kategori pasien yang normal atau tidak beresiko kanker serviks sedangkan kategori pasien beresiko kanker serviks atau abnormal sebesar 4 simpul (simpul terminal 4, 6, 7, dan 8).

a. Simpul terminal 1 : Pada simpul terminal ini terdapat 322 pengamatan atau pasien yang tidak beresiko kanker serviks (normal) dengan karakteristik pasien pernah mengalami keguguran dan usia pasien ≤ 40 tahun.

b. Simpul terminal 2 : Pada simpul terminal ini terdapat 482 pengamatan atau pasien yang tidak beresiko kanker serviks dengan karakteristik atau faktor-faktor yang diduga tidak mempengaruhi penyakit kanker serviks adalah pasien pernah memakai alat kontrasepsi, pasien tidak pernah mengalami keguguran, dan usia pasien ≤ 40 tahun. Simpul terminal selanjutnya Intepretasinya sama seperti simpul terminal diatas.

Tabel. 8. Ketepatan Klasifikasi Data Learning Pada Pohon Optimal

Kelas Aktual Prediksi Kelas Total Prediksi Kelas Sensitivity (%) Specificity (%) Total Tingkat Akurasi (%) 1 2 1 429 400 829 51,7 61,1 58,3 2 759 1.192 1.951

Tabel 8 menjelaskan ketepatan hasil klasifikasi pada pohon optimal pada data learning terdapat 829 pasien dengan label kelas normal (1) yang terdiri dari 429 pasien yang benar prediksinya sedangkan 400 pasien yang salah prediksinya. Sedangkan untuk label kelas abnormal (2) sebesar 1.951 pasien terdiri dari 759 pasien yang salah prediksinya sedangkan ada sebesar 1.192 pasien yang benar prediksinya sehingga diperoleh total akurasi dari data learning yaitu 58,3%.

Tabel. 9. Ketepatan Klasifikasi Data Testing Pada Pohon Optimal

Kelas Aktual Prediksi Kelas Total Prediksi Kelas Sensitivity (%) Specificity (%) Total Tingkat Akurasi (%) 1 2 1 120 104 224 53,6 63,5 60,4 2 183 318 501

Tabel 9 menjelaskan ketepatan hasil klasifikasi pada pohon maksimal pada data testing terdapat 224 pasien dengan label kelas normal (1) yang terdiri dari 120 pasien yang benar prediksinya sedangkan 104 pasien yang salah prediksinya. Sedangkan untuk label kelas abnormal (2) sebesar 501 pasien terdiri dari 183 pasien yang salah prediksinya sedangkan ada sebesar 318 pasien yang benar prediksinya sehingga diperoleh total akurasi dari data testing yaitu 60,4%.

Sehingga model

klasifikasi optimal yang terbentuk masih kurang cukup

baik untuk menggambarkan model klasifikasi optimal.

Dari Tabel 10 diambil kesimpulan bahwa tingkat akurasi pohon klasifikasi optimal sebesar 58,3% data learning dandata testing 60,4% untuk kombinasi data 80%:20%. Sehingga untuk analisis selanjutnya akan digunakan data pada pembagian ketepatan klasifikasi tertinggi yaitu data learning sebesar 80% dan data testing sebesar 20%.

0.830 Re la ti v e Co s t Number of Nodes 0.70 0.75 0.80 0.85 0.90 0.95 0 20 40 60 80 0.887

(6)

Tabel. 10. Perbandingan Nilai Ketepatan Klasifikasi Data Learning dan Testing No Kombinasi Data (%) Ketepatan Klasifikasi (%) Jumlah Node Terminal

Learning Testing Learning Testing

1 95 5 54,5 51,3 43 2 90 10 55,1 52,0 41 3 85 15 54,4 52,5 23 4* 80 20 58,3 60,4 8 5 75 25 54,7 57,9 2 6 70 30 54,9 56,9 2 7 65 35 54,9 56,6 2 8 60 40 55,1 56,1 2

Keterangan : * : kombinasi data yang digunakan analisis selanjutnya

V. KESIMPULANDANSARAN

Hasil statistik deskriptif menunjukkan bahwa pasien kanker serviks yang memeriksakan diri ke Rumah Sakit Swasta Surabaya adalah teridentifikasi abnormal sebesar 70%, sedangkan sebesar 30% teridentifikasi normal. Untuk karakteristik faktor resiko kanker serviks berdasarkan pasien yang memeriksakan diri ke Rumah Sakit Swasta Surabaya mayoritas usia pasien > 40 tahun, usia menstruasi pertama kali pada usia > 12, usia melahirkan pertama kali usia > 25 tahun, pasien yang mengalami menstruasi teratur, melahirkan ≤ 2 anak, tidak pernah keguguran, dan tidak pernah memakai alat kontrasepsi.

Pada model CART (Classification and Regression Trees) pohon optimal dapat diambil kesimpulan bahwa Pada model ini menggunakan proporsi data learning 80% dan data testing 20% sebagai kombinasi data terbaik. Sedangkan untuk kontribusi tertinggi dari hasil Pap Smear Test berturut-turut yaitu Usia Pasien, Riwayat Keguguran, Pemakaian Alat Kontrasepsi, Usia Menstruasi (Siklus Menstruasi dan Usia Melahirkan Pertama Kali), dan Frekuensi Melahirkan. Dengan ketepatan klasifikasi sebesar 58,3% data learning dan data testing 60,4% untuk kombinasi 80%:20%.

Berdasarkan analisis dan pembahasan, saran yang didapatkan bahwa model klasifikasi hasil Pap Smear Test kanker serviks berdasarkan faktor resiko (Studi Kasus di Rumah Sakit Swasta Surabaya) dengan pendekatan CART (Classification And Regression Trees) tahun 2010 lebih banyak dipengaruhi oleh adalah usia pasien. Sehingga pihak rumah sakit dapat memberikan informasi yang lebih pasien pada usia > 40 tahun yang beresiko kanker serviks.

UCAPANTERIMAKASIH

Yuristian Ramdani mengucapkan terima kasih kepada pihak Rumah Sakit Swasta Surabaya yang sudah mengizinkan untuk memberi data untuk Tugas Akhir ini dan orang tua yang selalu memberikan dukungan materil serta doa yang tiada hentinya serta teman-teman yang selalu memberikan semangat.

DAFTAR PUSTAKA

[1] Yohannes, R., Hoddinot, J (1999), ”Classification and regression trees: An Introduction”. International Food Policy Research Institute, Washington, D.C, USA.

[2] Nuranna, Laila. (2013). Ngeri...Seks Respon Di Usia Muda RawanKankerServiks. Diakses tanggal 20 Maret 2013).

[3] Pertiwi. Yuniati. D, (2012), “Klasifikasi Diagnosa Kanker Payudara (Patologi Anatomi) Pasien Kanker Payudara di Rumah Sakit Swasta Surabaya dengan Pendekatan Classification and Regression Trees

(CART)”. Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya.

[4] Sevita, I, IA. (2012), “Klasifikasi Pasien Hasil Pap Smear Test sebagai Pendeteksi Awal Upaya Penanganan Dini pada Penyakit Kanker Serviks di RS. Swasta Surabaya dengan Metode Bagging Logistic Regression”. Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya.

[5] Suratmika, Nyoman. (2013). Berangus Kanker Serviks. (Diakses April 2013).

[6] Lay, A. (2011). Penyebab dan Faktor-faktor Risiko Kanker Serviks.http://kesehatan.kompasiana.com/medis/2011/01/17/penyebab-dan-faktor-faktor-risiko-kanker-serviks/. (Diaskes tanggal 16 Oktober 2012).

[7] Andrijono. 2013. Wanita Terancam Penyakit Kanker Serviks. (Diakses tanggal 5 Mei 2013).

[8] Baziad, Ali. 2013. Terlambat Menopause, Normalkah?. (Diakses 6 Juli 2013).

[9] Tempo. Co, (2012). “Wanita Tua Melahirkan Terlindung dari Kanker Rahim”. (Diaskes tanggal 16 Oktober 2012).

[10]WomenHealth,(2012).KankerRahim.http://sweetspearls.com/health/kanke r-rahim/. (Diaskes tanggal 16 Oktober 2012).

[11] Walpole, Ronald, E. 1995. Pengantar Statistika. Jakarta: Gramedia Pustaka Utama.

[12] Astuti, S, dan Iriawan, N. 2006. Mengolah Data Statistik dengan Mudah Menggunakan Minitab 14. Yogyakarta : Penerbit Andi Offset.

[13]Breiman L., Friedman J.H, Olshen R.A & Stone C.J. 1993. Classification And Regression Tree. New York, NY: Chapman And Hall.

[14] Lewis, R J. 2000. An Introduction to Classification and Regression Tree (CART) Analysis. Department of Emergency Medicine Harbor-UCLA Medical Center, Torrance, California.

Referensi

Dokumen terkait

Struktur bagian dalam zeolit yang membentuk lubang dan sambungan dapat diisi dengan molekul-molekul lain, termasuk molekul air. Molekul yang dapat masuk ke dalam

Jika nilai Hosmer and Lemeshow Goodness of fit test statistics sama dengan atau kurang dari 0,05 maka hipotesis nol ditolak yang berarti ada perbedaan

Penelitian ini bertujuan untuk mengetahui pengaruh Price Earning Ratio (PER), Debt to Equity Ratio (DER) dan Net Profit Margin (NPM) terhadap Return Saham pada

Sekte Zaidiyah terbentuk karena segolongan pengikut berpendapat bahwa yang harus menggantikan Ali Zainal Abidin Imam keempat adalah Zaid, sementara Sekte Imamiyah terbentuk

Seperti pada gambar 1 terlihat topology yang sering dahulu digunakan untuk mengkoneksikan banyak kantor cabang dan para pegawai yang mobile menggunakan infrastruktur penyedia jasa

Desain Sistem Basis Data Logical adalah proses pembentukan model yang berasal dari informasi yang digunakan dalam suatu perusahaan yang didasarkan pada model data

Berdasarkan beberapa tinjauan pustaka dari penelitian terdahulu yang telah dijabarkan, maka penulis akan membangun sistem pakar yang dapat mendiagnosa kelainan sistem ortopedi

*Alat Peraga Pendidikan *Elektrikal Mekanikal *Komputer *Laboratorium *Percetakanc. DAFTAR HARGA ALAT PERAGA