Klasifikasi Penyakit Kanker Payudara Menggunakan Metode K-NN Berbasis Web

(1)

Klasifikasi Penyakit Kanker Payudara Menggunakan Metode

K-NN Berbasis Web

Ernest Evan Zamora

1)

, Rika Perdana Sari

2)

, Kartina Diah Kusuma Wardhani

2)

1) Jurusan Teknik Informatika, Politeknik Caltex Riau, Pekanbaru 28265, email: [email protected]

2) Jurusan Teknik Informatika, Politeknik Caltex Riau, Pekanbaru 28265, email: [email protected] 3) Jurusan Teknik Informatika, Politeknik Caltex Riau, Pekanbaru 28265, email: [email protected]

Abstrak – Kanker payudara merupakan jenis kanker yang menakutkan bagi perempuan. Berdasarkan

Globocan/IARC pada tahun 2012, insidens kanker payudara di Indonesia sebesar 40 setiap 100.000 perempuan. Jumlah ini meningkat dari yang sebelumnya 26 kasus kanker payudara setiap 100.000 perempuan. Dikarenakan semakin banyaknya dara penderita kanker payudara yang tersimpan, maka data tersebut dapat dipelajari lebih dalam untuk memperoleh informasi lebih dari data tersebut. Tujuan dari penelitian ini adalah melakukan pengelompokkan data kanker payudara untuk mengetahui kanker tersebut masuk dalam kategori jinak atau ganas. Penelitian ini menggunakan dataset Breast Cancer Wisconsin sebagai data pembelajarannya. Metode klasifikasi K-Nearest Neighbor(K-NN) digunakan dalam penelitian ini dengan hasil akurasi 98,81%.

Kata Kunci : Kanker Payudara, Klasifikasi, K-NN.

Abstract -Breast cancer is a type of cancer that is frightening to women. Based on Globocan / IARC in 2012,

the incidence of breast cancer in Indonesia is 40 per 100,000 women. This number increased from the previous 26 cases of breast cancer every 100,000 women. Due to the increasing number of breast cancer patients stored, then the data can be studied more deeply to obtain more information from the data. The purpose of this study is to classify breast cancer data to find the cancer is in the category of benign or malignant. This study used the Breast Cancer Wisconsin dataset as a learning data. The K-Nearest Neighbor (K-NN) classification method was

used in this study with an accuracy of 98.81%.

Keywords: Breast cancer, Classification, K-NN.

1. PENDAHULUAN

Kanker payudara adalah keganasan yang berasal dari sel kelenjar, saluran kelenjar, dan jaringan penunjang payudara, tidak termasuk kulit payudara dan merupakan salah satu penyebab utama kematian diakibatkan oleh kanker pada perempuan di seluruh dunia. Setiap 2 dari 10.000 perempuan di dunia diperkirakan mengalami kanker payudara setiap tahunnya [1]. Di Indonesia, estimasi insidens kanker payudara sebesar 40 per 100.000 perempuan [2]. Angka ini meningkat dari tahun 2002, dengan insidens kanker payudara 26 per 100.000 perempuan [2]. Estimasi angka kejadian kanker payudara yang cukup tinggi tersebut disebabkan oleh kurangnya kesadaran perempuan untuk segera memeriksakan diri jika terjadi kelainan pada payudara [3]. Salah satu ciri dari kelainan payudara adalah tumor. Menurut National

Breast Cancer Foundation, tumor pada payudara

diklasifikasikan menjadi tumor payudara jinak (Benign Breast Tumor) dan tumor payudara ganas (Malignant Breast Tumor/Breast Cancer).

Dengan adanya data kanker payudara dan pengklasifikasiannya, maka dibutuhkan teknologi

infomasi yang dapat mempermudah pengguna untuk memahami dan mempelajari data sehingga dapat menghasilkan informasi yang bermanfaat. Dengan berkembangnya teknologi, terdapat berbagai macam teknik yang dapat digunakan. Salah satunya ialah teknik klasifikasi.

Teknik klasifikasi sendiri merupakan sebuah metode pembelajaran secara terbimbing (Supervised

Learning). Teknik klasifikasi bertujuan untuk memprediksi kelas dari sebuah objek yang kelasnya belum diketahui sehingga dapat menghasilkan informasi yang baru. Klasifikasi memiliki prosedur-prosedur dalam menyelesaikan sebuah masalah. Prosedur dalam melakukan klasifikasi akan berpengaruh terhadap hasil yang diharapkan. Pada penelitian ini akan menggunakan metode KNN (K

Nearest Neighbor) dimana metode ini termasuk dalam

teknik klasifikasi yang digunakan untuk proses prediksi kelas dari sebuah objek. Berdasarkan standar

National Breast Cancer Foundation, kelas dari objek

akan dibagi menjadi tumor payudara jinak(benign) dan tumor payudara ganas(malignant). Hasil yang diharapkan dari penerapan ini berupa prediksi kelas dari sebuah objek yang disesuaikan dengan standar tersebut.

(2)

Sumber data yang digunakan dalam penelitian ini diperoleh dari website “UCI – Machine Learning

Repository Breast Cancer Winconsin”. Terdapat 11

atribut dengan 699 data yang dijadikan sebagai data latih dalam proses klasifikasi dalam aplikasi yang akan dibangun. Berdasarkan jumlah data yang ada, diharapkan aplikasi yang akan dibangun ini dapat digunakan untuk mengklasifikasikan apakah pasien menderita kanker payudara jinak atau ganas sehingga dapat membantu pengguna untuk memahami kondisi fisik mereka. Tujuan dari penelitian ini adalah menjelaskan prosedur klasifikasi kanker payudara dan mendeskripsikan hasil dari klasifikasi kanker payudara.

2. LANDASAN TEORI 2.1. Kanker Payudara

Kanker Payudara adalah keganasan yang berasal dari sel kelenjar, saluran kelenjar dan jaringan penunjang payudara, tidak ternasuk kulit payudara. Kanker payudara banyak menyerang wanita, namun tidak menutup kemungkinan pria juga dapat terjangkit penyakit ini. Penyakit ini oleh World Health Organization(WHO) dimasukkan kedalam International Classificaion of Disseas(ICD) dengan kode nomor 17 [4].

2.2. Data Mining

Data Mining atau juga dikenal dengan Knowledge Discovery in Database merupakan proses untuk

mengesktrak atau “menggali” pengetahuan dari sekumpulan data yang berukuran besar [5]. Teknik-teknik data mining umumnya digunakan dalam pengoperasian data yang cukup besar dengan tujuan untuk mendapatkan pola tersembunyi yang selama ini tidak dapat dilihat pada level operasional dan bermanfaat dalam pengambilan keputusan.

2.3. KNN (K-Nearest Neighbor)

Metode k-NN pertama kali dijelaskan pada awal 1950-an. Saat daya komputasi meningkat menjadi

available, metode ini banyak digunakan dalam

bidang pengenalan pola. Pengklasifikasi ketetanggaan terdekat didasarkan dengan analogi dengan membandingkan beberapa attribut yang ada. Perbandingan yang dimaksud adalah perbandingan objek dengan data lain. K-NN termasuk algoritma

supervised learning, dimana hasil dari query instance yang baru, diklasifikasikan berdasarkan

mayoritas dari kategori pada k-NN. Kelas yang paling banyak muncul yang akan menjadi kelas hasil klasifikasi.

2.4. Confusion Matrix

Confusion Matrix digunakan sebagai indikasi dalam

peraturan klasifikasi. Confusion Matrix merupakan sebuah metode untuk evaluasi yang menggunakan tabel matrix. Pada tabel terdapat dataset yang terdiri dari dua kelas, satu kelas dianggap positives dan yang

lainnya negatives. Evaluasi dengan confusion matrix menghasilkan nilai accuracy, error, precision, recall dan specificity [6].

2.5. K-Fold Cross Validation

K-fold cross validation adalah salah satu cara atau

metode yang digunakan untuk mengetahui rata-rata keberhasilan dari suatu sistem dengan cara melakukan perulangan dengan mengacak atribut masukan sehingga sistem tersebut teruji untuk beberapa atribut input yang acak. Set data dibagi menjadi k subset, setiap salah satu k subset digunakan sebagai data

testing dan data k subset lainya menjadi data training.

Proses testing dan training dilakukan sebanyak n kali. Penggunaan jumlah fold terbaik untuk uji validitas, dianjurkan menggunakan 10-fold cross validation dalam model [7].

.

3. HASIL DAN PEMBAHASAN 3.1. Perancangan Sistem

HTTP Request

HTTP Response Client

Browser Web Server

Algoritma KNN

Database

Gambar 1. Arsitektur Sistem

Gambar 1 menjelaskan gambaran umum secara fisik proses kerja melakukan prediksi, client borwser akan melakukan request halaman website untuk melakukan prediksi kanker payudara. Web Server berfungsi sebagai media untuk memberikan response terhadap

request yang dilakukan oleh client browser. Di dalam web server terdapat sistem pakar yang telah

diimplementasikan dengan Algoritma K-Nearest

Neighbor. Mempersiapkan Data Mentah Melakukan Preproessing Data Penerapan Algoritma K-NN Memasukkan Data

Testing Visualisasi Hasil

Gambar 2. Blok Diagram

Gambar 2 menjelaskan blok diagram pembuatan sistem pakar prediksi kanker payudara. Pengerjaan dimulai dari mempersiapkan data mentah. Data mentah yang diperoleh masih memiliki noise. Kemudian dilakukanlah preprocessing data yang bertujuan untuk menghilangkan noise yang terdapat dalam data. Setelah melakukan preprocessing data, maka diperoleh data training yang sudah tidak memiliki noise. Kemudian memasukkan data testing untuk melakukan prediksi. Setelah data testing di masukkan, maka diimplementasikanlah Algoritma

(3)

K-Nearest Neighbor(KNN) yang dapat mengklasifikasikan data kedalam kelas jinak atau ganas. Selanjutnya hasil dari prediksi akan ditampilkan dengan teknik chernoff faces untuk me-visualisasikan data.

3.2. Sumber Data

Sumber data yang digunakan dalam penelitian ini diperoleh dari repository online pada website UCI – Machine Learning Repository dengan data Breast

Cancer Wisconsin. Data berbentuk flat file yang

terdiri dari 10 atribut dan 1 class, jumlah data yang tersedia berjumlah 699 baris. Tipe data yang digunakan ialah numerik. Didalam file tersebut berisi data dengan dengan rincian yang dapat dilihat pada Tabel 1.

Tabel 1. Data Atribut Breast Cancer Wisconsin)

NO. Nama Atribut Tipe data Nilai 1 ID Numerik Nomor ID 2 Clump Thickness Numerik 1-10 3 Uniformity of Cell Size Numerik 1-10 4 Uniformity of Cell Shape Numerik 1-10 5 Marginal Adhesion Numerik 1-10 6 Single Epithelial Cell Size Numerik 1-10

7 Bare Nuclei Numerik 1-10

8 Bland Chromatin Numerik 1-10 9 Normal Nucleoli Numerik 1-10 10 Mitoses Numerik 1-10

11 Class Numerik 2 untuk Tumor

Jinak(Benign) dan 4 untuk Tumor Ganas(Maligna

nt) 3.3. Data Cleaning (Pembersihan Data)

Pada tahap ini, akan dilakukan pembersihan data untuk membuang data yang tidak konsisten dan bersifat noise dari data yang diperoleh. Pada tahap ini, data yang bernilai null atau masih kosong, akan dibersihkan dengan cara menghilangkan atau membuang objek yang mengandung nilai null atau masih kosong dengan menggunakan tools KNIME.

3.4. Data Selection (Seleksi Data)

Pada tahap ini, akan dilakukan penyeleksian data untuk mengurangi data yang tidak digunakan saat mengklasifikasikan. Pada data yang sebelumnya berjumlah 11 atribut, dan tidak semua dipakai untuk mengklasifikasikan kanker. Maka dari itu dilakukan penghapusan atribut yang tidak digunakan. Atribut

yang tidak digunakan adalah atribut id sehingga atribut id dihapus.

3.5. Data Transformation (Transformasi Data)

Pada tahap ini, akan dilakukan transformasi data untuk mendapatkan format data yang dapat diolah pada sistem. Data nilai kelas memiliki format 2 dan 4, format data ini diubah yaitu 2 menjadi jinak(benign) dan 4 menjadi ganas(Malignant).

3.6. Perancangan Algoritma K-Nearest Neighbor

Pada tahap ini, dijelaskan bagaimana tahapan dalam melakukan klasifikasi menggunakan algoritma

K-Nearest Neighbor. Adapun tahapan-tahapannya ialah

sebagai berikut:

1. Menentukan nilai K.

2. Menghitung jarak terdekat dengan euclidean

distance.

3. Membandingkan kelas berdasar jumlah tetangga.

4. Mengambil kelas tetangga terdekat.

3.6. Visualisasi Hasil

Untuk membantu dalam menyampaikan informasi kepada pengguna, maka data testing yang dimasukkan akan ditampilkan dalam bentuk visualisasi. Dari data

testing tesebut akan ditransformasikan kedalam bentuk

wajah kartun chernoff faces.

Tabel 2. Penggabungan Parameter Chernoff Faces

Bagian Wajah Parameter yang digunakan

Bentuk Wajah Bentuk Wajah

Mata Bentuk Mata, Jarak Antar Mata Hidung Lebar Hidung, Panjang Hidung Mulut Panjang Mulut, Lengkung

Mulut.

Alis Mata Panjang Alis Mata, Kemiringan Alis Mata

3.6. Tampilan Antar Muka

Pada gambar 3 merupakan tampilan halaman awal dari aplikasi untuk melakukan prediksi kelas kanker payudara.

Gambar 3. Halaman Awal

Pada gambar 4 merupakan tampilan halaman prediksi dari aplikasi untuk melakukan prediksi kelas kanker payudara. Pada halaman prediksi terdapat parameter yang harus diisi sesuai dengan data Breast Cancer

(4)

Gambar 4. Halaman Prediksi

Pada gambar 5 merupakan tampilan halaman hasil. Pada halaman hasil terdapat hasil klasifikasi dalam bentuk kelas jinak atau ganas dan visualisasi dari hasil dalam bentuk wajah chernoff faces.

Gambar 5. Halaman Hasil

Pada gambar 6 merupakan tampilan halaman informasi rumah sakit. Pada halaman informasi rumah sakit berisi data nama rumah sakit beserta alamat dan nomor telepon dari rumah sakit yang terdaftar.

Gambar 6. Halaman Info Rumah Sakit

Pada gambar 7 merupakan tampilan halaman data

training. Pada halaman data training berisi data training sebanyak 615 data yang digunakan dalam

melakukan klasifikasi kanker payudara.

Gambar 7. Halaman Data Training

3.7. Pengujian Akurasi

Pada gambar 8 merupakan pengujian akurasi menggunakan KNIME. Pengujian ini menggunakan data training dan data testing hasil pembagian data(partitioning) yang dilakukan pada proses

preprocessing data sebelumnya. Data training yang

digunakan sebanyak 615 data dan data testing sebanyak 84 data. Serta nilai K yang digunakan ialah K=20. Akurasi yang didapat sebesar 98,81% dengan

error rate sebesar 1,19%.

Gambar 8. Hasil Akurasi

3.7. Pengujian K-Fold Cross Validation

Pada gambar 9 merupakan hasil dari pengujian cross

validation. Hasil akurasi sebesar 96,26% dan error rate sebesar 3,74%.

Gambar 9. Hasil dari cross validation

3.8. Perbandingan Dengan Penelitian Terdahulu Yang Relevan

Pada pengujian ini, dilakukan perbandingan terhadap penelitian terdahulu yang menggunakan data Breast

Cancer Wisconsin namun dengan menggunakan

metode yang berbeda-beda. Dalam melakukan perbandingan, digunakan 5 penelitian terdahulu yang dibandingkan dengan penelitian saat ini.

(5)

Tabel 3. Perbandingan dengan penelitian terdahulu Urai an Rach man, (2012 )[9] Fitria ni (2014 )[10] Vinart i (2014 )[11] Via (2015 )[12] Shahu ra (2016 )[13] Penel itian saat ini Met ode SVM NBC & PSO SBLR NBC RBPN N K-NN Akur asi 98,1 % 96,86 % 98,4% 97,82 % 93,19 % 98,81 %

Pada tabel 3 merupakan perbandingan terhadap 5 penelitian terdahulu yang dibandingkan ialah metode yang digunakan dan akurasi yang dihasilkan. Berdasarkan tabel 3, metode K-NN memiliki akurasi tertinggi terhadap data breast cancer wisconsin sebesar 98,81%.

3.8. Analisa Akurasi

Berdasarkan pengujian akurasi yang dilakukan, didapati hasil akurasi sebesar 98,81% dengan error

rate sebesar 1,19%. Akurasi yang dihasilkan termasuk

tinggi dikarenakan error rate yang ditemukan hanya sebesar 1,19%. Error rate yang terjadi dikarenakan pada data testing yang sebanyak 84 data terdapat data yang kelasnya malignant namun ketika dilakukan klasifikasi dengan algoritma KNN menghasilkan kelas

benign.

3.9. Analisa K-Fold Cross Validation

Berdasarkan pengujian dengan 10 fold cross

validation, didapati hasil akurasi sebesar 96,26%

dengan error rate sebesar 3,74%.

3.10. Analisa Perbandingan Dengan Penelitian Terdahulu Yang Relevan

Berdasrarkan tabel 3 hasil perbandingan dengan 5 penelitian terdahulu, penelitian saat ini menggunakan algoritma KNN memiliki akurasi tertinggi sebesar 98,81%. Hal ini dapat terjadi dikarenakan pada proses perhitungan untuk mengklasifikasikan data breast

cancer wisconsin menggunakan metode yang

berbeda-beda antara satu sama lain. Selain itu akurasi yang dihasilkan juga dipengaruhi oleh jumlah data training dan data testing yang digunakan.

4. KESIMPULAN

Berdasarkan pembahasan dan pengujian yang dilakukan maka dapat ditarik kesimpulan bahwa sistem yang dibangun sudah menerapkan prosedur dari metode K-Nearest Neighbor dengan hasil akurasi sebesar 98,81%. Untuk pengembangan selanjutnya disarankan agar data testing yang digunakan dapat dijadikan sebagai data training agar metode K-Nearest Neighbor yang diterapkan dapat terus belajar.

DAFTAR REFERENSI

[1] Depkes RI (2009). Buku Saku Pencegahan Kanker Leher Rahim dan Kanker Payudara. Diunduh tanggal 20 Oktober 2016 dari http://www.pppl.depkes.go.id/

[2] Globocan/IARC (2012). Breast Cancer Estimated Incidence, Mortality and Prevelance Worldwide in 2012. Diakses pada tanggal 12 Novermber 2016 dari http://globocan.iarc.fr/old/FactSheets/cancers/breast-new.asp.

[3] Rafikasari, Diana. (21 Desember 2015). Faktor Biaya, Alasan Wanita Tak Lakukan Deteksi Dini Kanker Payudara. Diakses tanggal 31 Agustus 2016 dari http://lifestyle.sindonews.com/read/1071100/155/faktor- biaya-alasan-wanita-tak-lakukan-deteksi-dini-kanker-payudara-1450665981.

[4] John R. Lee, M.D & David Zava, Ph.D & Virginia Hopkins, M.A. (2001). Kanker Payudara. Jakarta : Penerbit Daras Books.

[5] Han, Jiawei dan Kamber, Micheline. 2006. Data Mining: Concepts and Techniques Second Edition. San Fransisco. Morgan Kauffman Publisher.

[6] Rokarch, Lior., Maimon, Oded. (2008). Data Mining with Decision Trees Theory and Applications. USA

[7] Tang, L., Refaeilzadeh, P., Liu, H., (2008). Cross Validation. Arizona State University

[8] Rachmawati, Heni. (2013). Testing & Implementasi Sistem. Pekanbaru: Politeknik Caltex Riau.

[9] Rachman, Farizi. (2012). Perbandingan Klasifikasi Tingkat Keganasan Breast Cancer Dengan Menggunaakan Logistik Ordinal dan Support Vector Machine(SVM). Surabaya: Institut Teknologi Sepuluh November.

[10] Fitriani, Imma Rizki. (2014). Peningkatan Metode Naive Bayes Classification Untuk Penentuan Tingkat Keganasan Kanker Payudara Menggunakan Particle Swarm Optimization. Semarang: Universitas Dian Nuswantoro. [11] Vinarti, Retno Aulia. (2014). Identifikasi Faktor Prediksi

Diagnosis Tingkat Keganasan Kanker Payudara Metode Stepwise Binary Logistic Regression. Surabaya: Institut Teknologi Sepuluh November.

[12] Via, Yisti Vita. (2015). Sistem Pendukung Keputusan Klasifikasi Tingkat Keganasan Kanker Payudara Dengan Metode Naive Bayes Classifier. Surabaya: Universitas Pembangunan Nasional “Veteran” Jawa Timur.

[13] Shahura, Fairudz. (2016). Penerapan Metode RBPNN Untuk Klasifikasi Kanker Payudara. Banjarbaru: Universitas Lambang Mangkurat.