Klasifikasi Penyakit Kanker Payudara Menggunakan Metode
K-NN Berbasis Web
Ernest Evan Zamora
1), Rika Perdana Sari
2), Kartina Diah Kusuma Wardhani
2)1) Jurusan Teknik Informatika, Politeknik Caltex Riau, Pekanbaru 28265, email: [email protected]
2) Jurusan Teknik Informatika, Politeknik Caltex Riau, Pekanbaru 28265, email: [email protected] 3) Jurusan Teknik Informatika, Politeknik Caltex Riau, Pekanbaru 28265, email: [email protected]
Abstrak – Kanker payudara merupakan jenis kanker yang menakutkan bagi perempuan. Berdasarkan
Globocan/IARC pada tahun 2012, insidens kanker payudara di Indonesia sebesar 40 setiap 100.000 perempuan. Jumlah ini meningkat dari yang sebelumnya 26 kasus kanker payudara setiap 100.000 perempuan. Dikarenakan semakin banyaknya dara penderita kanker payudara yang tersimpan, maka data tersebut dapat dipelajari lebih dalam untuk memperoleh informasi lebih dari data tersebut. Tujuan dari penelitian ini adalah melakukan pengelompokkan data kanker payudara untuk mengetahui kanker tersebut masuk dalam kategori jinak atau ganas. Penelitian ini menggunakan dataset Breast Cancer Wisconsin sebagai data pembelajarannya. Metode klasifikasi K-Nearest Neighbor(K-NN) digunakan dalam penelitian ini dengan hasil akurasi 98,81%.
Kata Kunci : Kanker Payudara, Klasifikasi, K-NN.
Abstract -Breast cancer is a type of cancer that is frightening to women. Based on Globocan / IARC in 2012,
the incidence of breast cancer in Indonesia is 40 per 100,000 women. This number increased from the previous 26 cases of breast cancer every 100,000 women. Due to the increasing number of breast cancer patients stored, then the data can be studied more deeply to obtain more information from the data. The purpose of this study is to classify breast cancer data to find the cancer is in the category of benign or malignant. This study used the Breast Cancer Wisconsin dataset as a learning data. The K-Nearest Neighbor (K-NN) classification method was
used in this study with an accuracy of 98.81%.
Keywords: Breast cancer, Classification, K-NN.
1. PENDAHULUAN
Kanker payudara adalah keganasan yang berasal dari sel kelenjar, saluran kelenjar, dan jaringan penunjang payudara, tidak termasuk kulit payudara dan merupakan salah satu penyebab utama kematian diakibatkan oleh kanker pada perempuan di seluruh dunia. Setiap 2 dari 10.000 perempuan di dunia diperkirakan mengalami kanker payudara setiap tahunnya [1]. Di Indonesia, estimasi insidens kanker payudara sebesar 40 per 100.000 perempuan [2]. Angka ini meningkat dari tahun 2002, dengan insidens kanker payudara 26 per 100.000 perempuan [2]. Estimasi angka kejadian kanker payudara yang cukup tinggi tersebut disebabkan oleh kurangnya kesadaran perempuan untuk segera memeriksakan diri jika terjadi kelainan pada payudara [3]. Salah satu ciri dari kelainan payudara adalah tumor. Menurut National
Breast Cancer Foundation, tumor pada payudara
diklasifikasikan menjadi tumor payudara jinak (Benign Breast Tumor) dan tumor payudara ganas (Malignant Breast Tumor/Breast Cancer).
Dengan adanya data kanker payudara dan pengklasifikasiannya, maka dibutuhkan teknologi
infomasi yang dapat mempermudah pengguna untuk memahami dan mempelajari data sehingga dapat menghasilkan informasi yang bermanfaat. Dengan berkembangnya teknologi, terdapat berbagai macam teknik yang dapat digunakan. Salah satunya ialah teknik klasifikasi.
Teknik klasifikasi sendiri merupakan sebuah metode pembelajaran secara terbimbing (Supervised
Learning). Teknik klasifikasi bertujuan untuk memprediksi kelas dari sebuah objek yang kelasnya belum diketahui sehingga dapat menghasilkan informasi yang baru. Klasifikasi memiliki prosedur-prosedur dalam menyelesaikan sebuah masalah. Prosedur dalam melakukan klasifikasi akan berpengaruh terhadap hasil yang diharapkan. Pada penelitian ini akan menggunakan metode KNN (K
Nearest Neighbor) dimana metode ini termasuk dalam
teknik klasifikasi yang digunakan untuk proses prediksi kelas dari sebuah objek. Berdasarkan standar
National Breast Cancer Foundation, kelas dari objek
akan dibagi menjadi tumor payudara jinak(benign) dan tumor payudara ganas(malignant). Hasil yang diharapkan dari penerapan ini berupa prediksi kelas dari sebuah objek yang disesuaikan dengan standar tersebut.
Sumber data yang digunakan dalam penelitian ini diperoleh dari website “UCI – Machine Learning
Repository Breast Cancer Winconsin”. Terdapat 11
atribut dengan 699 data yang dijadikan sebagai data latih dalam proses klasifikasi dalam aplikasi yang akan dibangun. Berdasarkan jumlah data yang ada, diharapkan aplikasi yang akan dibangun ini dapat digunakan untuk mengklasifikasikan apakah pasien menderita kanker payudara jinak atau ganas sehingga dapat membantu pengguna untuk memahami kondisi fisik mereka. Tujuan dari penelitian ini adalah menjelaskan prosedur klasifikasi kanker payudara dan mendeskripsikan hasil dari klasifikasi kanker payudara.
2. LANDASAN TEORI 2.1. Kanker Payudara
Kanker Payudara adalah keganasan yang berasal dari sel kelenjar, saluran kelenjar dan jaringan penunjang payudara, tidak ternasuk kulit payudara. Kanker payudara banyak menyerang wanita, namun tidak menutup kemungkinan pria juga dapat terjangkit penyakit ini. Penyakit ini oleh World Health Organization(WHO) dimasukkan kedalam International Classificaion of Disseas(ICD) dengan kode nomor 17 [4].
2.2. Data Mining
Data Mining atau juga dikenal dengan Knowledge Discovery in Database merupakan proses untuk
mengesktrak atau “menggali” pengetahuan dari sekumpulan data yang berukuran besar [5]. Teknik-teknik data mining umumnya digunakan dalam pengoperasian data yang cukup besar dengan tujuan untuk mendapatkan pola tersembunyi yang selama ini tidak dapat dilihat pada level operasional dan bermanfaat dalam pengambilan keputusan.
2.3. KNN (K-Nearest Neighbor)
Metode k-NN pertama kali dijelaskan pada awal 1950-an. Saat daya komputasi meningkat menjadi
available, metode ini banyak digunakan dalam
bidang pengenalan pola. Pengklasifikasi ketetanggaan terdekat didasarkan dengan analogi dengan membandingkan beberapa attribut yang ada. Perbandingan yang dimaksud adalah perbandingan objek dengan data lain. K-NN termasuk algoritma
supervised learning, dimana hasil dari query instance yang baru, diklasifikasikan berdasarkan
mayoritas dari kategori pada k-NN. Kelas yang paling banyak muncul yang akan menjadi kelas hasil klasifikasi.
2.4. Confusion Matrix
Confusion Matrix digunakan sebagai indikasi dalam
peraturan klasifikasi. Confusion Matrix merupakan sebuah metode untuk evaluasi yang menggunakan tabel matrix. Pada tabel terdapat dataset yang terdiri dari dua kelas, satu kelas dianggap positives dan yang
lainnya negatives. Evaluasi dengan confusion matrix menghasilkan nilai accuracy, error, precision, recall dan specificity [6].
2.5. K-Fold Cross Validation
K-fold cross validation adalah salah satu cara atau
metode yang digunakan untuk mengetahui rata-rata keberhasilan dari suatu sistem dengan cara melakukan perulangan dengan mengacak atribut masukan sehingga sistem tersebut teruji untuk beberapa atribut input yang acak. Set data dibagi menjadi k subset, setiap salah satu k subset digunakan sebagai data
testing dan data k subset lainya menjadi data training.
Proses testing dan training dilakukan sebanyak n kali. Penggunaan jumlah fold terbaik untuk uji validitas, dianjurkan menggunakan 10-fold cross validation dalam model [7].
.
3. HASIL DAN PEMBAHASAN 3.1. Perancangan Sistem
HTTP Request
HTTP Response Client
Browser Web Server
Algoritma KNN
Database
Gambar 1. Arsitektur Sistem
Gambar 1 menjelaskan gambaran umum secara fisik proses kerja melakukan prediksi, client borwser akan melakukan request halaman website untuk melakukan prediksi kanker payudara. Web Server berfungsi sebagai media untuk memberikan response terhadap
request yang dilakukan oleh client browser. Di dalam web server terdapat sistem pakar yang telah
diimplementasikan dengan Algoritma K-Nearest
Neighbor. Mempersiapkan Data Mentah Melakukan Preproessing Data Penerapan Algoritma K-NN Memasukkan Data
Testing Visualisasi Hasil
Gambar 2. Blok Diagram
Gambar 2 menjelaskan blok diagram pembuatan sistem pakar prediksi kanker payudara. Pengerjaan dimulai dari mempersiapkan data mentah. Data mentah yang diperoleh masih memiliki noise. Kemudian dilakukanlah preprocessing data yang bertujuan untuk menghilangkan noise yang terdapat dalam data. Setelah melakukan preprocessing data, maka diperoleh data training yang sudah tidak memiliki noise. Kemudian memasukkan data testing untuk melakukan prediksi. Setelah data testing di masukkan, maka diimplementasikanlah Algoritma
K-Nearest Neighbor(KNN) yang dapat mengklasifikasikan data kedalam kelas jinak atau ganas. Selanjutnya hasil dari prediksi akan ditampilkan dengan teknik chernoff faces untuk me-visualisasikan data.
3.2. Sumber Data
Sumber data yang digunakan dalam penelitian ini diperoleh dari repository online pada website UCI – Machine Learning Repository dengan data Breast
Cancer Wisconsin. Data berbentuk flat file yang
terdiri dari 10 atribut dan 1 class, jumlah data yang tersedia berjumlah 699 baris. Tipe data yang digunakan ialah numerik. Didalam file tersebut berisi data dengan dengan rincian yang dapat dilihat pada Tabel 1.
Tabel 1. Data Atribut Breast Cancer Wisconsin)
NO. Nama Atribut Tipe data Nilai 1 ID Numerik Nomor ID 2 Clump Thickness Numerik 1-10 3 Uniformity of Cell Size Numerik 1-10 4 Uniformity of Cell Shape Numerik 1-10 5 Marginal Adhesion Numerik 1-10 6 Single Epithelial Cell Size Numerik 1-10
7 Bare Nuclei Numerik 1-10
8 Bland Chromatin Numerik 1-10 9 Normal Nucleoli Numerik 1-10 10 Mitoses Numerik 1-10
11 Class Numerik 2 untuk Tumor
Jinak(Benign) dan 4 untuk Tumor Ganas(Maligna
nt) 3.3. Data Cleaning (Pembersihan Data)
Pada tahap ini, akan dilakukan pembersihan data untuk membuang data yang tidak konsisten dan bersifat noise dari data yang diperoleh. Pada tahap ini, data yang bernilai null atau masih kosong, akan dibersihkan dengan cara menghilangkan atau membuang objek yang mengandung nilai null atau masih kosong dengan menggunakan tools KNIME.
3.4. Data Selection (Seleksi Data)
Pada tahap ini, akan dilakukan penyeleksian data untuk mengurangi data yang tidak digunakan saat mengklasifikasikan. Pada data yang sebelumnya berjumlah 11 atribut, dan tidak semua dipakai untuk mengklasifikasikan kanker. Maka dari itu dilakukan penghapusan atribut yang tidak digunakan. Atribut
yang tidak digunakan adalah atribut id sehingga atribut id dihapus.
3.5. Data Transformation (Transformasi Data)
Pada tahap ini, akan dilakukan transformasi data untuk mendapatkan format data yang dapat diolah pada sistem. Data nilai kelas memiliki format 2 dan 4, format data ini diubah yaitu 2 menjadi jinak(benign) dan 4 menjadi ganas(Malignant).
3.6. Perancangan Algoritma K-Nearest Neighbor
Pada tahap ini, dijelaskan bagaimana tahapan dalam melakukan klasifikasi menggunakan algoritma
K-Nearest Neighbor. Adapun tahapan-tahapannya ialah
sebagai berikut:
1. Menentukan nilai K.
2. Menghitung jarak terdekat dengan euclidean
distance.
3. Membandingkan kelas berdasar jumlah tetangga.
4. Mengambil kelas tetangga terdekat.
3.6. Visualisasi Hasil
Untuk membantu dalam menyampaikan informasi kepada pengguna, maka data testing yang dimasukkan akan ditampilkan dalam bentuk visualisasi. Dari data
testing tesebut akan ditransformasikan kedalam bentuk
wajah kartun chernoff faces.
Tabel 2. Penggabungan Parameter Chernoff Faces
Bagian Wajah Parameter yang digunakan
Bentuk Wajah Bentuk Wajah
Mata Bentuk Mata, Jarak Antar Mata Hidung Lebar Hidung, Panjang Hidung Mulut Panjang Mulut, Lengkung
Mulut.
Alis Mata Panjang Alis Mata, Kemiringan Alis Mata
3.6. Tampilan Antar Muka
Pada gambar 3 merupakan tampilan halaman awal dari aplikasi untuk melakukan prediksi kelas kanker payudara.
Gambar 3. Halaman Awal
Pada gambar 4 merupakan tampilan halaman prediksi dari aplikasi untuk melakukan prediksi kelas kanker payudara. Pada halaman prediksi terdapat parameter yang harus diisi sesuai dengan data Breast Cancer
Gambar 4. Halaman Prediksi
Pada gambar 5 merupakan tampilan halaman hasil. Pada halaman hasil terdapat hasil klasifikasi dalam bentuk kelas jinak atau ganas dan visualisasi dari hasil dalam bentuk wajah chernoff faces.
Gambar 5. Halaman Hasil
Pada gambar 6 merupakan tampilan halaman informasi rumah sakit. Pada halaman informasi rumah sakit berisi data nama rumah sakit beserta alamat dan nomor telepon dari rumah sakit yang terdaftar.
Gambar 6. Halaman Info Rumah Sakit
Pada gambar 7 merupakan tampilan halaman data
training. Pada halaman data training berisi data training sebanyak 615 data yang digunakan dalam
melakukan klasifikasi kanker payudara.
Gambar 7. Halaman Data Training
3.7. Pengujian Akurasi
Pada gambar 8 merupakan pengujian akurasi menggunakan KNIME. Pengujian ini menggunakan data training dan data testing hasil pembagian data(partitioning) yang dilakukan pada proses
preprocessing data sebelumnya. Data training yang
digunakan sebanyak 615 data dan data testing sebanyak 84 data. Serta nilai K yang digunakan ialah K=20. Akurasi yang didapat sebesar 98,81% dengan
error rate sebesar 1,19%.
Gambar 8. Hasil Akurasi
3.7. Pengujian K-Fold Cross Validation
Pada gambar 9 merupakan hasil dari pengujian cross
validation. Hasil akurasi sebesar 96,26% dan error rate sebesar 3,74%.
Gambar 9. Hasil dari cross validation
3.8. Perbandingan Dengan Penelitian Terdahulu Yang Relevan
Pada pengujian ini, dilakukan perbandingan terhadap penelitian terdahulu yang menggunakan data Breast
Cancer Wisconsin namun dengan menggunakan
metode yang berbeda-beda. Dalam melakukan perbandingan, digunakan 5 penelitian terdahulu yang dibandingkan dengan penelitian saat ini.
Tabel 3. Perbandingan dengan penelitian terdahulu Urai an Rach man, (2012 )[9] Fitria ni (2014 )[10] Vinart i (2014 )[11] Via (2015 )[12] Shahu ra (2016 )[13] Penel itian saat ini Met ode SVM NBC & PSO SBLR NBC RBPN N K-NN Akur asi 98,1 % 96,86 % 98,4% 97,82 % 93,19 % 98,81 %
Pada tabel 3 merupakan perbandingan terhadap 5 penelitian terdahulu yang dibandingkan ialah metode yang digunakan dan akurasi yang dihasilkan. Berdasarkan tabel 3, metode K-NN memiliki akurasi tertinggi terhadap data breast cancer wisconsin sebesar 98,81%.
3.8. Analisa Akurasi
Berdasarkan pengujian akurasi yang dilakukan, didapati hasil akurasi sebesar 98,81% dengan error
rate sebesar 1,19%. Akurasi yang dihasilkan termasuk
tinggi dikarenakan error rate yang ditemukan hanya sebesar 1,19%. Error rate yang terjadi dikarenakan pada data testing yang sebanyak 84 data terdapat data yang kelasnya malignant namun ketika dilakukan klasifikasi dengan algoritma KNN menghasilkan kelas
benign.
3.9. Analisa K-Fold Cross Validation
Berdasarkan pengujian dengan 10 fold cross
validation, didapati hasil akurasi sebesar 96,26%
dengan error rate sebesar 3,74%.
3.10. Analisa Perbandingan Dengan Penelitian Terdahulu Yang Relevan
Berdasrarkan tabel 3 hasil perbandingan dengan 5 penelitian terdahulu, penelitian saat ini menggunakan algoritma KNN memiliki akurasi tertinggi sebesar 98,81%. Hal ini dapat terjadi dikarenakan pada proses perhitungan untuk mengklasifikasikan data breast
cancer wisconsin menggunakan metode yang
berbeda-beda antara satu sama lain. Selain itu akurasi yang dihasilkan juga dipengaruhi oleh jumlah data training dan data testing yang digunakan.
4. KESIMPULAN
Berdasarkan pembahasan dan pengujian yang dilakukan maka dapat ditarik kesimpulan bahwa sistem yang dibangun sudah menerapkan prosedur dari metode K-Nearest Neighbor dengan hasil akurasi sebesar 98,81%. Untuk pengembangan selanjutnya disarankan agar data testing yang digunakan dapat dijadikan sebagai data training agar metode K-Nearest Neighbor yang diterapkan dapat terus belajar.
DAFTAR REFERENSI
[1] Depkes RI (2009). Buku Saku Pencegahan Kanker Leher Rahim dan Kanker Payudara. Diunduh tanggal 20 Oktober 2016 dari http://www.pppl.depkes.go.id/
[2] Globocan/IARC (2012). Breast Cancer Estimated Incidence, Mortality and Prevelance Worldwide in 2012. Diakses pada tanggal 12 Novermber 2016 dari http://globocan.iarc.fr/old/FactSheets/cancers/breast-new.asp.
[3] Rafikasari, Diana. (21 Desember 2015). Faktor Biaya, Alasan Wanita Tak Lakukan Deteksi Dini Kanker Payudara. Diakses tanggal 31 Agustus 2016 dari http://lifestyle.sindonews.com/read/1071100/155/faktor- biaya-alasan-wanita-tak-lakukan-deteksi-dini-kanker-payudara-1450665981.
[4] John R. Lee, M.D & David Zava, Ph.D & Virginia Hopkins, M.A. (2001). Kanker Payudara. Jakarta : Penerbit Daras Books.
[5] Han, Jiawei dan Kamber, Micheline. 2006. Data Mining: Concepts and Techniques Second Edition. San Fransisco. Morgan Kauffman Publisher.
[6] Rokarch, Lior., Maimon, Oded. (2008). Data Mining with Decision Trees Theory and Applications. USA
[7] Tang, L., Refaeilzadeh, P., Liu, H., (2008). Cross Validation. Arizona State University
[8] Rachmawati, Heni. (2013). Testing & Implementasi Sistem. Pekanbaru: Politeknik Caltex Riau.
[9] Rachman, Farizi. (2012). Perbandingan Klasifikasi Tingkat Keganasan Breast Cancer Dengan Menggunaakan Logistik Ordinal dan Support Vector Machine(SVM). Surabaya: Institut Teknologi Sepuluh November.
[10] Fitriani, Imma Rizki. (2014). Peningkatan Metode Naive Bayes Classification Untuk Penentuan Tingkat Keganasan Kanker Payudara Menggunakan Particle Swarm Optimization. Semarang: Universitas Dian Nuswantoro. [11] Vinarti, Retno Aulia. (2014). Identifikasi Faktor Prediksi
Diagnosis Tingkat Keganasan Kanker Payudara Metode Stepwise Binary Logistic Regression. Surabaya: Institut Teknologi Sepuluh November.
[12] Via, Yisti Vita. (2015). Sistem Pendukung Keputusan Klasifikasi Tingkat Keganasan Kanker Payudara Dengan Metode Naive Bayes Classifier. Surabaya: Universitas Pembangunan Nasional “Veteran” Jawa Timur.
[13] Shahura, Fairudz. (2016). Penerapan Metode RBPNN Untuk Klasifikasi Kanker Payudara. Banjarbaru: Universitas Lambang Mangkurat.