Data Mining Klasifikasi Breast Cancer Menerapkan Algoritma Gradient Boosted Trees
Kraugusteeliana Kraugusteeliana1,*, Saludin Muis2, Fifto Nugroho3, Abdul Karim4, Yessica Siagian5
1Prodi Sistem Informasi, Universitas Pembangunan Nasional Veteran Jakarta, Jakarta, Indonesia
2Fakultas Teknik Informatika, Prodi Teknik Informatika, Universitas Bina Insani, Bekasi, Indonesia
3Fakultas Ilmu Komputer, Prodi Sistem Komputer, Universitas Bung Karno, Jakarta, Indonesia
4Fakultas Ilmu Komputer, Prodi Teknologi Informasi, Universitas Budi Darma, Medan, Indonesia
5ProdiSistem Informasi, Sekolah Tinggi Manajemen Informatika dan Komputer Royal Kisaran, Kisaran, Indonesia Email: 1,*[email protected], 2[email protected],3[email protected], 4[email protected],
Email Penulis Korespondensi: [email protected]
Abstrak−Kanker adalah salah satu penyakit mematikan yang sering dialami secara tiba-tiba. Kanker diderita bukan hanya dikalangan dewasa dan orang tua, akan tetapi anak kecil yang bahkan baru lahir juga dapat menderita kanker. Ada banyak jenis kanker yang hampir sama gejalanya akan tetapi berbeda jenisnya dan juga ada tingkatan keseriusan (bahaya) kanker tersebut, mulai dari kanker biasa hingga kanker ganas yang memiliki perubahan signifikan terhadap tubuh. Ada banyak jenis kanker salah satunya adalah kanker payudara yang lebih sering dialami oleh kaum hawa (wanita). Jenis kanker ini sering terjadi pada wanita dewasa dan orang tua. Pada penelitian ini untuk memudahkan dalam pendiagnosaan penyakit kanker payudara maka diterapkanlah sebuah metode klasifikasi. Dengan melakukan pendiagnosaan secara dini dapat mengurangi tingkat kematian, pendiagnosaan sebelumnya dilakukan dengan memanfaatkan media gambar (PET scan dan CT scan) yang memerlukan waktu lama sehingga dianggap kurang efesien. Algoritma klasifikasi yang digunakan adalah gradient boosted trees pengujian dilakukan dengan menggunakan aplikasi rapidminer sebagai penguji untuk mengetahui tingkat akurasi algoritma dan juga besar AUC yang diperoleh dengan menggunakan information gain. Hasil akhir setelah diterapkan metode gradient boosted menghasilkan tingkat akurasi sebesar 58,52%, hal ini dinilai kurang efektif untuk digunakan sehingga algoritma ini kurang cocok digunakan sebagai prediksi breast cancer. Precision sebesar 64,25% dan juga recall hanya 69,44%.
Kata Kunci: Data Mining; Klasifikasi; Algoritma Gradient Boosted Trees; Breast Cancer
Abstract−Cancer is a deadly disease that is often experienced suddenly. Cancer is suffered not only among adults and the elderly, but even small children who are just born can also suffer from cancer. There are many types of cancer that have almost the same symptoms but different types and there are also levels of seriousness (danger) of these cancers, ranging from common cancers to malignant cancers that have significant changes to the body. There are many types of cancer, one of which is breast cancer, which is more common in women. This type of cancer often occurs in adult women and the elderly. In this study, to facilitate the diagnosis of breast cancer, a classification method was applied. By making an early diagnosis can reduce the mortality rate, previous diagnosis is done by utilizing image media (PET scan and CT scan) which takes a long time so it is considered less efficient. The classification algorithm used is gradient boosted trees. The test was carried out using the rapidminer application as a tester to determine the accuracy of the algorithm and also the AUC size obtained using information gain. The final result after applying the gradient boosted method produces an accuracy rate of 58.52%, this is considered less effective to use so this algorithm is not suitable to be used as a prediction of breast cancer. Precision of 64.25% and recall of only 69.44%.
Keywords: Data Mining; Classification; Gradient Boosted Trees Algorithm; Breast Cancer
1. PENDAHULUAN
Kanker adalah salah satu penyakit mematikan yang sering dialami secara tiba-tiba. Kanker diderita bukan hanya dikalangan dewasa dan orang tua, akan tetapi anak kecil yang bahkan baru lahir juga dapat menderita kanker. Ada banyak jenis kanker yang hampir sama gejalanya akan tetapi berbeda jenisnya dan juga ada tingkatan keseriusan (bahaya) kanker tersebut, mulai dari kanker biasa hingga kanker ganas yang memiliki perubahan signifikan terhadap tubuh.
Kanker merupakan sel-sel jaringan yang ada dalam tubuh dengan proses pertumbuhan yang tidak normal dan bahkan dapat tumbuh dibagian lainnya (menyebar), pertumbuhan tersebut awalnya biasa dan pada akhirnya menjadi ganas hingga dapat menyebabkan kematian. Proses pertumbuhan tersebut sangatlah cepat sehingga dapat menyebabkan perubahan yang tidak dapat dikendalikan lagi atau disebut mutasi sel tubuh. Menghilangkan kanker tersebut tidaklah mudah, jika usia kanker tersebut sudah cukup dengan insting bahwa kanker tersebut akan hilang (mati), nyatanya kankertersebut malah menyebar lebih luas dan terus-menerus untuk menyeranga sela yang masih normal dan menjadikan sel normal tersebut menjadi mati karena adanya desakan dari sel-sel yang mati tersebut[1][2]. Kanker bukan hanya berdampak pada diri sendiri akan tetapi berdampak pula di dunia kesehatan, tingkat kematian yang disesbabkan kanker selalu meningkat tiap tahunnya. Penyakit kanker yang diserita ada 18,1 juta kasus di dunia dan bahkan sekitar 11,4 juta kasus kanker yang akan dialami di dunia[3].
Ada banyak jenis kanker salah satunya adalah kanker payudara yang lebih sering dialami oleh kaum hawa (wanita). Jenis kanker ini sering terjadi pada wanita dewasa dan orang tua. Pada penelitian ini untuk memudahkan dalam pendiagnosaan penyakit kanker payudara maka diterapkanlah sebuah metode klasifikasi. Dengan melakukan pendiagnosaan secara dini dapat mengurangi tingkat kematian, pendiagnosaan sebelumnya dilakukan
dengan memanfaatkan media gambar (PET scan dan CT scan) yang memerlukan waktu lama sehingga dianggap kurang efesien. Klasifikasi ini diterapkan dengan menggunakan salah satu algoritma klasifikasi yaitu Algoritma Gradient Boosted Trees. Gradient boosting adalah algoritma yang dapat menyelesaikan permasalahan klasifikasi, regresi dan bahkan juga dapat digunakan sebagai perangkingan. Cara kerja algoritma ini adalah penyesuaian parameter dengan berulanghingga dapat menurunkan mekanisme evaluasi sebuah model[4].
Penelitian sebelumnya dilakukan oleh Hadi Priyanto, dkk pada tahun 2022 dengan penelitian disebuah sekolah memerlukan sebuah metode yang memudahkan pihak sekolah tersebut memilih jurusan yang sesuai dengan minat dan kemampuan siswa tersebut, pada penelitian tersebut merekan menerapkan algoritma gradient boosting yang dianggap lumayan efektif dibandingkan metode lainnya dengan perolehan tingkat akurasi sebesar 72% dan 76% class recall[5]. Panalitian berikutnya dilakukan oleh Edi Ismanto dan Melly Novalia pada tahun 2021 dengan sebuah penelitian yang membahas perbandingan tiga algoritma klasifikasi dalam mengklasifikasi komoditas. Penelitian ini dianggap sangat bagus karena pada sebuah penelitian menghasilkan keluarana tiga sekaligus yaitu hasil kinerja algoritma C4.5, hasil aalgoritma Random Forest dan juga gradient boosting, akan tetapi tentunya dari ketiga hasil penerapan algoritma tentunya hanya ada satu algoritma yang dianggap lebih baik dari ketiganya. Adapun algoritma yang memiliki kinerja klasifikasi yang terbaik adalah algoritma random forest[6]. Penelitian selanjutnya yang dilakukan dengan nama kasus dataset bersumber sama pada penelitian ini yaitu peneliti sebelumnya menggunakan dataset breast cancer wisconsins (original) sedangkan penelitian ini menggunakan dataset breast cancer, dataset tersebut diperoleh dari website penyedia data-data yang dapat digunakan dalam proses penelitian. Peneliti tertarik menggunakan data yang serupa agar memudahkan dalam penyelesaia algoritma yang digunakan dan juga penelitian sebelumnya yang dilakukan oleh Andita Dani Achmad pada tahun 2022, dalam penelitian tersebut data yang digunakan hanya berjumlah 120 data dari 569 data dengan 2 atribut yang dianggap kurang relevan karena jumlah atributnya jauh sekali dibanding atribut awal (32 atribut), pada penelitian tersebut dia menggunakan metode logistic regression dengan tingkat akurasi yang cukup baik yaitu akurasi proses latih sebesar 76,04% dan akurasi proses uji sebesar 83,33%[1].
2. METODE PENELITIAN
2.1 Tahapan Penelitian
Tahapan penelitian dibuat agar memudahkan peneliti dalam menyelesaikan penelitian dengan mudan dan taratur, berikut tahapan yang dilakukan peneliti hingga memperoleh sebuah hasil yang diinginkan.
Gambar 1. Tahapan Penelitian
Berdasarkan gambar 1, berikut penjelasan yang dibuat oleh peneliti agar pembaca dapat lebih jelas dan lebih mudah memahami tahapan tersebut.
1. Analisa Masalah, proses ini merupakan awal dari penelitian ini dan prosesnya juga cukup lama, dikarenakan adanya sebuah proses analisa yang mengharuskan peneliti untuk menganalisa secara detail dan mendalam permasalahan yang terjadi dan juga solusi yang dilakukan selanjutnya dengan teknik studi literatur.
2. Pencarian Dataset, proses kedua yaitu mencari data yang dapat digunakan sebagai penelitian dengan topik permasalahan yang sesuai. Dataset ini bisa ditemukan di berbagai website terpercaya dan juga dapat ditemukan dengan cera observasi (wawancara) langsung dengan yang berkaitan.
3. Preposessing, tahapan ketiga dilakukan agar data yang double, data yang tidak konsisten, data yang salah, dan juga data yang hilang untuk di sesuaikan. Proses ini juga disebut sebagai cleaning process untuk memperbaiki data yang bermasalah.
4. Klasifikasi algoritma gradient boosted trees, pada proses ini peneliti menggunakan aplikasi rapidminer sebagai penguji untuk mengetahui tingkat akurasi algoritma dan juga besar AUC yang diperoleh dengan menggunakan information gain.
5. Kesimpulan, tahapan akhir yang berisi hasil akhir setelah diterapkannya algoritma gradient boosted untuk mengklasifikasi kanker payudara.
2.2 Data Mining
Data Mining merupakan sebuah bidang ilmu pengetahuan yang berasal dari database kemudian diproses hingga menghasilkan pengetahuan yang barua. Pengetahuan tersebut perlu digali lagi dari sebuah database karena didatabase tentunya ada pengetahuan yang tersembunyi. Data Mining juga disebuat sebagai database yang berukuran besar digunakan untuk mengidentifikasikan pengetahuan yng bermanfaat dengan menggunakan teknik kecerdasan buatan, matematika, statistik, machine learning dan juga database[7][8][9].
Gambar 2. Bidang Ilmu Data Mining
Selain memperoleh pengetuan baru, Data Mining juga dapat digunakan untuk menemukan (membentuk) pola dengan tujuan digunakan di masa depan, keberadaan pola tersebut tidak disadari[10]. Data mining juga disebut proses tambang yang berasal dari database yang berukuran besar untuk mengumpulkan informasi yang baru[11][12]. Berikut beberapa kelompok data mining yang dapat digunakan sebagai penyelesaian masalah dalam sebuah penelitian[13][14][15]:
a. Clustering
Clustering merupakan salah satu data mining yang digunakan sebagai untuk mengelompokkan objek yang diteliti berdasarkan kemiripan, objek yang dinyatakan mirip akan dimasukkan kedalam cluster dan untuk objek yang tidak mirip dimasukkan kedalam cluster lainnya (tergantung jumlah cluster yang ingin dibentuk). Pada teknik clusterisasi tentunya ada beberapa algoritma yang dapat digunakan diantaranya AHC, K-Medoids dan K-Means[16][17].
b. Klasifikasi
Klasifikikasi hampir sama dengan clustering, hanya saja klasifikasi bersifat kategorik dengan klasifikasi variabel. Sebagai contoh kasus klasifikasi yaitu klasifikasi penyekit mematikan dimana setiap variabel sebagai penentu akan dicocokkan dengan data kemudian dikalsifikasi sebagai jenis penyakit yang diderita. Algoritma yang sering digunakan ialah Algoritma Naïve Bayesian Clasifier, algoritma C4.5, algoritma K-Nearest Neighbor, Algoritma Trees dan lainnya[18].
c. Prediksi
Prediksi sama halnya dengan klasifikasi hanya saja pada prediksi ditujukan untuk mengetahui suatu yang belum terjadi yang sering disebut prediksi dini untuk menghindari hal-hal yang tidak diinginkan sehingga adanya sebuah tinjauan ulang prediksi dini. Ada banyak metode yang dapat digunakan untuk memprediksi suatu hal (objek) yaitu Naïve Bayes, Rough Set, C4,5, SVM, KNN dan ada banyak lainnya[19].
d. Asosiasi
Asosiasi merupakan proses menghubungkan satu peristiwa pada waktu yang sama dan biasanya proses ini melakukan identifikasi peristiwa tersebut. Ada beberapa algoritma yang dapat digunakan untuk permasalahan dalam teknik asosiasi diantaran algoritma Fp-Growth dan algoritma apriori[20].
e. Estimasi
Estimasi adalah data mining yang mirip dengan data mining prediksi dan klasifikasi dimana penyelesaian sebuah masalah dilakukan dengan memperkirakan (memprediksi) suatu hal , hanya saja pada kelompok data minin estimasi variabel tujuan bersifat numerik. Metode yang digunakan yaitu metode Regresi Linear (sederhana, berganda), algoritma Expectation Maximization [21][22].
2.3 Gradient Boosted Trees
Gradient boosting merupakan salah satu algoritma klasifikasi decision tree dengan keunggulan dapat mengelesaikan permasalahan yang membahas (mengenai) prediksi dan juga klasifikasi. Hanya dengan satu algoritma penuli dapat menyelesaikan dua teknik sekaligus. Algoritma gradient boosted dikatakan juga sebagai algoritma pohon sehingga dapat menghindari overfitting. Berikut prosedur yang dapat diterapkan dalam pengujian algoritma gradient boosted trees[6]:
a. Tentukan dataset yang digunakan sebagai training D
D = {(X1, Y1), … , (Xn, Yn)} (1) b. Mulai model dengan nilai konstanta dengan menghitung nilai prediksi awal
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 = 𝑒𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)
1+𝑒𝑙𝑜𝑔(𝑜𝑑𝑑𝑠) (2)
c. Hitung nilai residual
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑖= 𝑁𝑖𝑙𝑎𝑖𝑦𝑖− 𝑃𝑟𝑒𝑑𝑖𝑘𝑠𝑖𝑎𝑤𝑎𝑙(𝑦^) (3)
d. Hasil akhir
𝑈𝑝𝑑𝑎𝑡𝑒 = 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖𝑎𝑤𝑎𝑙 + (𝑙𝑒𝑎𝑟𝑛𝑖𝑛𝑔𝑟𝑎𝑡𝑒 ∗ 𝑃𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙1) + (𝑙𝑒𝑎𝑟𝑛𝑖𝑛𝑔𝑟𝑎𝑡𝑒 ∗ 𝑃𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙2) + ⋯ (4) 2.4 Rapidminer
RapidMiner adalah software opensource yang artinya dapat dikembangkan berdasarkan perkembangan teknologi, rapidminer sering digunakan sebagai software penguji dalam pengelompokkan, klasifikasi, prediksi, penghubungan (assosiasi) dan juga estimasi. Penggunaan rapidminer dianggap lebih efektif, efesien dan mudah digunakan sehingga membantu user menemukan keputusan yang paling baik. Ada 500 lebih operator yang dapat digunakan dalam data rapidminer berupa inputan, visualisasi, prepocessing dan juga output. Rapidminer dapat digunakan di semua operating system karena bahasa yang digunakan yaitu java, bahkan software ini dalam proses analisa dan juga mengintegrasikan produknya dengan diri sendiri (berdiri sendiri)[23][24].
3. HASIL DAN PEMBAHASAN
Tahapan analisa dilakukan dengan proses penerapan metode data mining dalam klasifikasi breast cancer dengan menggunakan sebagaian data (150 data) dari 286 data dan 8 atribut dari data awalnya, dataset tersebut bersumber dari
https://archive.ics.uci.edu/ml/datasets.php?format=&task=cla&att=&area=&numAtt=&numIns=&type=&sort=n ameUp&view=table yang kemudian diolah dengan menggunakan aplikasi (software) rapidminer. Sebelum di terapkan dengan algoritma gradient booster, data yang digunakan sebagai sampel di lakukan proses prepocessing guna melengkapi atau memperbaiki data yang hilang, data yang tidak sesuai (rancu) dan sebagainya. Berikut tabel data yang digunakan sebagai sampel dalam pengklasifikasian pada penelitian ini.
Tabel 1. Sampel Dataset Breast Cancer
No. Class Age Menopause Tumor size Node caps Deg malig Breast Irradiat
1 no-recurrence-events 30-39 premeno 40-44 no 3 right yes
2 no-recurrence-events 40-49 premeno 5-9 no 1 left yes
3 no-recurrence-events 30-39 premeno 40-44 no 2 left yes
4 no-recurrence-events 40-49 premeno 30-34 no 2 left no
5 no-recurrence-events 50-59 ge40 40-44 yes 2 left no
6 no-recurrence-events 50-59 premeno 20-24 yes 2 left no
7 no-recurrence-events 60-69 ge40 10-14 no 1 left no
8 no-recurrence-events 40-49 premeno 45-49 no 2 left yes
9 no-recurrence-events 60-69 ge40 45-49 yes 3 left no
10 no-recurrence-events 40-49 premeno 25-29 ? 2 left yes
11 no-recurrence-events 60-69 ge40 50-54 no 2 right yes
12 no-recurrence-events 50-59 premeno 30-34 yes 2 left yes
13 no-recurrence-events 30-39 premeno 20-24 no 3 left no
14 no-recurrence-events 50-59 lt40 30-34 no 3 right no
15 no-recurrence-events 50-59 ge40 25-29 yes 3 right no
... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ...
149 recurrence-events 40-49 ge40 30-34 no 3 left no
150 recurrence-events 50-59 ge40 30-34 no 3 left no
Berdasarkan tabel 1, dapat dijelaskan bahwa ada 8 atribut dengan masing-masing obsional diantaranya atribut class yang dijadikan sebagai tujuan pengklasifikasian dengan opsional (no recurrence events dan recurrence events), atribut selanjutnya age dengan opsioanal (10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89 dan 90- 99), kemudian atribut menopause dengan opsional (lt40, ge40 dan premeno), atribut tumore size dengan opsioanal (0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59), Atribut Node caps (yes dan no), atribut deg malig (1,2 dan 3), atribut breast (left dan right) dan atribut terakhir yaitu irradiate dengan opsional (yes dan no). Sampel data yang kosong atau rancu dapat diisikan berdasarkan insting atau opsi dominan dari data sampel.
Dalam pemrosesan perhitungan menggunakan algoritma Gradient Boosted trees, ubah data linguistik menjadi angka (real ataupun integer) yaitu pada atribut menopause (ge40 diubah menjadi 0, lt40 diubah menjadi 1 dan premeno diubah menjadi 2), atribut node-caps (No=0 danYes=1), atribut breast (left=0 dan right=1), irradiat (No=0 dan Yes=1) dan pada atribut class (no-recurrence-events=0 dan recurrence-events=1).
1. Prediksi Awal atau probabilitas (y^) 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑎𝑠 = 𝑒𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)
1+𝑒𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)= 𝑒
𝑙𝑜𝑔(85 65) 1+𝑒𝑙𝑜𝑔(
85 65)
= 0,567 2. Hitung Residual
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑖= 𝑁𝑖𝑙𝑎𝑖𝑦𝑖− 𝑃𝑟𝑒𝑑𝑖𝑘𝑠𝑖𝑎𝑤𝑎𝑙(𝑦^)
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙11= 𝑁𝑖𝑙𝑎𝑖𝑦1− 0,567) = 0 − 0,567 = −0,567 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙21= 𝑁𝑖𝑙𝑎𝑖𝑦2− 0,567) = 0 − 0,567 = −0,567 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙31= 𝑁𝑖𝑙𝑎𝑖𝑦3− 0,567) = 0 − 0,567 = −0,567
Lakukan langkah diatas hingga data ke-150. Berikut hasil nilai residual awal yang telah dilakukan pengurangan antara nilai probabilitas dengan nilai target.
Tabel 2. Residual 1
No. Age … Breast Irradiat Class (Y) Prob (Y^) Residual
1 30-39 … 1 1 0
0,567
-0,567
2 40-49 … 0 1 0 -0,567
3 30-39 … 0 1 0 -0,567
4 40-49 … 0 0 0 -0,567
5 50-59 … 0 0 0 -0,567
6 50-59 … 0 0 0 -0,567
7 60-69 … 0 0 0 -0,567
8 40-49 … 0 1 0 -0,567
9 60-69 … 0 0 0 -0,567
10 40-49 … 0 1 0 -0,567
11 60-69 … 1 1 0 -0,567
12 50-59 … 0 1 0 -0,567
13 30-39 … 0 0 0 -0,567
14 50-59 … 1 0 0 -0,567
15 50-59 … 1 0 0 -0,567
... ... ... ... ... ... ...
149 40-49 … 0 0 1 0,433
150 50-59 … 0 0 1 0,433
3. Bentuk pohon keputusan atribut prediksi
Gambar 3. Pohon keputusan residual 1
Berdasarkan gambar 3, dapat dijaleskan bahwa ada 32 data dengan nilai residual -0,567 dan 31 data yang memiliki residual 0,433 pada atribut irradiat yang yang bernilai 1, sedangkan data yang tidak bernilai 1 dinilai berdasarkan atribut selanjutnya yitu atribut breast dengan nilai rasidual -0,567 sebanyak 2 data dan 0,433 sebanyak 5 data dengan ketentuan memilini nilai breast 1 dan jika tidak maka dibentuk dayn baru dengan nilai residual -0,567 dengan data sebanyak 31 data dan 0,443 sebanyak 49 data. jumlah keseluruhan data harus sama dengan jumlah data residual semua daun terbentuk yaitu 32+31+2+5+31+49 = 150 data.
4. Prediksi residual setiap daun
Irradiat = 1
-0,567 (32) 0,433 (31)
Y N
Breast = 1
-0,567 (2) 0,433 (5)
-0,567 (31) 0,433 (49)
Y N
𝐷𝑎𝑢𝑛𝑖= ∑ 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑖
∑[𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦𝑠𝑒𝑏𝑒𝑙𝑢𝑚𝑛𝑦𝑎𝑖∗(∑ 1−𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦𝑠𝑒𝑏𝑒𝑙𝑢𝑚𝑛𝑦𝑎𝑖)]
𝐷𝑎𝑢𝑛1=−0,567(32)+0,433(31)
(63)(0,567∗(1−0,567))= −0,018 𝐷𝑎𝑢𝑛2= −0,567(2)+0,433(5)
(7)(0,567∗(1−0,567))= 0,036 𝐷𝑎𝑢𝑛3=−0,567(31)+0,433(49)
(80)(0,567∗(1−0,567))= 0,011
Bentuk pohon keputusan residual 1 dengan menyesuaikan nilai daun yang telah dibentuk berdasarkan nilai daun diatas.
Gambar 4. Pohon keputusan residual 1 termodifikasi 5. Menghitung probabilitas baru
Daun 1:
𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)𝑝 = 𝑏0 + 𝑏1𝑥 ==> Nilai b1 diperoleh dari nilai prediksi awal (b0)+0,1 𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)𝑝 = 0,567 + 0,667 ∗ (−0,018) = 0,555
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑎𝑠 = 𝑒𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)
1+𝑒𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)= 𝑒𝑙𝑜𝑔(0,555)
1+𝑒𝑙𝑜𝑔(0,555)= 0,635 Daun 2:
𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)𝑝 = 0,567 + 0,667 ∗ (0,036) = 0,591 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑎𝑠 = 𝑒𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)
1+𝑒𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)= 𝑒𝑙𝑜𝑔(0,591)
1+𝑒𝑙𝑜𝑔(0,591)= 0,644 Daun 3:
𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)𝑝 = 0,567 + 0,667 ∗ (0,011) = 0,574 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑎𝑠 = 𝑒𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)
1+𝑒𝑙𝑜𝑔(𝑜𝑑𝑑𝑠)= 𝑒𝑙𝑜𝑔(0,574)
1+𝑒𝑙𝑜𝑔(0,574)= 0,640
Lakukan perhitungan nilai residual baru dengan menggunkanan langkah ke-2. Lakukan semua langkah penyelesaian hingga nantinya memperoleh pohon keputusan dari semua atribut yang saling berhubungan.
Sampel data yang berjumlah banyak sehingga membutuhkan sebuah software yang dapat digunakan untuk mengklasifikasi breast cancer yaitu menggunkan rapidminer. Berikut proses pengklasifikasian menggunkan rapidminer.
Gambar 3. Sampel dataset breast cancer
Berdasakan gambar 3 dapat dijelakan bahwa file excel yang digunakan sebagai dataset berjumlah 150 data dengan masing-masing atribut disesuaikan jenis type atributnya. Atribut class diubah change role menjadi label
Irradiat = 1
-0,018
Y N
Breast = 1
0,036 0,011
Y N
guna untuk dijadikan sebagai tujuan atau perolehan hasil, sedangkan untuk type disesuaikan, seperti class digunakan type binominal karena hanya ada dua pilihan yaitu recurrence events dan no recurrence events. Begitu juga untuk atribut age, menopause, tumor size, node caps, breast dan irradiate bertype polynomial dikarenakan lebih dari 2 pilihan sedangkan deg malig bertype integer dikarenakan berbentuk angka. Setelah disesuaikan maka input file tersebut kedalam rapid miner (import data) seeprti gambar berikut.
Gambar 4. Input sampel data di rapidminer
Gambar 4 adalah tampilan file yang telah dimasukkan kedalam rapid miner, setelah itu jalankan menggunakan tombol yang telah disesiakan (play), berikut tampilan file data yang telah dijalankan.
Gambar 5. Tampilan statistik data
Berdasarkan gambar 5 terlihat bahwa tidak ada data yang missing, akan tetapi ada 8 data pada bagian atribut node caps yang rancu (tidak sesuai dengan pernyataan yang lain) sehingga diperlukan pengecekan kesalahan dari data tersebut berikut tampilannya.
Gambar 6. Tampilan Visualization
Berdasarkan gambar 6 terlihat bahwa ada satu pernyataan (?) yang dianggap tidak sesuai dengan pernyataan yang lain sehingga diperlukan perbaikan data lagi, hal tersebut biasanya terjadi karena adanya data yang hilang atau data yang tidak sesuai dengan data lainnya. Berikut dapat dilihat atribut yang terjadinya data tidak sesuai.
Gambar 7. Tampilan Data tidak sesuai
Berdasarkan gambar 7, pada tribut nope scaps dihilangkan saja agar tidak model yang akan dibentuk tidak berubah. Menghilangkan data yang rancu dapat menggunakan operator filter examples, pada bagian parameters pilih atribute_value_filter pada bagian condition class lalu sesuaikan parameter string pada data atribut yang akan di hapus. Isi parameter string “node-caps=.”. pada aplikasi rapid miner, untuk menghilangkan atau menghapus data yang rancu dapat menggunakan tanda titik (,), bukan tanda tanya (?). berikut gambaran yang dapat dilihat.
Gambar 8. Tampilan Parameter Prepocessing
Pada bagian invert filter pada gambar 8 jangan lupa klik (tanda centang) agar data yang muncul atau diproses itu adalah data yang tidak dihapus. Setelah dihapus 8 data yang rancu tersebut, maka jumlah data yang akan di proses menjadi 142 data.
Gambar 9. Tampilan Process rapidminer
Berdasarkan gambar 9, ada 3 operator tambahan yang digunakan, diantaranya yaitu select atribut yang digunakan untuk memilih atribut yang akan di gunakan, jadi pada atribut ini, peneliti dapat memilih atribut yang dianggap perlu saja di proses. Selanjutnya ada operator Gain digunakan untuk mengukur tingkat akurasi dari data tersebut. Pada penelitian ini, peneliti menggunakan information gain sebagai pengukur tingkat akurasi data dan menggunakan validation sebagai validitas. Kelima operator tersebut dihubungkan berdasarkan masing-masing post. Setelah itu klik dua kali (double click) operator validation untuk memilih algoritma yang digunakan sebagai training, pada penelitian ini menggunakan gradient boosted trees dapat dilihat pada gambar berikut.
Gambar 10. Tampilan Penerapan Gradient Boosted
Operator gradient boosted telah di hubungkan dengan performace dapat dilihat dari gambar 10, sehingga dapat terlihat seberapa besar tingkat akurasi algoritma gradient boosted untuk memprediksi keakuratan data breast cancer (kanker payudara). Berikut hasil pengujian menggunakan algoritram gradient boosted.
Gambar 11. Performances gradient boosted
Berdasarkan gambar 11, terlihat bahwa tingkat akurasi algoritma gradient boosted hanya sebesar 58,52%, hal ini dinilai kurang efektif untuk digunakan sehingga algoritma ini kurang cocok digunakan sebagai prediksi breast cancer. Precision sebesar 64,25% dan juga recall hanya 69,44%.
4. KESIMPULAN
Kesimpulan yang dapat digunakan sebagai pengetahuan baru untuk user dan juga pembaca bahwa setelah diselesaikannya penelitian ini dengan tujuan untuk mengetahuan tingkat akurasi sebuah metode klasifikasi data mining yaitu algoritma gradient boosted trees dalam pengklafikasian breast cancer atau sering disebut sebagai kanker payudara. Jenis kanker ini dinilai sangat berbahaya terkhusus lebih dominan dialami oleh wanita sehingga dilakukan klasifikasi dini guna mengurangi tingkat kematian yang berasal dari penyakit kanker payudara.
Pengkafikasian dilakukan menggunakan rapidminer guna agar memperoleh hasil yang lebih efesien. Hasil akhir setelah diterapkan metode klasifikasi gradient boosted diperoleh tingkat akurasi data hanya 58,52% yang dinilai kurang efektif digunakan untuk klasifikasi breast cancer, hasil lainnya yaitu nilai Precision sebesar 64,25% dan juga recall hanya 69,44%.
REFERENCES
[1] A. D. Achmad, “KLASIFIKASI BREAST CANCER MENGGUNAKAN METODE LOGISTIC REGRESSION,” vol.
9, no. 1, 2022.
[2] E. Widyanengsih et al., “Review Artikel : Sistem Penghantaran Obat Nanopartikel Pada Sel Kanker ,” J. Pendidik. dan Konseling, vol. 5, no. 1 SE-Articles, pp. 1133–1138, 2023, [Online]. Available:
http://journal.universitaspahlawan.ac.id/index.php/jpdk/article/view/11122
[3] R. Sistem, P. Cart, and D. Kanker, “JURNAL RESTI,” vol. 1, no. 10, pp. 805–812, 2021.
[4] S. E. Herni Yulianti, Oni Soesanto, and Yuana Sukmawaty, “Penerapan Metode Extreme Gradient Boosting (XGBOOST) pada Klasifikasi Nasabah Kartu Kredit,” J. Math. Theory Appl., vol. 4, no. 1, pp. 21–26, 2022, doi:
10.31605/jomta.v4i1.1792.
[5] H. Priyono, R. Sari, and T. Mardiana, “Klasifikasi Pemilihan Jurusan Sekolah Menengah Kejuruan Menggunakan Gradient Boosting Classifier,” J. Inform., vol. 9, no. 2, pp. 131–139, 2022, doi: 10.31294/inf.v9i2.12654.
[6] E. Ismanto and M. Novalia, “Komparasi Kinerja Algoritma C4.5, Random Forest, dan Gradient Boosting untuk Klasifikasi Komoditas,” Techno.Com, vol. 20, no. 3, pp. 400–410, 2021, doi: 10.33633/tc.v20i3.4576.
[7] A. Z. Siregar, “Implementasi Metode Regresi Linier Berganda Dalam Estimasi Tingkat Pendaftaran Mahasiswa Baru,”
Kesatria J. Penerapan Sist. Inf. (Komputer dan Manajemen), vol. 2, no. 3, pp. 133–137, 2021, [Online]. Available:
https://tunasbangsa.ac.id/pkm/index.php/kesatria/article/view/73
[8] S. S. S, A. T. Purba, V. Marudut, M. Siregar, T. Komputer, and P. B. Indonesia, “SISTEM PENDUKUNG KEPUTUSAN KELAYAKAN PEMBERIAN PINJAMAN,” vol. 3, pp. 25–30, 2020, doi: 10.37600/tekinkom.v3i1.131.
[9] B. S. Pranata and D. P. Utomo, “Penerapan Data Mining Algoritma FP-Growth Untuk Persediaan Sparepart Pada Bengkel Motor (Study Kasus Bengkel Sinar Service),” Bull. Inf. Technol., vol. 1, no. 2, pp. 83–91, 2020.
[10] G. Gunadi and D. I. Sensuse, “Penerapan Metode Data Mining Market Basket Analysis Terhadap Data Penjualan Produk Buku Dengan Menggunakan Algoritma Apriori Dan Frequent Pattern Growth ( Fp-Growth ) :,” Telematika, vol. 4, no.
1, pp. 118–132, 2012.
[11] F. O. Lusiana, I. Fatma, and A. P. Windarto, “Estimasi Laju Pertumbuhan Penduduk Menggunakan Metode Regresi Linier Berganda Pada BPS Simalungun,” J. Informatics Manag. Inf. Technol., vol. 1, no. 2, pp. 79–84, 2021, [Online].
Available: https://hostjournals.com/
[12] Z. Nabila, A. Rahman Isnain, and Z. Abidin, “Analisis Data Mining Untuk Clustering Kasus Covid-19 Di Provinsi Lampung Dengan Algoritma K-Means,” J. Teknol. dan Sist. Inf., vol. 2, no. 2, p. 100, 2021, [Online]. Available:
http://jim.teknokrat.ac.id/index.php/JTSI
[13] S. Al Syahdan and A. Sindar, “Data Mining Penjualan Produk Dengan Metode Apriori Pada Indomaret Galang Kota,” J.
Nas. Komputasi dan Teknol. Inf., vol. 1, no. 2, 2018, doi: 10.32672/jnkti.v1i2.771.
[14] A. Wanto et al., Data Mining: Algoritma dan Implementasi. Yayasan kita menulis, 2020.
[15] N. L. W. S. R. Ginantra et al., Data mining dan penerapan algoritma. Yayasan Kita Menulis, 2021.
[16] F. Harahap, “Perbandingan Algoritma K Means dan K Medoids Untuk Clustering Kelas Siswa Tunagrahita,” TIN Terap.
Inform. Nusant., vol. 2, no. 4, pp. 191–197, 2021.
[17] B. Harli Trimulya Suandi As and L. Zahrotun, “PENERAPAN DATA MINING DALAM MENGELOMPOKKAN
DATA RIWAYAT AKADEMIK SEBELUM KULIAH DAN DATA KELULUSAN MAHASISWA
MENGGUNAKAN METODE AGGLOMERATIVE HIERARCHICAL CLUSTERING (Implementation Of Data Mining In Grouping Academic History Data Before Students And Stud,” J. Teknol. Informasi, Komput. dan Apl., vol. 3, no. 1, pp. 62–71, 2021, [Online]. Available: http://jtika.if.unram.ac.id/index.php/JTIKA/
[18] M. Azhari, Z. Situmorang, and R. Rosnelly, “Perbandingan Akurasi, Recall, dan Presisi Klasifikasi pada Algoritma C4.5, Random Forest, SVM dan Naive Bayes,” J. Media Inform. Budidarma, vol. 5, no. 2, p. 640, 2021, doi:
10.30865/mib.v5i2.2937.
[19] S. Widaningsih, “Perbandingan Metode Data Mining Untuk Prediksi Nilai Dan Waktu Kelulusan Mahasiswa Prodi Teknik Informatika Dengan Algoritma C4,5, Naïve Bayes, Knn Dan Svm,” J. Tekno Insentif, vol. 13, no. 1, pp. 16–25, 2019, doi: 10.36787/jti.v13i1.78.
[20] H. Maulidiya and A. Jananto, “Asosiasi Data Mining Menggunakan Algoritma Apriori dan FP-Growth sebagai Dasar Pertimbangan Penentuan Paket Sembako,” Proceeding SENDIU 2020, vol. 6, pp. 36–42, 2020.
[21] A. S. L. T. T. H. Hafizah, “Data Mining Estimasi Biaya Produksi Ikan Kembung Rebus Dengan Regresi Linier Berganda,” J. Sist. Inf. Triguna Dharma (JURSI TGD), no. Vol 1, No 6 (2022): EDISI NOVEMBER 2022, pp. 888–897, 2022, [Online]. Available: https://ojs.trigunadharma.ac.id/index.php/jsi/article/view/5732/1938
[22] Y. L. Nainel, E. Buulolo, and I. Lubis, “Penerapan Data Mining Untuk Estimasi Penjualan Obat Berdasarkan Pengaruh Brand Image Dengan Algoritma Expectation Maximization (Studi Kasus: PT. Pyridam Farma Tbk),” JURIKOM (Jurnal Ris. Komputer), vol. 7, no. 2, p. 214, 2020, doi: 10.30865/jurikom.v7i2.2097.
[23] D. N. Batubara and A. P. Windarto, “Analisa Klasifikasi Data Mining Pada Tingkat Kepuasan Pengunjung Taman Hewan Pematang Siantar Dengan Algoritma,” KOMIK (Konferensi Nas. Teknol. Inf. dan Komputer), vol. 3, no. 1, pp. 588–592, 2019, doi: 10.30865/komik.v3i1.1664.
[24] K. F. Irnanda, D. Hartama, and A. P. Windarto, “Analisa Klasifikasi C4.5 Terhadap Faktor Penyebab Menurunnya Prestasi Belajar Mahasiswa Pada Masa Pandemi,” J. Media Inform. Budidarma, vol. 5, no. 1, p. 327, 2021, doi:
10.30865/mib.v5i1.2763.