51 BAB III PEMBAHASAN
Bab III merupakan pembahasan yang meliputi proses penelitian yaitu arsitektur, prosedur, dan hasil model Radial Basis Function Neural Network untuk klasifikasi stadium kanker payudara, serta hasil dan ketepatan hasil klasifikasinya. A. Arsitektur dan Model Radial Basis Function Neural Network (RBFNN)
untuk Klasifikasi Stadium Kanker Payudara
Radial Basis Function Neural Network (RBFNN) adalah jaringan feed-forward dengan tiga lapisan, sebuah lapisan input dengan i neuron, sebuah lapisan
tersembunyi dengan j neuron, dan lapisan output dengan satu atau beberapa
neuron (Qasem et al, 2013). Kinerja RBFNN tergantung pada pilihan yang tepat
tiga parameter penting (pusat cluster, jarak dan bobot). Nilai parameter ini umumnya diketahui dan dapat ditemukan selama proses pembelajaran jaringan (Pislaru & Shebani, 2014).
1. Arsitektur Radial Basis Function Neural Network
Dalam RBFNN, variabel input masing-masing ditetapkan pada neuron dalam lapisan input dan masuk secara langsung ke lapisan tersembunyi tanpa bobot (Balasubramanie et al, 2009). Hal inilah yang membedakan RBFNN dengan model neural network yang lain. Pada lapisan tersembunyi RBFNN dilakukan transformasi nonlinear terhadap data dari lapisan input menggunakan fungsi basis radial sebelum diproses secara linear pada lapisan
output (Wei et al, 2011:65). Arsitektur Radial Basis Function Neural Network
52
Gambar 3.1 Arsitektur Radial Basis Function
Pada Gambar 3.1, ( merupakan neuron pada lapisan
input, ( merupakan neuron pada lapisan tersembunyi, dan
( merupakan neuron pada lapisan output. Bobot antara lapisan tersembunyi dan lapisan output disimbolkan dengan . Dalam arsitektur RBFNN juga ditambahkan sebuah neuron bias pada lapisan tersembunyi. Bias tersebut berfungsi untuk membantu neural network dalam mengolah informasi dengan lebih baik.
Lapisan input Lapisan tersembunyi Lapisan output
53
2. Model Radial Basis Function Neural Network
Pada RBFNN, lapisan tersembunyi menghitung jarak antara pusat cluster dan vektor input, kemudian dengan fungsi aktivasi ( menuju lapisan
output (Pislaru & Shebani, 2014). Beberapa fungsi aktivasi dalam RBFNN
adalah sebagai berikut (Andrew, 2002:63) : a. Fungsi Gaussian
( ( ( ) (3.1)
b. Fungsi Multikuadratik
( √( (3.2)
c. Fungsi Invers Multikuadratik
( √( (3.3)
d. Fungsi Cauchy
( (( ) (3.4)
dengan,
jarak pada neuron tersembunyi nilai input variabel
nilai pusat pada neuron tersembunyi ( fungsi aktivasi neuron tersembunyi
54
Output yang dihasilkan dari model RBFNN merupakan kombinasi linear dari bobot dengan fungsi aktivasi ( dan bobot bias . Vektor
output dirumuskan sebagai berikut (Ali & Dale, 2003):
∑ ( (3.5) dengan, ( ( ∑ ( ) dimana,
banyak neuron tersembunyi
bobot dari neuron lapisan tersembunyi ke-j menuju neuron output ke-s bobot bias menuju neuron output ke-s
( fungsi aktivasi neuron tersembunyi ke – j merupakan vektor input
3. Algoritma Pembelajaran Radial Basis Function Neural Network
Proses pembelajaran dalam RBFNN sedikit berbeda dengan proses pembelajaran pada model neural network lainnya. RBFNN model ini melakukan pembelajaran secara hybrid, yaitu menggabungkan antara pembelajaran terawasi (supervised learning) dan pembelajaran tak terawasi
55
(unsupervised learning) (Wiharto dkk, 2013). Metode pembelajaran tidak terawasi (unsupervised learning) digunakan pada proses dari lapisan input menuju lapisan tersembunyi dan metode pembelajaran terawasi (supervised
learning) digunakan pada proses yang terjadi dari lapisan tersembunyi menuju
lapisan output (Chen et al, 2013).
Algoritma pembelajaran RBFNN terbagi menjadi tiga bagian (Andrew, 2002:70), yaitu menentukan :
a. Pusat dan jarak dari setiap fungsi basis. Pada penelitian ini, pusat dan jarak dari setiap fungsi basis dicari menggunakan metode K-Means
clustering dan Fuzzy C-Means clustering, yang selanjutnya akan
dibandingkan hasil klasifikasinya. Jarak yang digunakan adalah jarak
Euclide karena sederhana untuk menghitung dan lebih dapat diandalkan.
1) K-Means clustering
K-Means merupakan algoritma untuk mengklasifikasikan atau mengelompokkan objek/data berdasarkan unsur/fitur ke sejumlah kelompok/cluster, dengan adalah bilangan bulat positif (Teknomo, 2015). Sehingga, data dikelompokkan ke dalam kelompok atau cluster yang memiliki karakteristik yang sama.
Contoh penggunaan metode K-Means clustering :
Misalkan akan diukur dua variabel dan untuk masing-masing empat item A, B, C, dan D. Data yang diberikan dalam Tabel 3.1:
56
Tabel 3.1. Data Pengamatan
Item Pengamatan A B C D 5 -1 1 -3 3 1 -2 -2
Data pada Tabel 3.1 dikelompokkan menjadi 2 cluster/kelompok (k = 2). Untuk mengimplementasikan metode K-Means dengan dua
cluster, pertama partisi item menjadi 2 cluster (AB) dan (CD), lalu
hitung koordinat pusat cluster (rata-rata cluster), seperti pada Tabel 3.2:
Tabel 3.2. Koordinat Pusat Cluster partisi pertama
Cluster Koordinat Pusat
̅ ̅ AB CD ( ( (
Selanjutnya hitung jarak Euclide untuk masing-masing item dari pusat
cluster dan menempatkan kembali masing-masing item ke cluster
terdekat. Jika sebuah item berpindah dari konfigurasi awal, pusat
cluster (rataan) harus dihitung kembali. Untuk koordinat ke- ,
, pusat cluster dapat dihitung kembali dengan cara : ̅ ̅
57 ̅ ̅
jika item ke- dihilangkan dari cluster
dengan adalah jumlah item pada cluster sebelumnya. Misal, item A dengan koordinat (5,3) dipindahkan ke dalam cluster (CD). Cluster baru B dan (ACD) dengan pusat terbaru didapat sebagai berikut:
Cluster (B) : ̅ (
̅ (
Cluster (ACD): ̅ (
̅ (
Untuk perhitungan jarak Euclide didapatkan: ( ( ) √( ( ( ( ) √( ( 7,810
Karena jarak A dengan (AB) lebih dekat, sehingga A tetap pada
cluster (AB)
( ( ) √( ( ( ( ) √( (
Karena jarak B dengan (CD) lebih dekat, sehingga B berpindah ke
cluster (CD).
( ( ) √( ( ( ( ) √( (
Karena jarak C dengan (CD) lebih dekat, sehingga C tetap pada
58
( ( ) √( ( ( ( ) √( (
Karena jarak D dengan (CD) lebih dekat, sehingga D tetap pada
cluster (CD).
Berdasarkan pengelompokan kembali dengan jarak minimum seperti diatas, didapatkan cluster baru yang terbentuk yaitu (A) dan (BCD) dengan nilai pusat baru:
Tabel 3.3. Koordinat Pusat Cluster Partisi Kedua
Cluster Koordinat Pusat
̅ ̅ A BCD ( ( ( ( ( (
Pusat cluster baru yang terbentuk adalah A (5,3) dan (BCD) (-1,-1). Selanjutnya, perhitungan jarak Euclide dan pengelompokan dilakukan kembali hingga didapatkan nilai pusat yang sama dengan sebelumnya (stabil). Pada contoh soal ini, perhitungan jarak Euclide dan pengelompokan kembali dilakukan dan didapatkan nilai pusat yang sama yaitu (5, 3) dan (-1,-1) pada cluster (A) dan (BCD). Kemudian, mencari jarak maksimum masing – masing item terhadap cluster masing – masing.
( ( ) √( ( ( ( ) √( (
59
( ( ) √( ( ( ( ) √( (
Berdasarkan perhitungan diatas, didapatkan jarak maksimum masing-masing cluster yaitu 0 untuk A dan untuk (BCD) dengan koordinat pusat (5, 3) dan (-1,-1).
2) Fuzzy C-Means Clustering
Fuzzy C-Means (FCM) merupakan salah satu algoritma fuzzy
clustering. Fuzzy C-Means merupakan suatu teknik pengelompokan
data yang keberadaan setiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan (Sri Kusumadewi, 2002: 159).
Contoh penggunaan metode Fuzzy C-Means clustering :
Untuk contoh yang sama dengan metode Fuzzy C-Means clustering, Misalkan akan diukur dua variabel dan untuk masing-masing empat item A, B, C, dan D. Data yang diberikan dalam Tabel 3.1. Data dikelompokkan menjadi 2 cluster/kelompok (k = 2), dengan pangkat atau bobot w=2, Maksimal iterasi= 100, Faktor Koreksi= 10-5 (error paling kecil), Fungsi Objektif awal (t=0), J(0)=0.
Matriks partisi awal yang terbentuk secara random dan memenuhi fungsi constraint. U=initfcm(4,2) ( =[ ]
60
Selanjutnya menghitung pusat-pusat cluster yang terbentuk berdasarkan matriks partisi awal.
Tabel 3.4. Pusat cluster pertama yang dihasilkan pada iterasi ke-1
0,1845 5 3 0,03404 0,170201 0,102121 0,1603 -1 1 0,025696 -0,0257 0,025696 0,3215 1 -2 0,103362 0,103362 -0,20672 0,3340 -3 -2 0,111556 -0,33467 -0,22311 0,274655 -0,0868 -0,30202 ∑ ( ∑ ( -0,31604 -1,09963
Tabel 3.5. Pusat cluster kedua yang dihasilkan pada iterasi ke-1
0,1057 5 3 0,011172 0,055862 0,033517 0,2769 -1 1 0,076674 -0,07667 0,076674 0,2520 1 -2 0,063504 0,063504 -0,12701 0,3655 -3 -2 0,13359 -0,40077 -0,26718 0,28494 -0,35808 -0,284 ∑ ( ∑ ( -1,25668 -0,99669
Sehingga pusat cluster yang terbentuk adalah:
61
Fungsi Objektif yang dihasilkan adalah
( ∑ ∑ ∑ ( ) ( ) Detail perhitungan dapat dilihat pada Tabel 3.6.
Tabel 3.6. Perhitungan Fungsi Objektif pada iterasi ke-1
∑( ∑( ( ( 0,03404 0,011172 45,06724 55,11954 1,5341 0,615823 2,149923 0,025696 0,076674 4,876272 4,052657 0,125301 0,310732 0,436033 0,103362 0,063504 2,542607 6,099219 0,26281 0,387325 0,650134 0,111556 0,13359 8,014324 4,045805 0,894046 0,54048 1,434526 ( 4,670616 Karena | ( ( | | | dan maka proses dilanjutkan ke Iterasi ke-2 dengan terlebih dahulu menghitung perubahan matriks partisi menggunakan,
Tabel 3.7. Perhitungan matriks partisi pada iterasi ke-1 ( ( Total 0,022189 0,018142 0,040331 0,550168 0,449832 0,205075 0,246752 0,451826 0,453879 0,546121 0,393297 0,163955 0,557252 0,705779 0,294221 0,124777 0,24717 0,371946 0,335469 0,664531
62
Diperoleh matriks partisi yang baru sebagai berikut:
( =[ ] Iterasi Ke-2
Selanjutnya menghitung pusat-pusat cluster yang terbentuk berdasarkan matriks partisi awal.
Tabel 3.8. Pusat cluster pertama yang dihasilkan pada iterasi ke-2
0,5502 5 3 0,302685 1,513423 0,908054 0,4539 -1 1 0,206006 -0,20601 0,206006 0,7058 1 -2 0,498124 0,498124 -0,99625 0,3355 -3 -2 0,11254 -0,33762 -0,22508 1,119355 1,467921 -0,10727 ∑ ( ∑ ( 1,311399 -0,09583
Tabel 3.9. Pusat cluster kedua yang dihasilkan pada iterasi ke-2
0,4498 5 3 0,202349 1,011745 0,607047 0,5461 -1 1 0,298248 -0,29825 0,298248 0,2942 1 -2 0,086566 0,086566 -0,17313 0,6645 -3 -2 0,441601 -1,3248 -0,8832 1,028764 -0,52474 -0,15104
63
∑ (
∑ (
-0,51007 -0,14682
Sehingga pusat cluster yang terbentuk adalah:
( [ ] Fungsi Objektif yang dihasilkan adalah
( ∑ ∑ ∑ ( ) ( ) Detail perhitungan dapat dilihat pada Tabel 3.10.
Tabel 3.10. Perhitungan Fungsi Objektif pada iterasi ke-2
∑( ∑( ( ( 0,302685 0,202349 23,18993 40,2633 7,019237 8,147238 15,16647 0,206006 0,298248 6,543409 1,555221 1,347985 0,463841 1,811826 0,498124 0,086566 3,722836 5,714596 1,854433 0,49469 2,349123 0,11254 0,441601 22,21403 9,634053 2,499962 4,254406 6,754368 ( 26,08179 Karena | ( ( | | | dan maka proses dilanjutkan ke Iterasi berikutnya dengan terlebih dahulu menghitung perubahan matriks partisi menggunakan,
64
Tabel 3.11. Perhitungan matriks partisi pada iterasi ke-2 ( ( Total 0,043122 0,024837 0,067959 0,634535 0,365465 0,152826 0,642996 0,795821 0,192035 0,807965 0,268612 0,174991 0,443603 0,605524 0,394476 0,045017 0,103798 0,148815 0,3025 0,6975
Diperoleh matriks partisi yang baru sebagai berikut:
( =[ ]
Demikian seterusnya sampai terpenuhi kondisi | ( ( | atau t MaxIter. Proses pengerjaannya berhenti pada iterasi ke-4 (t=4), karena terpenuhinya salah satu syarat yaitu:
| ( ( | | | Pusat cluster yang dihasilkan pada iterasi terakhir adalah:
( * +
Berdasarkan pusat cluster tersebut, diperoleh informasi sebagai berikut:
a) Cluster yang pertama, terdiri dari objek yang memiliki rata-rata X1 sebesar dan rata-rata-rata-rata X2 sebesar b) Cluster yang pertama, terdiri dari objek yang memiliki
65
Matriks partisi U pada iterasi terakhir:
( =[ ]
Diperoleh informasi mengenai kecenderungan dari masing-masing objek untuk masuk ke cluster tertentu. Setiap objek memiliki derajat keanggotaan tertentu pada setiap cluster. Derajat keanggotaan terbesar pada suatu cluster menunjukkan bahwa objek itu cenderung menjadi anggota dari cluster tersebut. Secara detail, dapat dilihat pada Tabel 3.12:
Tabel 3.12. Derajat Keanggotaan Setiap Objek pada Iterasi Terakhir
Objek
Variabel
Derajat Keanggotaan pada Iterasi Terakhir
Kecenderungan Data Masuk pada Cluster A 5 3 0,755252 0,244748 * B -1 1 0,081881 0,918119 * C 1 -2 0,510735 0,489265 * D -3 -2 0,199382 0,800618 *
Hasil akhirnya adalah terbentuknya 2 buah cluster, dimana untuk
cluster pertama beranggotakan objek A dan C, sementara objek B dan
66
Selanjutnya, perhitungan jarak Euclide dengan menggunakan Persamaan (2.27). √( ( ( √( ( ( √( ( ( √( ( ( √( ( ( √( ( ( √( ( ( √( ( (
Berdasarkan perhitungan diatas, didapatkan jarak maksimum masing-masing cluster yaitu untuk (AC) dan untuk (BD).
b. Jumlah neuron pada lapisan tersembunyi sama dengan jumlah fungsi basis.
c. Bobot lapisan output jaringan optimum. Pada penelitian ini, bobot lapisan
output jaringan optimum ditentukan dengan menggunakan metode global ridge regression. Metode global ridge regression mengestimasi bobot
dengan menambahkan parameter regulasi tunggal yang bernilai positif pada sum square error (SSE). Estimasi bobot terbaik didapatkan dari hasil akhir dengan SSE terkecil. SSE terkecil atau jumlah kuadrat kesalahan minimal didapatkan dengan metode kuadrat terkecil (least
67
square). Penerapannya pada analisis regresi, metode kuadrat terkecil
bertujuan untuk memudahkan menyelesaikan masalah optimasi. Model linear yang digunakan adalah ∑ ( , input data {( } , dan target klasifikasi variabel output {( ̂ } ,
∑ ( ̂ (3.6)
dengan,
̂ target klasifikasi variabel output ke nilai variabel output ke
banyak pengamatan
Untuk menentukan nilai optimum bobot ( , diturunkan fungsi SSE menjadi: ∑ ( ̂ (3.7)
Berdasarkan Persamaan (3.5) didapatkan:
( (3.8)
Selanjutnya Persamaan (3.8) disubstitusikan ke Persamaan (3.7) dengan hasil sama dengan nol,
∑ ( ̂ ( (3.9)
∑ ( ∑ ̂ ( (3.10)
68
Karena maka diperoleh Persamaan seperti Persamaan (3.11) untuk menentukan bobot. Untuk memperoleh penyelesaian tunggal, Persamaan (3.11) ditulis dengan notasi vektor menjadi:
̂ (3.12) dengan [ ( ( ( ] [ ] ̂ [ ̂ ̂ ̂ ]
Karena terdapat Persamaan untuk setiap nilai , maka Persamaan (3.12) dapat ditulis sebagai:
[ ] [ ̂ ̂ ̂] ̂ (3.13) dengan [ ( ( ( ( ( ( ( ( ( ]
Matriks merupakan matriks desain. Komponen ke dari saat bobot pada nilai optimum adalah (Orr, 1996:43):
∑ ( ̅ ̂ (3.14)
69 ̅ [ ( ( ( ]
Sehingga diperoleh persamaan sebagai berikut:
[ ] [ ̂ ̂ ̂] ̂ (3.15)
Persamaan (3.15) disubstitusikan ke Persamaan (3.13) menjadi
̂ ̂ (3.16)
̂ ( ̂ (3.17)
̂ ̂ (3.18)
̂ merupakan nilai bobot dan A adalah matriks perkalian dengan Selanjutnya ditambahkan parameter regulasi yang bernilai positif pada SSE sehingga diperoleh (Orr, 1996:24).
∑ ( ̂ ∑ (3.19)
dengan
̂ target klasifikasi variabel output ke nilai variabel output ke
banyak data pengamatan parameter regulasi
bobot dari neuron lapisan tersembunyi ke-j menuju neuron output ke-s
70
Bobot optimum diperoleh dengan mendifferensialkan Persamaan (3.19) dengan variabel bebas yang ada, kemudian ditentukan penyelesaiannya untuk differensial sama dengan nol.
∑ ( ̂ (3.20) ∑ ∑ ̂ (3.21) ∑ ∑ ̂ (3.22) ∑ ∑ ̂ (3.23)
Berdasarkan Persamaan (3.8), Persamaan (3.23) menjadi:
∑ ( ∑ ̂ ( (3.24)
Dapat dinotasikan sebagai:
̂ ̂ (3.25)
Karena terdapat Persamaan untuk setiap nilai , maka Persamaan (3.25) dapat ditulis sebagai:
[ ] [ ̂ ̂ ̂ ] [ ̂ ̂ ̂] ̂ ̂ (3.26) dengan,
71 parameter regulasi
̂ vektor bobot klasifikasi ̂ vektor target klasifikasi
matriks desain dengan { } sebagai kolom
[ ( ( ( ( ( ( ( ( ( ]
perkalian matriks desain dan vektor bobot
[ ] [ ̂ ̂ ̂] ̂
Berdasarkan definisi-definisi yang telah disebutkan, diperoleh persamaan sebagai berikut (Orr, 1996:21):
̂ ̂ (3.27)
̂ ̂ ( ̂
Dimana adalah matriks identitas berukuran . Jadi diperoleh persamaan normal untuk bobot pengklasifikasian adalah sebagai berikut:
72
Pada tugas akhir ini, Kriteria pemilihan model digunakan yaitu kriteria Generalised Cross-Validation (GCV) untuk menghitung prediksi
error.
B. Prosedur Pemodelan Radial Basis Function Neural Network (RBFNN) untuk Klasifikasi Stadium Kanker Payudara
Langkah-langkah dalam proses pemodelan RBFNN meliputi
preprocessing citra, ekstraksi citra, pendifinisian variabel input dan target,
pembagian input, normalisasi data, dan algoritma pembelajaran. 1. Preprocessing Citra
Preprocessing citra adalah proses pengolahan citra sebelum ekstraksi citra
dilakukan. Preprocessing bertujuan untuk menghilangkan noise, memperjelas fitur, memperkecil atau memperbesar ukuran data, dan mengkonversi data asli agar diperoleh data sesuai kebutuhan. Preprocessing citra dapat berupa mengubah citra RGB menjadi grayscale, binerisasi citra, cropping citra, resize citra, atau penghilangan background citra.
2. Ekstraksi Citra
Setelah melakukan pemotongan citra dan penghilangan background, langkah selanjutnya adalah melakukan ekstraksi citra. Proses ekstraksi merupakan salah satu karakteristik penting yang digunakan dalam mengidentifikasi objek atau pola citra, karena metode ekstraksi citra yang tepat akan mampu memberikan informasi yang detail tentang kelas suatu citra. Proses ekstraksi citra dapat dilakukan dengan Gray Level Coocurrence Matrix (GLCM).
73 3. Pendefinisian Variabel Input dan Target
Pemodelan RBFNN diawali dengan menentukan variabel input dan target yang akan digunakan sebagai input dan target jaringan. Variabel input berasal dari fitur-fitur hasil ekstraksi citra, sedangkan target jaringan berupa klasifikasi atau diagnosa kondisi dari masing-masing citra. Variabel output adalah target jaringan yang diperoleh dari proses pembelajaran RBFNN. Banyaknya variabel
input akan menentukan banyaknya neuron pada lapisan input dan banyaknya
variabel output akan menentukan banyaknya neuron pada lapisan output. 4. Pembagian Data Input
Data input dibagi menjadi dua, yaitu data pembelajaran (training) dan data pengujian (testing). Data training digunakan untuk membangun sebuah model dan mendapatkan bobot yang sesuai. Sedangkan data testing digunakan untuk mengetahui tingkat keakuratan hasil dengan nilai sebenarnya. Terdapat beberapa perbandingan dalam pembagian data menjadi data training maupun
testing yang sering digunakan, antara lain (Deb Rajib et al, 2015):
a. 60% untuk data training dan 40% untuk data testing. b. 75% untuk data training dan 25% untuk data testing. c. 80% untuk data training dan 20% untuk data testing.
Pada tugas akhir ini, menggunakan pembagian data 80% untuk data training dan 20% untuk data testing.
5. Normalisasi Data
Normalisasi adalah penskalaan terhadap data input ke dalam suatu range tertentu sehingga data input menjadi lebih merata (seragam). Hal ini dilakukan
74
agar data input sesuai dengan range dari fungsi aktivasi yang digunakan dalam jaringan. Data input dinormalisasi dengan cara membawa data ke bentuk normal baku yaitu dengan mean = 0 dan standar deviasi =1. Berikut adalah rumus normalisasi data.
̅
(3.29) dengan,
data ke- ; ̅ rata-rata data; ̅ ∑
standar deviasi data; √ ∑ ( ̅
banyak data
Pada MATLAB R2013a normalisasi data dapat dicari dengan fungsi prestd. Syntax yang digunakan adalah sebagai berikut:
[Pn,meanp,stdp,Tn,meant,stdt]=prestd(P,T) (3.30) dengan,
P = matriks input, T = matriks target,
Pn = matriks input yang ternomalisasi
meanp = mean pada matriks input sebelum dinormalisasi (P),
stdp = standar deviasi pada matriks input sebelum dinormalisasi (P), Tn = matriks target yang ternormalisasi,
meant = mean pada matriks target sebelum dinormalisasi (T),
75
6. Pembelajaran Radial Basis Function Neural Network
Seperti yang telah dijelaskan sebelumnya, pembelajaran RBFNN terbagi menjadi 3 bagian. Pertama, menentukan pusat dan jarak dari setiap fungsi basis menggunakan metode K-Means clustering dan Fuzzy C-Means clustering sebagai tolok ukur perbedaan klasifikasi yang dihasilkan. Penentuan pusat dan jarak setiap fungsi basis dengan metode K-Means clustering dilakukan menggunakan aplikasi MINITAB, sedangkan pada metode Fuzzy C-Means
clustering dilakukan menggunakan fungsi pada MATLAB R2013a.
Bagian kedua dalam pembelajaran RBFNN adalah menentukan jumlah fungsi basis (neuron pada lapisan tersembunyi). Jumlah neuron pada lapisan tersembunyi sesuai dengan jumlah cluster yang didapat dari metode K-Means
clustering dan Fuzzy C-Means clustering. Selanjutnya dalam metode RBFNN
dilakukan aktivasi fungsi basis pada lapisan tersembunyi. Dalam tugas akhir ini, aktivasi fungsi basis dilakukan dengan MATLAB R2013a dengan program
rbfDesign. Program lengkap untuk rbfDesign dilampirkan pada Lampiran 8.
Berikut adalah sebagian fungsi pada program rbfDesign.
function H = rbfDesign (X, C, R, option) (3.31) dengan,
H = matriks desain RBFNN X = matriks input
C = matriks pusat cluster
R = matriks jarak input terhadap pusat cluster Option = tipe aktivasi fungsi basis
76
Tipe aktivasi yang digunakan pada tugas akhir ini adalah fungsi Gaussian dengan ‘b’yaitu neuron bias yang ditambahkan pada jaringan sehingga matriks akan mendapatkan satu kolom tambahan.
Selanjutnya dalam pembelajaran RBFNN adalah menentukan bobot pada lapisan tersembunyi ke lapisan output. Metode global ridge regression dapat digunakan dalam mencari bobot optimum tersebut. Dalam tugas akhir ini, dalam mendapatkan bobot optimum, metode global ridge regression digunakan melalui MATLAB R2013a yang secara lengkap dilampirkan pada Lampiran (9). Berikut adalah sebagian fungsi pada program globalRidge.
Lamb = globalRidge(H, T, 0.05) (3.32) dengan,
Lamb = parameter regulasi H = matriks desain RBFNN T = target input training
0.05 = nilai estimasi parameter regulasi
Pada tugas akhir ini kriteria yang digunakan dalam program
globalRidge adalah kriteria GCV (Generalised Cross-Validation)
7. Menentukan Jaringan Optimum
Jaringan optimum pada RBFNN didapatkan dengan metode trial and error. Metode ini dilakukan dengan cara membandingkan hasil klasifikasi yang didapatkan menggunakan beberapa cluster yang berbeda. Model RBFNN terbaik adalah model dengan metode cluster dengan hasil akurasi tertinggi baik pada data trainng maupun testing.
77 Ya
Tidak
8. Klasifikasi
Setelah jaringan optimum didapatkan, selanjutnya adalah pengklasifikasian. Dari hasil output yang didapatkan, masing-masing pengamatan dapat diklasifikasikan sesuai target stadium kanker masing-masing.
Berdasarkan prosedur pemodelan RBFNN untuk klasifikasi stadium kanker payudara yang telah dijelaskan sebelumnya, dapat dibuat diagram alir prosedur pemodelan RBFNN dari input hasil ekstraksi hingga didapatkan hasil klasifikasi.
Gambar 3.2. Diagram Alir Prosedur Pemodelan RBFNN
Selesai
Preprocessing
Citra
mammogram
Perhitungan Fitur Ekstraksi Citra dengan
GLCM
Menentukan Input data dan Target
Pembagian Data
Training dan Testing
Normalisasi Data Training dan Testing Pembelajaran RBFNN Menentukan Jaringan Optimum Jaringan Optimum Hasil Klasifikasi Kanker Payudara Model RBFNN Terbaik Mulai
78
C. Hasil Model Radial Basis Function Neural Network untuk Klasifikasi Kanker Payudara
Langkah-langkah klasifikasi stadium kanker payudara menggunakan model Radial Basis Function Neural Network adalah sebagai berikut :
1. Preprocessing Citra
Preprocessing dilakukan pada citra mammogram yang diperoleh dari
database Mammographic Image Analysis Society (MIAS) melalui website http://peipa.essex.ac.uk/pix/mias yang masing-masingnya berukuran 1024x1024 pixel dengan format Portable Gray Map (pgm). Pada tugas akhir ini, data yang digunakan sebanyak 120 citra yang terdiri dari 40 citra
mammogram payudara normal, 40 citra mammogram payudara tumor dan 40
citra mammogram payudara kanker.
Preprocessing yang dilakukan berupa cropping (pemotongan) citra dan
penghilangan background (latar) hitam. Citra hasil proses pemotongan dan penghilangan background dapat dilihat pada Lampiran 1 dan 2. Pengolahan citra mammogram ini dilakukan dengan bantuan perangkat lunak ACDSee Pro 2 dan Corel PHOTO-PAINT X4 yang umum digunakan untuk mengolah citra. Berikut adalah langkah-langkah preprocessing citra.
a. Proses Pemotongan Citra
Format penyimpanan pada citra yang diperoleh dari MIAS berupa PGM membutuhkan program yang dapat membuka file tersebut. Tidak hanya mampu membuka file PGM, Program ACDSee Pro 2 mampu mengubah file ke dalam format yang dapat dibuka oleh program Corel
79
PHOTO-PAINT X4 serta tidak mengubah informasi pada citra. Selanjutnya, proses pemotongan dan penghilangan background dapat dilakukan menggunakan program Corel PHOTO-PAINT X4. Proses pemotongan citra dilakukan untuk memperoleh citra payudara yang sesuai. Berikut adalah proses pemotongan pada citra.
(a) (b)
Gambar 3.3. Pemotongan citra mammogram payudara; (a) mdb004 sebelum dipotong, (b) mdb004 setelah dipotong
Dalam proses pemotongan, diusahan citra tetap berbentuk bujur sangkar sesuai dengan bentuk awal citra. Sehingga ukuran piksel dapat dikembalikan seperti semula.
b. Proses Penghilangan Background
Citra mammogram hasil pemotongan masih memiliki background berwarna hitam yang dianggap mempengaruhi hasil klasifikasi. Oleh karena itu, program Corel PHOTO-PAINT X4 diperlukan untuk membantu proses menghilangkan background hitam sehingga
80
pada proses ekstraksi citra. Gambar 3.3 menunjukkan proses menghilangkan background citra mammogram payudara.
(a) (b)
Gambar 3.4. Proses menghilangkan background citra mammogram payudara;(a) mdb004 dengan background hitam, (b)
mdb004 dengan background putih
Setelah proses menghilangkan background dilakukan, citra disimpan dengan format PNG dan pixel citra dikembalikan menjadi 1024x1024 agar sesuai dengan kualitas awal citra mammogram payudara.
2. Ekstraksi Citra
Setelah melakukan pemotongan citra dan penghilangan background, langkah selanjutnya adalah melakukan ekstraksi citra. Proses ekstraksi merupakan salah satu karakteristik penting yang digunakan dalam mengidentifikasi objek atau pola citra, karena metode ekstraksi citra yang tepat akan mampu memberikan informasi yang detail tentang kelas suatu citra. Proses ekstraksi citra dapat dilakukan dengan Gray Level Coocurrence Matrix (GLCM). Parameter-parameter hasil ekstraksi citra yang digunakan dalam
81
tugas akhir ini adalah 14 fitur yang nantinya digunakan sebagai variabel input dalam proses klasfikasi. Fitur tersebut yaitu energi, kontras, korelasi, sum of
squares, inverse difference moment, sum average, sum variance, sum entropy,
entropi, difference variance, difference entropy, probabilitas maksimum, homogenitas dan dismilarity.
Proses ekstraksi citra untuk mendapatkan parameter-parameter tersebut dapat dilakukan dengan bantuan MATLAB R2013a. Script M-file MATLAB R2013a untuk ekstraksi citra ini dilampirkan pada Lampiran 3. Berikut adalah contoh hasil ekstraksi citra untuk data mammogram mdb004.png yang ditunjukkan pada Tabel 3.13.
Tabel 3.13. Hasil Ekstraksi Citra mdb004.png
No Nama File mdb004.png
1 Energi 0,219667
2 Kontras 0,154626
3 Korelasi 0,968967
4 Sum of squares 44,661061
5 Inverse difference moment 0,997965
6 Sum average 13,028064 7 Sum variance 135,737322 8 Sum entropy 1,806137 9 Entropi 1,872276 10 Difference variance 0,154626 11 Difference entropy 0,259464 12 Probabilitas maksimum 0,355193 13 Homogenitas 0,967130 14 Dissimilarity 0,078339
82 3. Pendefinisian Variabel Input dan Target
Pendefinisian variabel input dan target digunakan sebagai input dan target jaringan. Input berasal dari 14 parameter hasil dari ekstraksi citra menggunakan Gray Level Co-occurance Matrix (GLCM) (secara lengkap dapat dilihat pada Lampiran 4 dan 5), sehingga banyaknya neuron pada lapisan
input adalah 14 neuron.
Variabel target berasal dari keterangan diagnosa masing-masing citra foto yaitu foto mammogram normal, foto mammogram tumor (benign), dan foto mammogram kanker (malignant). Target dan output berupa vektor yang mewakili masing-masing stadium. Pola target yang digunakan yaitu sebagai berikut.
Tabel 3.14. Pola target vektor klasifikasi stadium kanker payudara
No. Stadium Kanker Target Vektor
1. Normal 0 0
2. Tumor (Benign) 1 0 3. Kanker (Malignant) 0 1
Hasil klasifikasi yang didapatkan merupakan bilangan desimal. Pengklasifikasian dilakukan dengan membulatkan bilangan desimal tersebut dengan kriteria, jika maka dibulatkan menjadi 0, sedangkan apabila maka hasil perhitungan dibulatkan menjadi 1.
4. Pembagian Data Input
Langkah selanjutnya adalah pembagian data input yang berupa data
83
adalah 96 sampel data yaitu 80% dari 120 total sampel data dan data testing yang digunakan adalah 24 sampel data yaitu 20% dari 120 total sampel data. Hasil pembagian data input terlampir pada Lampiran 1 untuk data training dan Lampiran 2 untuk data testing.
5. Normalisasi Data
Sebelum pembelajaran RBFNN dilakukan, data input dinormalisasi terlebih dahulu dengan membawa data ke bentuk normal baku (mean = 0, standar deviasi = 1). Hasil normalisasi data training secara lengkap dapat dilihat pada Lampiran 6 dan untuk data testing dapat dilihat di Lampiran 7.
Tabel 3.15. Hasil Normalisasi Citra mdb004.png
No Nama File mdb004.png
1 Energi -0,5372
2 Kontras -0,2150
3 Korelasi -0,4863
4 Sum of squares 0,6020
5 Inverse difference moment 0,2002
6 Sum average 0,7233 7 Sum variance 0,4228 8 Sum entropy 0,4145 9 Entropi 0,4128 10 Difference variance -0,2150 11 Difference entropy -0,2572 12 Probabilitas maksimum -0,4573 13 Homogenitas 0,3383 14 Dissimilarity -0,2500
84
6. Pembelajaran Radial Basis Function Neural Network
Data training hasil normalisasi kemudian digunakan dalam proses
clustering. Proses clustering yang digunakan adalah metode K-Means clustering dan Fuzzy C-Means clustering yang akan dibandingkan hasil
klasifikasinya pada akhir proses RBFNN. Proses K-Means clustering dilakukan dengan aplikasi MINITAB sehingga didapatkan pusat masing-masing cluster dan jarak yang digunakan dalam proses RBFNN sedangkan dalam Fuzzy C-Means clustering pusat masing-masing cluster didapatkan dengan MATLAB R2013a dan jaraknya didapatkan dengan Persamaan (2.23). Tabel 3.16 merupakan hasil jarak dan pusat clustering masing-masing metode.
Tabel 3.16. Hasil Jarak dan Pusat Cluster
Pusat Cluster
K-Means cluster Jarak
Pusat Cluster Fuzzy C-Means cluster Jarak Cluster 1 0,0023 0,0317 1,83 -0,8775 0,6771 11,43 Cluster 2 -1,2647 -0,5881 2,08 -0,1964 1,2027 10,01 Cluster 3 2,1281 -2,1325 0 -0,7740 -0,0730 10,73 Cluster 4 -0,8796 -0,0029 2,58 1,9831 -1,5884 13,20 Cluster 5 -0,4268 1,2849 2,28 0,3914 -0,3279 8,75 Cluster 6 -0,2858 1,6087 3,37 0,4186 -0,4862 8,94 Cluster 7 0,3076 -0,5824 3,15 -0,9842 1,1444 12,37 Cluster 8 -1,1144 1,0729 2,88 -0,2823 -0,2353 8,85
85 Pusat Cluster K-Means cluster Jarak Pusat Cluster Fuzzy C-Means cluster Jarak Cluster 9 -0,445 0,1719 3,16 -0,3150 0,3963 9,59 Cluster 10 0,4407 -0,8225 2,08 1,0808 -1,3947 11,50 Cluster 11 1,8145 -1,2535 3,50 -0,1762 0,0665 8,55
Hasil jarak dan pusat cluster secara lengkap terlampir pada Lampiran 11 untuk metode K-Means clustering dan Lampiran 12 untuk metode Fuzzy C-Means
clustering.
Setelah masing-masing pusat cluster dan jaraknya didapatkan, selanjutnya dilakukan proses RBFNN dengan menggunakan program
rbfDesign dan globalRidge. Proses RBFNN ini dilakukan dengan MATLAB
R2013a.
7. Menentukan Jaringan Optimum
Proses RBFNN selanjutnya adalah pengoptimalan jaringan dan pengoptimalan bobot menggunakan Persamaan (3.28). Jaringan optimum didapatkan dengan menentukan neuron tersembunyi terlebih dahulu. banyak
neuron tersembunyi yang dapat menghasilkan jaringan optimum adalah neuron
yang dapat menghasilkan akurasi terbaik. Dengan menggunakan metode trial
and error, beberapa cluster dicoba pada program MATLAB R2013a. Hasil
86
Fuzzy C-Means clustering yang dicoba dalam MATLAB R2013a adalah sebagai berikut.
Tabel 3.17. Persentase Akurasi Data Training dan Data Testing
Cluster
K-Means cluster Fuzzy C-Means cluster Akurasi Training (%) Akurasi Testing (%) Akurasi Training (%) Akurasi Testing (%) 3 41,67 50 43,75 54,17 4 53,13 54,17 48,96 54,17 5 53,13 62,5 48,96 58,33 6 55,21 54,17 58,33 62,5 7 54,17 54,17 57,29 58,33 8 63,54 70,83 63,54 62,5 9 71,86 75 62,5 58,33 10 79,17 75 72,92 66,67 11* 80,21 79,17 75 75 12 80,21 79,17 61,46 58,13 13 78,13 75 70,83 66,67 14 33,33 33,33 64,58 54,17 15* 78,13 79,17 75 79,17 16* 79,17 75 77,08 75 17 77,08 70,83 76,04 75 20 76,04 66,67 77,08 75 22 69,79 66,67 77,08 70,83
Keterangan: *) Model Terbaik
Dari cluster yang digunakan pada Tabel 3.17 dapat dilihat bahwa nilai akurasi data training dan testing berpola tidak beraturan, namun pada K-Means
87
seperti pada K-Means cluster, pada Fuzzy C-Means cluster semakin banyak
cluster semakin menurun nilai akurasinya, meskipun penurunan akurasi tidak
terlalu signifikan.
Pada K-Means cluster nilai akurasi data training dan testing terbaik didapatkan dengan cluster sebanyak 11, sehingga jaringan dengan banyak
cluster 11 merupakan jaringan yang menghasilkan akurasi optimum untuk
metode K-Means clustering.
Pada Fuzzy C-Means cluster nilai akurasi data training terbaik didapatkan dengan cluster sebanyak 16, 20, dan 22, namun pada nilai akurasi
testing terbaik didapat dengan cluster 15 dengan nilai 79,17%, berikutnya cluster 16, 17, dan 20 dengan nilai 75%. Akan tetapi, karena data training
digunakan untuk membangun sebuah model dan mendapatkan bobot yang sesuai, sedangkan data testing digunakan hanya untuk mengetahui tingkat keakuratan hasil dengan nilai sebenarnya maka cluster 16 dengan nilai akurasi
training 77,08% dan nilai akurasi testing 75% merupakan jaringan yang
menghasilkan akurasi optimum untuk metode Fuzzy C-Means clustering. Secara keseluruhan penggunaan K-Means clustering menghasilkan nilai akurasi lebih baik dibandingkan Fuzzy C-Means clustering. Jaringan dengan 11 cluster dengan metode K-Means clustering menghasilkan nilai akurasi yang paling baik yaitu 80,21% untuk data training dan 79,17% untuk data testing. Oleh karena itu, jaringan dengan banyak cluster 11 dipilih sebagai jaringan yang menghasilkan akurasi optimum. Nilai pusat dan jarak yang terlampir pada
88
Lampiran 11 untuk K-Means clustering dan Lampiran 12 untuk Fuzzy C-Means clustering.
Dengan demikian model RBFNN terbaik untuk klasifikasi stadium kanker payudara mempunyai arsitektur 14 neuron pada lapisan input, 11
neuron pada lapisan tersembunyi, dan 2 neuron pada lapisan output.
Fungsi aktivasi yang digunakan pada lapisan tersembunyi adalah fungsi aktivasi gaussian dan fungsi yang digunakan pada lapisan output adalah fungsi
linear atau identitas.
Arsitektur RBFNN jaringan terbaik yang digunakan untuk klasifikasi stadium kanker payudara dengan 14 neuron pada lapisan input yaitu sampai
, sampai untuk 11 neuron pada lapisan tersembunyi, dan sampai untuk 2 neuron outputnya dapat dilihat pada Gambar 3.5 berikut.
Gambar 3.5 Arsitektur RBFNN untuk klasifikasi stadium kanker payudara dengan 11 cluster
Lapisan Tersembunyi Lapisan input Lapisan output
89 D. Hasil Klasifikasi
Berdasarkan uraian diatas, didapatkan arsitektur RBFNN jaringan terbaik terdiri dari 14 neuron pada lapisan input, 11 neuron pada lapisan tersembunyi, dan 2 neuron pada lapisan output. Selanjutnya, menentukan bobot yang dihasilkan dari metode global ridge-regression pada fungsi aktivasi Gaussian serta model RBFNN yang didapatkan. Perhitungan untuk masing-masing metode
clustering sebagai berikut.
1. K-Means clustering
Bobot antara neuron tersembunyi dan neuron output dicari dengan Persamaan (3.28) yaitu,
̂ ( ̂
̂ vektor bobot klasifikasi ̂ vektor target klasifikasi
fungsi aktivasi neuron tersembunyi parameter regulasi
matriks Identitas ukuran
Berdasarkan nilai pusat, jarak, dan bobot yang dihasilkan, maka model
Radial Basis Function Neural Network (RBFNN) vektor [ adalah:
∑ ( dengan,
90 ∑ (
dengan fungsi aktivasi Gaussian, ( ( ∑ ( ) dengan, Jarak cluster: ; ; ; ; ; ; ; ; ; ; dimana Pusat cluster 1: ;
Hasil cluster secara lengkap terlampir pada Lampiran 11
Bobot :
; ; ; ; ; ; ; ; ; ; ;
91 Bobot :
; ; ; ; ; ; ; -1,070; ; ; ;
dengan bobot bias:
Contoh perhitungan fungsi Gaussian untuk data ke-2 (mdb004.png):
( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
92 ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( )) ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
93 ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( )) ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
94 ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( )) ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
95 ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( )) ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
96 ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( )) ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
97
Hasil perhitungan fungsi aktivasi Gaussian pada model RBFNN selengkapnya terlampir pada Lampiran 13.
Berdasarkan nilai hasil perhitungan fungsi aktivasi Gaussian, dilakukan perhitungan untuk menentukan hasil klasifikasi dengan Persamaan (3.5) sebagai berikut. ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( (
Hasil perhitungan klasifikasi dengan metode K-Means clustering selengkapnya terlampir pada Lampiran 15.
2. Fuzzy C-Means clustering
Bobot antara neuron tersembunyi dan neuron output dicari dengan Persamaan (3.28) yaitu,
98 ̂ vektor bobot klasifikasi
̂ vektor target klasifikasi
fungsi aktivasi neuron tersembunyi parameter regulasi
matriks Identitas ukuran
Berdasarkan nilai pusat, jarak, dan bobot yang dihasilkan, maka model
Radial Basis Function Neural Network (RBFNN) vektor [ adalah:
∑ ( dengan,
∑ (
∑ ( dengan fungsi aktivasi Gaussian,
( ( ∑ ( ) dengan Jarak cluster: ; ; ; ; ; ; ; ; ; ; dimana Pusat cluster 1:
99
Hasil cluster secara lengkap terlampir pada Lampiran 12.
Bobot :
; ; ; ; ; ; ; ; ; ; ;
dengan bobot bias: Bobot :
; ; ; ; ; ; ; ; ; ; ;
100
Contoh perhitungan fungsi Gaussian untuk data ke-2 (mdb004.png):
( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
101 ( ( (( ( ) ( ( ( ) ( ( ( ) ( ( ( ( ( ( ( ( ( ( ( ))
102 ( ( (( ( ) ( ( ( ( ( ) ( ( ) ( ( ) ( ( ( ( ( ( ( ( ( ( ( ))
103 ( ( (( ( ( ( ( ) ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
104 ( ( (( ( ( ( ( ) ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
105 ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( )) ( ( (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
106 ( ( (( ( ) ( ( ( ) ( ( ) ( ( ) ( ( ) ( ( ( ( ( ( ( ( ( ( ( ))
107 ( ( (( ( ) ( ( ( ) ( ( ) ( ( ) ( ( ) ( ( ( ( ( ( ( ( ( ( ( ))
108 ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
109 ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ))
Hasil perhitungan fungsi aktivasi Gaussian pada model RBFNN selengkapnya terlampir pada Lampiran 14
Berdasarkan nilai hasil perhitungan fungsi aktivasi Gaussian, dilakukan perhitungan untuk menentukan hasil klasifikasi dengan Persamaan (3.5) sebagai berikut. ( ( ( ( ( ( ( ( ( ( ( ( (
110 ( ( ( ( ( ( ( ( ( ( ( ( ( Hasil perhitungan klasifikasi dengan metode K-Means clusetring selengkapnya terlampir pada Lampiran 16.
Berikut hasil klasifikasi data ke-2 (mdb004.png) yang dibulatkan sesuai kriteria dari masing-masing metode.
Tabel 3.18. Pembulatan Hasil Perhitungan Klasifikasi
K-Means cluster Fuzzy C-Means cluster
Output RBFNN Output pembulatan Status Output Output RBFNN Output pembulatan Status Output 0,4454 0,1523 0 0 Normal 0,4442 0,2384 0 0 Normal
Hasil klasifikasi secara lengkap terlampir pada Lampiran 15 untuk metode K-Means clustering dan Lampiran 16 untuk metode Fuzzy C-Means
clustering. Pembulatan klasifikasi terlampir pada Lampiran 17 dan 18.
Berdasarkan pembulatan hasil klasifikasi pada Lampiran 17 dan 18 dapat dihitung ketepatan klasifikasi stadium kanker payudara dengan model RBFNN.
111 E. Ketepatan Hasil Klasifikasi
Ketepatan hasil klasifikasi dapat dihitung berdasarkan sensitivitas, spesifisitas, dan akurasi. Nilai akurasi telah diketahui melalui program MATLAB yang telah dilakukan sebelumnya, sedangkan untuk mengetahui nilai sensitivitas dan spesifisitas, ditentukan terlebih dahulu nilai performance measure yaitu True
Positive (TP), True Negative (TN), False Positive (FP), dan False Negative (FN).
Berikut adalah performance measure model RBFNN untuk data training dan
testing untuk arsitektur RBFNN
1. K-Means clustering
Tabel 3.19. Performance Measure Model RBFNN Metode K-Means
clustering Target Hasil Klasifikasi Jumlah Normal Tumor (Benign) Kanker (Malignant) Data Training Normal 30 (TN) 1 (FP) 1 (FP) 32 Tumor (Benign) 11 (FN) 21 (TP) 32 Kanker (Malignant) 5 (FN) 1 (TP) 26 (TP) 32 Jumlah 96 Data Testing Normal 6 (TN) 2 (FP) 8 Tumor (Benign) 1 (FN) 7 (TP) 8 Kanker (Malignant) 2 (FN) 6 (TP) 8 Jumlah 24
112
Berdasarkan Tabel 3.19, dapat dihitung sensitivitas dan spesifisitas hasil klasifikasi dari model RBFNN menggunakan Persamaan (2.29) dan Persamaan (2.30) sebagai berikut. a. Data Training 1) Sensitivitas = 2) Spesifisitas = b. Data Testing 1) Sensitivitas = 2) Spesifisitas =
Pada data training, tingkat sensitivitas 75% artinya untuk pasien yang memiliki kanker payudara kemungkinan model RBFNN mengklasifikasi dengan tepat adalah sebesar 75%. Spesifisitas data training 93,75% artinya untuk pasien yang tidak memiliki kanker payudara kemungkinan model RBFNN mengklasifikasi dengan tepat adalah sebesar 93,75%. Nilai akurasi pada data training 80,21% artinya hasil klasifikasi dengan model RBFNN akurat sebesar 80,21%, baik untuk pasien yang tidak memiliki kanker payudara (normal), yang memiliki kanker payudara jinak (tumor), maupun yang memiliki kanker payudara.
Pada data testing, tingkat sensitivitas 81,25% artinya untuk pasien yang memiliki kanker payudara kemungkinan model RBFNN mengklasifikasi dengan tepat adalah sebesar 81,25%. Spesifisitas data testing 75% artinya untuk pasien yang tidak memiliki kanker payudara kemungkinan model
113
RBFNN mengklasifikasi dengan tepat adalah sebesar 75%. Akurasi pada data
testing 79,17% artinya hasil klasifikasi dengan model RBFNN akurat sebesar
79,17%, baik untuk pasien yang tidak memiliki kanker payudara (normal), yang memiliki kanker payudara jinak (tumor), maupun yang memiliki kanker payudara.
2. Fuzzy C-Means clustering
Tabel 3.20. Performance Measure Model RBFNN Metode Fuzzy C-Means clustering Target Hasil Klasifikasi Jumlah Normal Tumor (Benign) Kanker (Malignant) Data Training Normal 29 (TN) 3 (FP) 32 Tumor (Benign) 12 (FN) 20 (TP) 32 Kanker (Malignant) 9 (FN) 23 (TP) 32 Jumlah 96 Data Testing Normal 6 (TN) 2 (FP) 8 Tumor (Benign) 8 (TP) 8 Kanker (Malignant) 4 (FN) 4 (TP) 8 Jumlah 24
Jumlah data seluruhnya (Training dan Testing) 120
Berdasarkan Tabel 3.20, dapat dihitung sensitivitas dan spesifisitas hasil klasifikasi dari model RBFNN menggunakan Persamaan (2.29) dan Persamaan (2.30) sebagai berikut.
114 a. Data Training 1) Sensitivitas = 2) Spesifisitas = b. Data Testing 1) Sensitivitas = 2) Spesifisitas =
Pada data training, tingkat sensitivitas artinya untuk pasien yang memiliki kanker payudara kemungkinan model RBFNN mengklasifikasi dengan tepat adalah sebesar . Spesifisitas data training artinya untuk pasien yang tidak memiliki kanker payudara kemungkinan model RBFNN mengklasifikasi dengan tepat adalah sebesar . Nilai akurasi pada data training 75% artinya hasil klasifikasi dengan model RBFNN akurat sebesar 75%, baik untuk pasien yang tidak memiliki kanker payudara (normal), yang memiliki kanker payudara jinak (tumor), maupun yang memiliki kanker payudara.
Pada data testing, tingkat sensitivitas 75% artinya untuk pasien yang memiliki kanker payudara kemungkinan model RBFNN mengklasifikasi dengan tepat adalah sebesar 75%. Spesifisitas data testing 75% artinya untuk pasien yang tidak memiliki kanker payudara kemungkinan model RBFNN mengklasifikasi dengan tepat adalah sebesar 75%. Akurasi pada data testing 75% artinya hasil klasifikasi dengan model RBFNN akurat sebesar 75%, baik
115
untuk pasien yang tidak memiliki kanker payudara (normal), yang memiliki kanker payudara jinak (tumor), maupun yang memiliki kanker payudara.
Berdasarkan hasil sensitivitas, spesifisitas, dan akurasi yang didapatkan, diketahui bahwa metode K-Means clustering dengan nilai akurasi pada data
training sebesar 80,21% dan pada data testing sebesar 79,17% lebih baik
dibandingkan Fuzzy C-Means clustering.
Metode K-Means clustering lebih baik dari Fuzzy C-Means (FCM)
clustering karena FCM clustering membutuhkan waktu dan iterasi yang lebih
lama dibanding K-Means clustering. Hal ini disebabkan terdapat perhitungan fuzzy dalam algoritma FCM clustering.