4.1 Hasil
Pada bagian ini, penulis menyajikan hasil dan pembahasan dari penelitian yang dilakukan mengenai pengaruh gain ratio terhadap kinerja dari metode k-means dengan menggunakan dataset dari UCI, yaitu ionosphere, iris, hayes-roth dan parkinson multiple sound recording.
Penelitian ini bertujuan untuk mengukur kinerja metode k-means dalam melakukan clustering terhadap data dengan cara menghitung nilai jarak terdekat terhadap setiap centroid dari kelas data.
Untuk mempermudah proses perhitungan pada penelitian ini maka digunakan bantuan dari software MATLAB® dalam melakukan proses pengujian terhadap seluruh data. Adapun output perhitungan bobot attribute untuk data set ionosphare dapat dilihat pada gambar 4.1, untuk iris dapat dilihat pada gambar 4.2, untuk hayes-roth dapat dilihat pada gambar 4.3 dan untuk parkinson multiple sound recording dapat dilihat pada gambar 4.4.
Gambar 4.1 Output Program bobot attribut dataset ionosphare
22
22
Gambar 4.2 Output Program bobot attribut dataset iris
Gambar 4.3 Output Program bobot attribut dataset hayes-roth
Gambar 4.3 Output Program bobot attribute dataset Parkinson multiple sound recording
Adapun output program dalam perhitungan akurasi dari dataset ionosphare dapat dilihat pada gambar 4.5, untuk dataset iris dapat dilihat pada gambar 4.6, untuk dataset hayes-roth dapat dilihat pada gambar 4.7, dan untuk dataset parkinson multiple sound recording dapat dilihat pada gambar 4.8.
Gambar 4.5 Output Program Akurasi Pengujian Pada Dataset ionosphere
23
23
Gambar 4.6 Output Program Akurasi Pengujian Pada Dataset iris
Gambar 4.7 Output Program Akurasi Pengujian Pada Dataset hayes-roth
Gambar 4.8 Output Program Akurasi Pengujian Pada Dataset Parkinson multiple sound recording
4.2 Pengujian
Pengujian dilakukan menggunakan dataset yang diperoleh dari UCI Machine Learning Repository diantaranya ionosphere, iris, hayes-roth dan parkinson multiple sound recording.
Pengujian inimenggunakan metode validasi hold out, dimana data dibagi kedalam 2 partisi.
Partisi pertama berjumlah 80% dari seluruh data yang akan digunakan sebagai data latih, sedangkan sisanya sebesar 20% dari seluruh data digunakan sebagai data uji.
4.2.1 Pengujian Terhadap Dataset Ionosphare
Pengujian pertama akan menggunakan dataset ionosphare dimana data ini berjumlah 351 instance memiliki 34 attribut, dan terdapat 2 kelas yaitu good condition dan bad condition
24
24
(Dua, D. dan Graff, C, Akses 2019). Adapun rincian informasi attribut dari data ionosphare dapat dilihat pada Tabel 4.1 dan rincian data dapat dilihat pada Table 4.2.
Tabel 4.1 Informasi Attribut Dataset Ionosphare No. Nama Attribut Range Nilai Type Class [good,bad] Binominal
Tabel 4.2 Rincian Data Ionosphare
No Att1 Att2 Att3 Att4 Att5 Att6 Att7 … Att34 Class
25
25
Tahapan pertama pada penelitian ini adalah membagi dataset yang digunakan menjadi 2 partisi atau biasa disebut dengan metode hold out, dimana 80% dari data digunakan sebagai data latih dan 20% sisanya digunakan sebagai data uji. Adapun rincian data latih dan data uji dapat dilihat pada tabel 4.3 dan tabel 4.4.
Tabel 4.3 Rincian Data Latih Ionosphare
No Att1 Att2 Att3 Att4 Att5 Att6 Att7 … Att34 Class
Tabel 4.4 Rincian Data Testing Ionosphare
No Att1 Att2 Att3 Att4 Att5 Att6 Att7 … Att34 Class
26
26
Setelah dilakukan proses hold out, maka tahapan selanjutnya adalah menghitung bobot attribut dari data latih dengan menggunakan gain ratio, adapun nilai bobot untuk tiap attribut didapati dengan persamaan 3.1. Adapun nilai bobot untuk setiap attribut dapat dilihat pada tabel 4.5.
Tabel 4.5 Rincian Nilai Bobot Dataset Ionosphare No. Nama Attribut Gain ratio Bobot
Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) yang nantinya digunakan sebagai patokan untuk melakukan klasifikasi pada data testing.
Tahapan pertama tentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.6.
Tabel 4.6 Centroid Awal Ionosphare
No Att1 Att2 Att3 Att4 Att5 Att6 Att7 … Att34 Class 1 1.000 0.000 1.000 0.515 0.455 0.333 0.061 … -0.011 bad 2 1.000 0.000 1.000 0.162 1.000 -0.05 1.000 … 0.125 good
Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.7.
27
27
Tabel 4.7 Jarak Data Latih dan Centroid
Centroid
Data Latih
1 2 3 4 5 6 7 … 281
bad 0.000 4.287 5.079 2.347 3.337 5.166 4.446 … -0.011 good 4.287 0.000 4.461 3.428 5.797 4.988 3.967 … 0.125
Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster.
Adapun nilai centroid baru yang didapatkan dapat dilihat pada table 4.8.
Tabel 4.8 Centroid Baru untuk data Ionosphare Centroid
Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan untuk nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid akhir untuk setiap kelas data dapat dilihat pada tabel 4.9.
Tabel 4.9 Centroid Akhir Ionosphare
No Att1 Att2 Att3 Att4 Att5 Att6 Att7 … Att34 Class 1 0.723 0.000 0.271 -0.022 0.198 0.038 0.265 … 0.125 bad 2 1.000 0.000 0.840 0.088 0.803 0.170 0.718 … -0.011 good
Tahapan selanjutnya melakukan clustering berdasarkan centroid yang didapat dari proses kmeans, dengan cara menghitung kemiripan antara data testing dengan centroid menggunakan persamaan 3.2. Adapun jarak antara data testing dan centroid dapat dilihat pada tabel 4.10.
28
28
Tabel 4.10 Jarak Antara Centroid dan Data Testing Ionosphare No Centroid 1 Centroid 2 Class Prediction
1 1.426 0.717 good
Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 68.57%, sedangkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 74.28%. Adapun peningkatan yang terjadi sebesar 5.71%.
4.2.2 Pengujian Terhadap Dataset Iris
Pengujian pertama akan menggunakan dataset iris dimana data ini berjumlah 150 instance memiliki 4 attribut, dan terdapat 3 kelas yaitu setosa, virginica, dan versicolor. Adapun rincian informasi attribut dari data iris dapat dilihat pada Tabel 4.11 dan rincian data dapat dilihat pada Table 4.12.
Tabel 4.11 Informasi Attribut Dataset Iris
No. Attribut Nilai
1 Sepal length [4.3 s/d 7.9]
2 Sepal width [2.0 s/d 4.4]
3 Petal length [1.0 s/d 6.9]
4 Petal width [0.1 s/d 2.5]
5 class [setosa, virginica, versicolor]
29
29
Tabel 4.12 Rincian Data Iris
No Sepal length Sepal width Petal length Petal width Class
1 5.100 3.500 1.400 0.200 setosa
Tahapan pertama pada penelitian ini adalah membagi dataset yang digunakan menjadi 2 partisi atau biasa disebut dengan metode hold out, dimana 80% dari data digunakan sebagai data latih dan 20% sisanya digunakan sebagai data uji. Adapun rincian data latih dan data uji dapat dilihat pada tabel 4.13 dan tabel 4.14.
Tabel 4.13 Rincian Data Latih Iris
No Sepal length Sepal width Petal length Petal width Class
1 5.200 2.700 3.900 1.400 versicolor
30
30
Tabel 4.14 Rincian Data Testing Iris
No Sepal length Sepal width Petal length Petal width Class
1 5.100 3.800 1.900 0.400 setosa
Setelah dilakukan proses hold out, maka tahapan selanjutnya adalah menghitung bobot attribut dari data latih dengan menggunakan gain ratio, adapun nilai bobot untuk tiap attribut didapati dengan persamaan 3.1. Adapun nilai bobot untuk setiap attribut dapat dilihat pada tabel 4.15.
Tabel 4.15 Rincian Nilai Bobot Dataset Iris No. Nama Attribut Gain ratio Bobot
1 Sepal length 0.589 0.367 2 Sepal width 0.416 0.100 3 Petal length 1.000 1.000 4 Petal width 1.000 1.000
Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) dari setiap kelas data. Tahapan awal dari proses kmeans dimulai dengan menentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.16.
Tabel 4.16 Centroid Awal Iris
No Att1 Att2 Att3 Att4 Class 1 5.994 2.769 4.530 1.441 versicolor 2 6.795 3.129 5.648 2.152 virginica 3 5.004 3.387 1.533 0.271 setosa
31
31
Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.17.
Tabel 4.17 Jarak Data Latih Iris dan Centroid Awal Iris
Centroid Data Latih
1 2 3 4 5 6 7 … 120
versicolor 3.559 0.540 1.683 1.160 0.643 0.575 0.987 … 2.394 virginica 4.987 2.105 3.231 0.550 2.137 1.088 0.724 … 0.844 setosa 0.282 3.018 2.606 4.583 2.963 3.991 4.496 … 5.654 Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster.
Adapaun nilai centroid baru yang didapatkan dapat dilihat pada table 4.18.
Tabel 4.18 Centroid Baru untuk data Iris No Att1 Att2 Att3 Att4 Class
1 5.909 2.755 4.423 1.421 versicolor 2 6.800 3.088 5.629 2.075 virginica 3 5.005 3.430 1.458 0.235 setosa
Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid akhir untuk setiap kelas data dapat dilihat pada tabel 4.19.
Tabel 4.19 Centroid Akhir Dataset Iris No Att1 Att2 Att3 Att4 Class
1 5.925 2.762 4.417 1.457 versicolor 2 6.839 3.082 5.745 2.079 virginica 3 5.041 3.509 1.438 0.226 setosa
32
32
Tahapan selanjutnya melakukan klasifikasi berdasarkan centroid yang didapat dari proses kmeans, dengan cara menghitung kemiripan antara data testing dengan centroid menggunakan persamaan 3.2. Adapun jarak antara data testing dan centroid dapat dilihat pada tabel 4.20.
Tabel 4.20 Jarak Antara Centroid dan Data Testing Iris No Centroid 1 Centroid 2 Centroid 3 Class Prediction
1 2.748 4.245 0.495 setosa
2 3.119 4.610 0.186 setosa
3 1.584 0.182 4.818 virginica
4 3.366 4.865 0.280 setosa
5 3.103 4.601 0.172 setosa
6 3.290 4.787 0.086 setosa
7 3.316 4.818 0.247 setosa
8 0.296 1.276 3.489 versicolor
9 3.257 4.755 0.131 setosa
… … … …
30 2.897 4.389 0.380 setosa
Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 93.33%, sedangnkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 96.67%. Adapun peningkatan yang terjadi sebesar 3.33%.
4.2.3 Pengujian Terhadap Dataset Hayes-roth
Pengujian pertama akan menggunakan dataset hayes-roth dimana data ini berjumlah 160 instance memiliki 4 attribut, dan terdapat 3 kelas yaitu kelas 1, kelas 2 dan kelas 3. Adapun rincian informasi attribut dari data hayes-roth dapat dilihat pada Tabel 4.21 dan rincian data dapat dilihat pada Table 4.22.
33
33
Tabel 4.21 Informasi Attribut Dataset hayes-roth No. Attribut Nilai
1 Att-1 [1 s/d 3]
2 Att-2 [1 s/d 4]
3 Att-3 [1 s/d 4]
Tabel 4.21 Informasi Attribut Dataset hayes-roth (Lanjutan) No. Attribut Nilai
4 Att-4 [1 s/d 4]
5 class [kelas 1,kelas 2, kelas3]
Tabel 4.22 Rincian Data hayes-roth No Att-1 Att-2 Att-3 Att-4 Class
Tahapan pertama pada penelitian ini adalah membagi dataset yang digunakan menjadi 2 partisi atau biasa disebut dengan metode hold out, dimana 80% dari data digunakan sebagai data latih dan 20% sisanya digunakan sebagai data uji. Adapun rincian data latih dan data uji dapat dilihat pada tabel 4.23 dan tabel 4.24.
34
34
Tabel 4.23 Rincian Data Latih hayes-roth No Att-1 Att-2 Att-3 Att-4 Class
Tabel 4.24 Rincian Data Testing hayes-roth No Att-1 Att-2 Att-3 Att-4 Class
Setelah dilakukan proses hold out, maka tahapan selanjutnya adalah menghitung bobot attribut dari data latih dengan menggunakan gain ratio, adapun nilai bobot untuk tiap attribut didapati dengan persamaan 3.1. Adapun nilai bobot untuk setiap attribut dapat dilihat pada tabel 4.25.
35
35
Tabel 4.25 Rincian Nilai Bobot Dataset hayes-roth No. Nama Attribut Gain ratio Bobot
1 Att-1 0.005 0.100
2 Att-2 0.500 0.932
3 Att-3 0.520 0.966
4 Att-4 0.540 1.000
Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) yang nantinya digunakan sebagai patokan untuk melakukan clustering pada data testing.
Tahapan awal dari proses kmeans dimulai dengan menentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.26.
Tabel 4.26 Centroid Awal Hayes-roth No Att1 Att2 Att3 Att4 Class
1 1.827 1.692 1.615 1.635 1 2 1.896 1.896 1.938 1.938 2 3 2.000 2.679 2.714 2.857 3
Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.27.
Tabel 4.27 Jarak Data Latih Hayes-roth dan Centroid Awal Iris
Centroid Data Latih
1 2 3 4 5 6 7 … 128
1 1.846 1.501 0.822 2.945 0.798 1.011 2.493 … 1.976 2 1.901 1.729 0.951 2.643 0.951 1.302 2.270 … 1.776 3 2.603 2.801 2.102 2.282 2.033 2.548 2.358 … 2.153
Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster.
Adapun nilai centroid baru yang didapatkan dapat dilihat pada table 4.28.
36
36
Tabel 4.28 Centroid Baru untuk data Hayes-roth No Att1 Att2 Att3 Att4 Class
1 1.810 1.569 1.448 1.483 1 2 2.026 1.947 2.184 2.026 2 3 1.875 2.781 2.688 2.969 3
Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid untuk setiap kelas data dapat dilihat pada tabel 4.29.
Tabel 4.29 Centroid Akhir Dataset hayes-roth No Att1 Att2 Att3 Att4 Class 1 1.827 1.692 1.615 1.635 Kelas 1 2 1.896 1.896 1.938 1.938 Kelas 2 3 2.000 2.679 2.714 2.857 Kelas 3
Tahapan selanjutnya melakukan klasifikasi berdasarkan centroid yang didapat dari proses kmeans, dengan cara menghitung kemiripan antara data testing dengan centroid menggunakan persamaan 3.2. Adapun jarak antara data testing dan centroid dapat dilihat pada tabel 4.30.
Tabel 4.30 Jarak Antara Centroid dan Data Testing hayes-roth No Centroid 1 Centroid 2 Centroid 3 Class Prediction
1 2.693 2.260 1.401 Kelas 3
37
37
… … … …
32 1.529 1.325 1.805 Kelas 2
Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 56.25%, sedangnkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 62.5%. Adapun peningkatan yang terjadi sebesar 6.25%.
4.2.4 Pengujian Terhadap Dataset Parkinson Multiple Sound Recording
Pengujian pertama akan menggunakan dataset parkinson multiple sound recording dimana data ini berjumlah 1040 instance memiliki 28 attribut, dan terdapat 2 kelas yaitu kelas 0 dan kelas 1. Adapun rincian informasi attribut dari data parkinson multiple sound recording dapat dilihat pada Tabel 4.31 dan rincian data dapat dilihat pada Table 4.32.
Tabel 4.31 Informasi Attribut Dataset parkinson multiple sound recording No. Attribut Nilai
1 Att-1 [1.00 s/d 40.00]
2 Att-2 [0.19 s/d 14.38]
3 Att-3 [0.0000065 s/d 0.00078]
4 Att-4 [0.06 s/d 8.02]
5 Att-5 [0.08 s/d 13.54]
6 Att-6 [0.19 s/d 24.05]
7 Att-7 [1.19 s/d 41.14]
8 Att-8 [0.10 s/d 2.72]
9 Att-9 [0.50 s/d 25.82]
… … …
28 Att-28 [1.00 s/d 55.00]
29 Class [kelas 0, kelas 1]
38
38
Tabel 4.32 Rincian Data parkinson multiple sound recording
No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 Att-7 Att-8 … Class 1 24.000 2.754 0.000262 0.850 0.937 2.551 15.908 1.416 … Kelas 0 2 18.000 1.564 0.000189 1.003 1.533 3.009 19.713 1.631 … Kelas 1 3 5.000 2.005 0.000202 1.122 1.325 3.365 17.620 1.586 … Kelas 1
Tabel 4.32 Rincian Data parkinson multiple sound recording (Lanjutan) No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 Att-7 Att-8 … Class
Tahapan pertama pada penelitian ini adalah membagi dataset yang digunakan menjadi 2 partisi atau biasa disebut dengan metode hold out, dimana 80% dari data digunakan sebagai data latih dan 20% sisanya digunakan sebagai data uji. Adapun rincian data latih dan data uji dapat dilihat pada tabel 4.33 dan tabel 4.34.
Tabel 4.33 Rincian Data Latih parkinson multiple sound recording No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 Att-7 Att-8 … Class
39 Tabel 4.34 Rincian Data Testing parkinson multiple sound recording
No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 Att-7 Att-8 … Class
Setelah dilakukan proses hold out, maka tahapan selanjutnya adalah menghitung bobot attribut dari data latih dengan menggunakan gain ratio, adapun nilai bobot untuk tiap attribut didapati dengan persamaan 3.1. Adapun nilai bobot untuk setiap attribut dapat dilihat pada tabel 4.35.
Tabel 4.35 Rincian Nilai Bobot Dataset parkinson multiple sound recording No. Attribut Gain ratio Bobot
1 Att-1 1.000 1.000 2 Att-2 0.111 0.121 3 Att-3 0.099 0.110
40
40
4 Att-4 0.111 0.121 5 Att-5 0.115 0.125 6 Att-6 0.111 0.121 7 Att-7 0.115 0.125 8 Att-8 0.111 0.121
Tabel 4.35 Rincian Nilai Bobot Dataset parkinson multiple sound recording (Lanjutan) No. Attribut Gain ratio Bobot
9 Att-9 0.115 0.125 10 Att-10 0.106 0.116
… … … …
28 Att-28 1.000 1.00
Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) yang nantinya digunakan sebagai patokan untuk melakukan klasifikasi pada data testing.
Tahapan awal dari proses kmeans dimulai dengan menentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.36.
Tabel 4.36 Centroid Awal parkinson multiple sound recording
No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 … Att-28 Class 1 22.822 3.957 0.000 1.903 2.047 5.710 … 10.622 0 2 19.923 2.438 0.000 1.137 1.226 3.410 … 13.069 1 Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.37.
Tabel 4.37 Jarak Data Latih parkinson multiple sound recording dan Centroid Awal
Centroid Data Latih
1 2 3 4 5 6 7 … 832
1 318.5 299.8 170.1 109.7 210.8 335.0 420.6 … 309.3 2 117.2 69.5 350.9 348.5 185.2 48.8 175.9 … 161.2
41
41
Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster.
Adapaun nilai centroid baru yang didapatkan dapat dilihat pada table 4.38.
Tabel 4.38 Centroid Baru untuk data parkinson multiple sound recording
No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 … Att-28 Class 1 20.777 1.476 0.000 0.715 0.760 2.146 … 10.904 0 2 20.344 2.838 0.000 1.331 1.436 3.992 … 12.897 1 Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid untuk setiap kelas data dapat dilihat pada tabel 4.39.
Tabel 4.39 Centroid Akhir Dataset parkinson multiple sound recording
No Att1 Att2 Att3 Att4 Att5 Att6 … Att28 Class
1 22.519 3.072 0.000142 1.488 1.603 4.464 … 10.365 kelas 0 2 19.566 2.533 0.000178 1.173 1.265 3.519 … 13.569 kelas 1
Tahapan selanjutnya melakukan clustering berdasarkan centroid yang didapat dari proses kmeans, dengan cara menghitung kemiripan antara data testing dengan centroid menggunakan persamaan 3.2. Adapun jarak antara data testing dan centroid dapat dilihat pada tabel 4.40.
Tabel 4.40 Jarak Antara Centroid dan Data Testing parkinson multiple sound recording No Centroid 1 Centroid 2 Class Prediction
1 28.023 35.035 kelas 1
42
42
10 35.593 45.969 kelas 1
… … … …
208 23.629 41.18 kelas 1
Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 54.81%, sedangkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 58.17%. Adapun peningkatan yang terjadi sebesar 3.36%.
4.3 Pembahasan
Untuk mengetahui lebih jelas pengaruh dari gain ratio terhadap proses clustering dengan menggunakan metode kmeans terhadap seluruh data yang digunakan dapat dilihat pada gambar 4.1.
Gambar 4.1 Peningkatan Akurasi
68,57% 93,33% 56,25% 54,81%
74,28% 96,67% 62,50% 58,17%
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
120,00%
Ionosphare Iris Hayes-roth Parkinson Multiple
Sounds Recording K-Means K-Means+GR
43
43
Berdasarkan gambar 4.1 terlihat bahwa Gain ratio mampu meningkatkan kinerja pada proses clustering dengan menggunakan metode k-means, dimana pada setiap pengujian dengan menggunakan 4 dataset selalu terjadi peningkatan hasil akurasi.
Adapun peningkatan hasil akurasi tertinggi terjadi pada dataset hayes-roth, yaitu sebesar 6.25%, sedangkan peningkatan hasil akurasi terendah terjadi pada dataset iris, yaitu sebesar 3.33%.
Berdasarkan pengujian yang telah dilakukan dapat disimpulkan bahwa gain ratio mampu meningkatkan kinerja pada proses clustering dengan menggunakan metode k-means dimana peningkatan rata-rata untuk seluruh dataset yang digunakan adalah sebesar 4.67% dan sekalipun tidak pernah mengalami penurunan kinerja dari hasil akurasi pada setiap dataset yang digunakan.
44
44