HASIL DAN PEMBAHASAN - PEMBOBOTAN ATTRIBUT MENGGUNAKAN GAIN RATIO PADA ALGORITMA KMEANS TESIS R

4.1 Hasil

Pada bagian ini, penulis menyajikan hasil dan pembahasan dari penelitian yang dilakukan mengenai pengaruh gain ratio terhadap kinerja dari metode k-means dengan menggunakan dataset dari UCI, yaitu ionosphere, iris, hayes-roth dan parkinson multiple sound recording.

Penelitian ini bertujuan untuk mengukur kinerja metode k-means dalam melakukan clustering terhadap data dengan cara menghitung nilai jarak terdekat terhadap setiap centroid dari kelas data.

Untuk mempermudah proses perhitungan pada penelitian ini maka digunakan bantuan dari software MATLAB® dalam melakukan proses pengujian terhadap seluruh data. Adapun output perhitungan bobot attribute untuk data set ionosphare dapat dilihat pada gambar 4.1, untuk iris dapat dilihat pada gambar 4.2, untuk hayes-roth dapat dilihat pada gambar 4.3 dan untuk parkinson multiple sound recording dapat dilihat pada gambar 4.4.

Gambar 4.1 Output Program bobot attribut dataset ionosphare

Gambar 4.2 Output Program bobot attribut dataset iris

Gambar 4.3 Output Program bobot attribut dataset hayes-roth

Gambar 4.3 Output Program bobot attribute dataset Parkinson multiple sound recording

Adapun output program dalam perhitungan akurasi dari dataset ionosphare dapat dilihat pada gambar 4.5, untuk dataset iris dapat dilihat pada gambar 4.6, untuk dataset hayes-roth dapat dilihat pada gambar 4.7, dan untuk dataset parkinson multiple sound recording dapat dilihat pada gambar 4.8.

Gambar 4.5 Output Program Akurasi Pengujian Pada Dataset ionosphere

Gambar 4.6 Output Program Akurasi Pengujian Pada Dataset iris

Gambar 4.7 Output Program Akurasi Pengujian Pada Dataset hayes-roth

Gambar 4.8 Output Program Akurasi Pengujian Pada Dataset Parkinson multiple sound recording

4.2 Pengujian

Pengujian dilakukan menggunakan dataset yang diperoleh dari UCI Machine Learning Repository diantaranya ionosphere, iris, hayes-roth dan parkinson multiple sound recording.

Pengujian inimenggunakan metode validasi hold out, dimana data dibagi kedalam 2 partisi.

Partisi pertama berjumlah 80% dari seluruh data yang akan digunakan sebagai data latih, sedangkan sisanya sebesar 20% dari seluruh data digunakan sebagai data uji.

4.2.1 Pengujian Terhadap Dataset Ionosphare

Pengujian pertama akan menggunakan dataset ionosphare dimana data ini berjumlah 351 instance memiliki 34 attribut, dan terdapat 2 kelas yaitu good condition dan bad condition

(Dua, D. dan Graff, C, Akses 2019). Adapun rincian informasi attribut dari data ionosphare dapat dilihat pada Tabel 4.1 dan rincian data dapat dilihat pada Table 4.2.

Tabel 4.1 Informasi Attribut Dataset Ionosphare No. Nama Attribut Range Nilai Type Class [good,bad] Binominal

Tabel 4.2 Rincian Data Ionosphare

No Att1 Att2 Att3 Att4 Att5 Att6 Att7 … Att34 Class

Tahapan pertama pada penelitian ini adalah membagi dataset yang digunakan menjadi 2 partisi atau biasa disebut dengan metode hold out, dimana 80% dari data digunakan sebagai data latih dan 20% sisanya digunakan sebagai data uji. Adapun rincian data latih dan data uji dapat dilihat pada tabel 4.3 dan tabel 4.4.

Tabel 4.3 Rincian Data Latih Ionosphare

No Att1 Att2 Att3 Att4 Att5 Att6 Att7 … Att34 Class

Tabel 4.4 Rincian Data Testing Ionosphare

No Att1 Att2 Att3 Att4 Att5 Att6 Att7 … Att34 Class

Setelah dilakukan proses hold out, maka tahapan selanjutnya adalah menghitung bobot attribut dari data latih dengan menggunakan gain ratio, adapun nilai bobot untuk tiap attribut didapati dengan persamaan 3.1. Adapun nilai bobot untuk setiap attribut dapat dilihat pada tabel 4.5.

Tabel 4.5 Rincian Nilai Bobot Dataset Ionosphare No. Nama Attribut Gain ratio Bobot

Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) yang nantinya digunakan sebagai patokan untuk melakukan klasifikasi pada data testing.

Tahapan pertama tentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.6.

Tabel 4.6 Centroid Awal Ionosphare

No Att1 Att2 Att3 Att4 Att5 Att6 Att7 … Att34 Class 1 1.000 0.000 1.000 0.515 0.455 0.333 0.061 … -0.011 bad 2 1.000 0.000 1.000 0.162 1.000 -0.05 1.000 … 0.125 good

Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.7.

Tabel 4.7 Jarak Data Latih dan Centroid

Centroid

Data Latih

1 2 3 4 5 6 7 … 281

bad 0.000 4.287 5.079 2.347 3.337 5.166 4.446 … -0.011 good 4.287 0.000 4.461 3.428 5.797 4.988 3.967 … 0.125

Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster.

Adapun nilai centroid baru yang didapatkan dapat dilihat pada table 4.8.

Tabel 4.8 Centroid Baru untuk data Ionosphare Centroid

Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan untuk nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid akhir untuk setiap kelas data dapat dilihat pada tabel 4.9.

Tabel 4.9 Centroid Akhir Ionosphare

No Att1 Att2 Att3 Att4 Att5 Att6 Att7 … Att34 Class 1 0.723 0.000 0.271 -0.022 0.198 0.038 0.265 … 0.125 bad 2 1.000 0.000 0.840 0.088 0.803 0.170 0.718 … -0.011 good

Tahapan selanjutnya melakukan clustering berdasarkan centroid yang didapat dari proses kmeans, dengan cara menghitung kemiripan antara data testing dengan centroid menggunakan persamaan 3.2. Adapun jarak antara data testing dan centroid dapat dilihat pada tabel 4.10.

Tabel 4.10 Jarak Antara Centroid dan Data Testing Ionosphare No Centroid 1 Centroid 2 Class Prediction

1 1.426 0.717 good

Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 68.57%, sedangkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 74.28%. Adapun peningkatan yang terjadi sebesar 5.71%.

4.2.2 Pengujian Terhadap Dataset Iris

Pengujian pertama akan menggunakan dataset iris dimana data ini berjumlah 150 instance memiliki 4 attribut, dan terdapat 3 kelas yaitu setosa, virginica, dan versicolor. Adapun rincian informasi attribut dari data iris dapat dilihat pada Tabel 4.11 dan rincian data dapat dilihat pada Table 4.12.

Tabel 4.11 Informasi Attribut Dataset Iris

No. Attribut Nilai

1 Sepal length [4.3 s/d 7.9]

2 Sepal width [2.0 s/d 4.4]

3 Petal length [1.0 s/d 6.9]

4 Petal width [0.1 s/d 2.5]

5 class [setosa, virginica, versicolor]

Tabel 4.12 Rincian Data Iris

No Sepal length Sepal width Petal length Petal width Class

1 5.100 3.500 1.400 0.200 setosa

Tabel 4.13 Rincian Data Latih Iris

No Sepal length Sepal width Petal length Petal width Class

1 5.200 2.700 3.900 1.400 versicolor

Tabel 4.14 Rincian Data Testing Iris

No Sepal length Sepal width Petal length Petal width Class

1 5.100 3.800 1.900 0.400 setosa

Tabel 4.15 Rincian Nilai Bobot Dataset Iris No. Nama Attribut Gain ratio Bobot

1 Sepal length _0.589 _0.367 2 Sepal width _0.416 _0.100 3 Petal length _1.000 _1.000 4 Petal width _1.000 _1.000

Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) dari setiap kelas data. Tahapan awal dari proses kmeans dimulai dengan menentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.16.

Tabel 4.16 Centroid Awal Iris

No Att1 Att2 Att3 Att4 Class 1 5.994 2.769 4.530 1.441 versicolor 2 6.795 3.129 5.648 2.152 virginica 3 5.004 3.387 1.533 0.271 setosa

Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.17.

Tabel 4.17 Jarak Data Latih Iris dan Centroid Awal Iris

Centroid Data Latih

1 2 3 4 5 6 7 … 120

versicolor 3.559 0.540 1.683 1.160 0.643 0.575 0.987 … 2.394 virginica 4.987 2.105 3.231 0.550 2.137 1.088 0.724 … 0.844 setosa 0.282 3.018 2.606 4.583 2.963 3.991 4.496 … 5.654 Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster.

Adapaun nilai centroid baru yang didapatkan dapat dilihat pada table 4.18.

Tabel 4.18 Centroid Baru untuk data Iris No Att1 Att2 Att3 Att4 Class

1 5.909 2.755 4.423 1.421 versicolor 2 6.800 3.088 5.629 2.075 virginica 3 5.005 3.430 1.458 0.235 setosa

Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid akhir untuk setiap kelas data dapat dilihat pada tabel 4.19.

Tabel 4.19 Centroid Akhir Dataset Iris No Att1 Att2 Att3 Att4 Class

1 5.925 2.762 4.417 1.457 versicolor 2 6.839 3.082 5.745 2.079 virginica 3 5.041 3.509 1.438 0.226 setosa

Tahapan selanjutnya melakukan klasifikasi berdasarkan centroid yang didapat dari proses kmeans, dengan cara menghitung kemiripan antara data testing dengan centroid menggunakan persamaan 3.2. Adapun jarak antara data testing dan centroid dapat dilihat pada tabel 4.20.

Tabel 4.20 Jarak Antara Centroid dan Data Testing Iris No Centroid 1 Centroid 2 Centroid 3 Class Prediction

1 2.748 4.245 0.495 setosa

2 3.119 4.610 0.186 setosa

3 1.584 0.182 4.818 virginica

4 3.366 4.865 0.280 setosa

5 3.103 4.601 0.172 setosa

6 3.290 4.787 0.086 setosa

7 3.316 4.818 0.247 setosa

8 0.296 1.276 3.489 versicolor

9 3.257 4.755 0.131 setosa

… … … …

30 2.897 4.389 0.380 setosa

Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 93.33%, sedangnkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 96.67%. Adapun peningkatan yang terjadi sebesar 3.33%.

4.2.3 Pengujian Terhadap Dataset Hayes-roth

Pengujian pertama akan menggunakan dataset hayes-roth dimana data ini berjumlah 160 instance memiliki 4 attribut, dan terdapat 3 kelas yaitu kelas 1, kelas 2 dan kelas 3. Adapun rincian informasi attribut dari data hayes-roth dapat dilihat pada Tabel 4.21 dan rincian data dapat dilihat pada Table 4.22.

Tabel 4.21 Informasi Attribut Dataset hayes-roth No. Attribut Nilai

1 Att-1 [1 s/d 3]

2 Att-2 [1 s/d 4]

3 Att-3 [1 s/d 4]

Tabel 4.21 Informasi Attribut Dataset hayes-roth (Lanjutan) No. Attribut Nilai

4 Att-4 [1 s/d 4]

5 class [kelas 1,kelas 2, kelas3]

Tabel 4.22 Rincian Data hayes-roth No Att-1 Att-2 Att-3 Att-4 Class

Tabel 4.23 Rincian Data Latih hayes-roth No Att-1 Att-2 Att-3 Att-4 Class

Tabel 4.24 Rincian Data Testing hayes-roth No Att-1 Att-2 Att-3 Att-4 Class

Tabel 4.25 Rincian Nilai Bobot Dataset hayes-roth No. Nama Attribut Gain ratio Bobot

1 Att-1 _0.005 _0.100

2 Att-2 _0.500 _0.932

3 Att-3 _0.520 _0.966

4 Att-4 _0.540 _1.000

Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) yang nantinya digunakan sebagai patokan untuk melakukan clustering pada data testing.

Tahapan awal dari proses kmeans dimulai dengan menentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.26.

Tabel 4.26 Centroid Awal Hayes-roth No Att1 Att2 Att3 Att4 Class

1 1.827 1.692 1.615 1.635 1 2 1.896 1.896 1.938 1.938 2 3 2.000 2.679 2.714 2.857 3

Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.27.

Tabel 4.27 Jarak Data Latih Hayes-roth dan Centroid Awal Iris

Centroid Data Latih

1 2 3 4 5 6 7 … 128

1 1.846 1.501 0.822 2.945 0.798 1.011 2.493 … 1.976 2 1.901 1.729 0.951 2.643 0.951 1.302 2.270 … 1.776 3 2.603 2.801 2.102 2.282 2.033 2.548 2.358 … 2.153

Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster.

Adapun nilai centroid baru yang didapatkan dapat dilihat pada table 4.28.

Tabel 4.28 Centroid Baru untuk data Hayes-roth No Att1 Att2 Att3 Att4 Class

1 1.810 1.569 1.448 1.483 1 2 2.026 1.947 2.184 2.026 2 3 1.875 2.781 2.688 2.969 3

Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid untuk setiap kelas data dapat dilihat pada tabel 4.29.

Tabel 4.29 Centroid Akhir Dataset hayes-roth No Att1 Att2 Att3 Att4 Class 1 1.827 1.692 1.615 1.635 Kelas 1 2 1.896 1.896 1.938 1.938 Kelas 2 3 2.000 2.679 2.714 2.857 Kelas 3

Tabel 4.30 Jarak Antara Centroid dan Data Testing hayes-roth No Centroid 1 Centroid 2 Centroid 3 Class Prediction

1 2.693 2.260 1.401 Kelas 3

… … … …

32 1.529 1.325 1.805 Kelas 2

Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 56.25%, sedangnkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 62.5%. Adapun peningkatan yang terjadi sebesar 6.25%.

4.2.4 Pengujian Terhadap Dataset Parkinson Multiple Sound Recording

Pengujian pertama akan menggunakan dataset parkinson multiple sound recording dimana data ini berjumlah 1040 instance memiliki 28 attribut, dan terdapat 2 kelas yaitu kelas 0 dan kelas 1. Adapun rincian informasi attribut dari data parkinson multiple sound recording dapat dilihat pada Tabel 4.31 dan rincian data dapat dilihat pada Table 4.32.

Tabel 4.31 Informasi Attribut Dataset parkinson multiple sound recording No. Attribut Nilai

1 Att-1 [1.00 s/d 40.00]

2 Att-2 [0.19 s/d 14.38]

3 Att-3 [0.0000065 s/d 0.00078]

4 Att-4 [0.06 s/d 8.02]

5 Att-5 [0.08 s/d 13.54]

6 Att-6 [0.19 s/d 24.05]

7 Att-7 [1.19 s/d 41.14]

8 Att-8 [0.10 s/d 2.72]

9 Att-9 [0.50 s/d 25.82]

… … …

28 Att-28 [1.00 s/d 55.00]

29 Class [kelas 0, kelas 1]

Tabel 4.32 Rincian Data parkinson multiple sound recording

No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 Att-7 Att-8 … Class 1 24.000 2.754 0.000262 0.850 0.937 2.551 15.908 1.416 … Kelas 0 2 18.000 1.564 0.000189 1.003 1.533 3.009 19.713 1.631 … Kelas 1 3 _5.000 2.005 0.000202 1.122 1.325 3.365 17.620 1.586 … Kelas 1

Tabel 4.32 Rincian Data parkinson multiple sound recording (Lanjutan) No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 Att-7 Att-8 … Class

Tabel 4.33 Rincian Data Latih parkinson multiple sound recording No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 Att-7 Att-8 … Class

39 Tabel 4.34 Rincian Data Testing parkinson multiple sound recording

No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 Att-7 Att-8 … Class

Tabel 4.35 Rincian Nilai Bobot Dataset parkinson multiple sound recording No. Attribut Gain ratio Bobot

1 Att-1 _1.000 _1.000 2 Att-2 _0.111 _0.121 3 Att-3 _0.099 _0.110

4 Att-4 _0.111 _0.121 5 Att-5 _0.115 _0.125 6 Att-6 _0.111 _0.121 7 Att-7 _0.115 _0.125 8 Att-8 _0.111 _0.121

Tabel 4.35 Rincian Nilai Bobot Dataset parkinson multiple sound recording (Lanjutan) No. Attribut Gain ratio Bobot

9 Att-9 _0.115 _0.125 10 Att-10 _0.106 _0.116

… … … …

28 Att-28 1.000 1.00

Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) yang nantinya digunakan sebagai patokan untuk melakukan klasifikasi pada data testing.

Tahapan awal dari proses kmeans dimulai dengan menentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.36.

Tabel 4.36 Centroid Awal parkinson multiple sound recording

No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 … Att-28 Class 1 22.822 3.957 0.000 1.903 2.047 5.710 … 10.622 0 2 19.923 2.438 0.000 1.137 1.226 3.410 … 13.069 1 Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.37.

Tabel 4.37 Jarak Data Latih parkinson multiple sound recording dan Centroid Awal

Centroid Data Latih

1 2 3 4 5 6 7 … 832

1 318.5 299.8 170.1 109.7 210.8 335.0 420.6 … 309.3 2 117.2 69.5 350.9 348.5 185.2 48.8 175.9 … 161.2

Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster.

Adapaun nilai centroid baru yang didapatkan dapat dilihat pada table 4.38.

Tabel 4.38 Centroid Baru untuk data parkinson multiple sound recording

No Att-1 Att-2 Att-3 Att-4 Att-5 Att-6 … Att-28 Class 1 20.777 1.476 0.000 0.715 0.760 2.146 … 10.904 0 2 20.344 2.838 0.000 1.331 1.436 3.992 … 12.897 1 Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid untuk setiap kelas data dapat dilihat pada tabel 4.39.

Tabel 4.39 Centroid Akhir Dataset parkinson multiple sound recording

No Att1 Att2 Att3 Att4 Att5 Att6 … Att28 Class

1 22.519 3.072 0.000142 1.488 1.603 4.464 … 10.365 kelas 0 2 19.566 2.533 0.000178 1.173 1.265 3.519 … 13.569 kelas 1

Tabel 4.40 Jarak Antara Centroid dan Data Testing parkinson multiple sound recording No Centroid 1 Centroid 2 Class Prediction

1 28.023 35.035 kelas 1

10 35.593 45.969 kelas 1

… … … …

208 23.629 41.18 kelas 1

Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 54.81%, sedangkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 58.17%. Adapun peningkatan yang terjadi sebesar 3.36%.

4.3 Pembahasan

Untuk mengetahui lebih jelas pengaruh dari gain ratio terhadap proses clustering dengan menggunakan metode kmeans terhadap seluruh data yang digunakan dapat dilihat pada gambar 4.1.

Gambar 4.1 Peningkatan Akurasi

68,57% 93,33% 56,25% 54,81%

74,28% 96,67% 62,50% 58,17%

0,00%

20,00%

40,00%

60,00%

80,00%

100,00%

120,00%

Ionosphare Iris Hayes-roth Parkinson Multiple

Sounds Recording K-Means K-Means+GR

Berdasarkan gambar 4.1 terlihat bahwa Gain ratio mampu meningkatkan kinerja pada proses clustering dengan menggunakan metode k-means, dimana pada setiap pengujian dengan menggunakan 4 dataset selalu terjadi peningkatan hasil akurasi.

Adapun peningkatan hasil akurasi tertinggi terjadi pada dataset hayes-roth, yaitu sebesar 6.25%, sedangkan peningkatan hasil akurasi terendah terjadi pada dataset iris, yaitu sebesar 3.33%.

Berdasarkan pengujian yang telah dilakukan dapat disimpulkan bahwa gain ratio mampu meningkatkan kinerja pada proses clustering dengan menggunakan metode k-means dimana peningkatan rata-rata untuk seluruh dataset yang digunakan adalah sebesar 4.67% dan sekalipun tidak pernah mengalami penurunan kinerja dari hasil akurasi pada setiap dataset yang digunakan.

BAB 5

Dalam dokumen PEMBOBOTAN ATTRIBUT MENGGUNAKAN GAIN RATIO PADA ALGORITMA KMEANS TESIS RYAN DHIKA PRIYATNA (Halaman 38-61)