Bab ini merupakan penjelasan tentang penggunaan metode X-Means dengan ditetapkannya nilai centroid, serta analisa terhadap beberapa metode yang diterapkan juga yang bisa mendapatkan hasil dalam penelitian dengan cara mengcluster data menjadi beberapa cluster pada data set Penjurusan Siswa SMA.
Pelatihan serta pengujian dalam penelitian ini adalah dengan cara melakukan pengelompokkan data terbaik pada metode X-Means dengan melakukan beberapa pengujian terhadap penentuan nilai centroid.
4.1. Hasil Pengujian
Pengujian yang dilakukan oleh peneliti yaitu menggunakan data set Penjurusan Siswa SMA yang meliputi: ID Siswa, Matematika, Biologi, Fisika, Ekonomi, Geografi, Kimia, Sosiologi, IQ. Pada metode X-Means dengan ditetapkannya nilai centroid, serta analisa terhadap beberapa metode yang diterapkan juga yang bisa mendapatkan hasil dalam penelitian dengan cara clustering data menjadi beberapa cluster pada data set Penjurusan Siswa SMA sebagai langkah awal analisa dengan cara melakukan pengelompokkan data terbaik pada metode X-Means.
4.1.1. Model yang digunakan
Pada dataset yang telah ditentukan diperlukan model dari metode yang akan digunakan yaitu X-Means dengan grafik dari software RapidMiner yang digunakan dapat dilihat sebagai berikut:
Gambar 4.1 Rancangan Model X-Means 4.1.2. Pengujian Data
Pada pengujian data dilakukan analisa clustering yang menggunakan perangkat lunak yaitu RapidMiner. Data set diperoleh dari hasil penelitian yang dilakukan disekolah dengan mendapatkan nilai siswa. Data yang diuji bertujuan agar dapat mempelajari berbagai cluster yang terdapat dalam program serta perbedaan yang dihasilkan dari masing-masing metode yang diuji. Adapun rincian data adalah sebagai berikut :
Tabel 4.1 Rincian Data Penjurusan Siswa SMA ID
Siswa X1 X2 X3 X4 X5 X6 X7 X8 Target
1 89 96 96 93 88 84 96 127 IPA
2 88 95 95 90 90 85 92 115 IPA
3 83 93 94 87 89 82 90 109 IPA
4 89 90 92 83 89 85 86 118 IPA
5 83 90 86 89 76 82 91 118 IPA
6 80 88 90 85 78 82 91 118 IPA
7 82 84 84 89 91 84 90 100 IPA
8 82 87 80 90 79 85 87 106 IPA
9 79 88 90 81 84 81 86 118 IPA
10 84 78 85 89 83 84 90 112 IPA
167 70 76 70 76 75 78 78 93 IPS
Keterangan :
ID siswa : Nomor Urut Siswa, X1 : Nilai Matematika, X2 : Nilai Biologi, X3 : Nilai Fisika, X4 : Nilai Ekonomi, X5 : Nilai Geografi, X6 : Nilai Kimia, X7 :
Nilai Sosiologi, X8 : Nilai Kemapuan Menalar (IQ).
Untuk melihat rincian data penjurusan siswa selengkapnya dapat dilihat pada lampiran 1.
4.1.3. Proses Clustering dengan X-Means
Pengujian ini bertujuan untuk melihat pengaruh jumlah dokumen, jumlah cluster, dan metode clustering dalam mengelompokkan dokumen. Selanjutnya dilakukan proses clustering dengan menggunakan X-Means, adapun tahapannya adalah sebagai berikut:
i. Inisialisasi jumlah cluster (C=2) dengan pusat cluster 1 dan pusat cluster 2 diambil secara random, adapun pusat cluster awal dapat dilihat pada tabel 4.2.
Tabel 4.2 Inisialisasi Pusat Cluster Awal (Iterasi ke-1)
ID Siswa X1 X2 X3 X4 X5 X6 X7 X8 Target
85 75 77 72 73 73 70 85 91 IPA
165 70 80 70 69 70 78 78 90 IPS
ii. Hitung jarak setiap data ke masing-masing pusat cluster awal pada tabel 4.2 dengan persamaan sebagai berikut :
2= 2 (4.1)
Keterangan :
x1 : data ke-i dari atribut ke-j
x2 : pusat cluster ke-i dari atribut ke-j n : jumlah karakteristik data (atribut)
: Euclidean Distance, jarak antara data pada titik
x
1 danx
2Berikut adalah perhitungan jarak antar data ke pusat cluster pada tabel 4.2 adalah :
Melakukan hal yang sama sampai seluruh data siswa diperoleh masing-masing jarak terhadap pusat cluster 1 (C1) dan pusat cluster 1 (C2). Adapun hasil perhitungan jarak antar data dapat dilihat pada tabel 4.3.
Tabel 4.3 Jarak Data terhadap Pusat Cluster (Iterasi 1)
ID Siswa Jarak Jarak
ID Siswa Jarak Jarak
Terdekat Cluster ID Siswa
C1 C2
Untuk melihat rincian Jarak Data terhadap Pusat Cluster (Iterasi 1) selengkapnya dapat dilihat pada lampiran 2.
iii. Tentukan pusat cluster baru dengan cara menghitung rata-rata nilai attribut setiap data yang termasuk kedalam cluster pada tabel 4.3. Adapun nilai cluster yang baru dapat dilihat pada tabel 4.4.
Tabel 4.4 Inisialisasi Pusat Cluster Baru (Iterasi ke-2)
Cluster X1 X2 X3 X4 X5 X6 X7 X8
C1 79.65 79.38 79.14 79.97 77.53 77.84 82.96 100.97 C2 71.02 71.60 68.81 72.35 69.73 75.23 74.48 91.88
iv. Kembali kelangkah ii sampai tidak ada data yang berpindah cluster atau sampai batas maksimal iterasi. Pada penelitian ini, konvergensi atau titik pusat data penjurusan siswa diperoleh pada saat iterasi ke – 11, Adapun nilai pusat cluster akhir yang didapati dapat dilihat pada tabel 4.5.
Tabel 4.5 Inisialisasi Pusat Cluster Akhir (Iterasi ke-11)
Cluster X1 X2 X3 X4 X5 X6 X7 X8
C1 83.613 85.565 84.984 83.210 80.694 80.774 85.371 105.532 C2 73.038 71.876 70.571 74.286 71.800 74.819 77.333 93.771
Jika dilakukan pengujian menggunakan aplikasi Rapidminer maka hasil
perhitungan manual dengan Rapidminer menjadi sama seperti tampilan berikut:
Gambar. 4.2 Nilai pusat cluster akhir dengan Rapidminer 4.1.4 Perhitungan Evaluasi Clustering
Evaluasi clustering dilakukan dengan tujuan untuk mengetahui seberapa baik kualitas dari hasil clustering. Pada penelitian ini, evaluasi hasil clustering yang digunakan adalah Davies-Bouldin Index. Untuk mendapatkan nilai Davies-Bouldin Index, terlebih dahulu dihitung nilai Sum of Square Within-cluster (SSW), Sum of Square Between-cluster (SSB) dan Ratio. Untuk memulai perhitungan manual Davies-Bouldin Index, dibutuhkan data yang sudah di clustering. Illustrasi data sample yang telah selesai di-clustering dapat dilihat pada tabel 4.6.
Tabel 4.6 Illustrasi data sample yang telah selesai di-clustering C1
Untuk melihat rincian Illustrasi data sample C1 dan C2 yang telah selesai di-clustering selengkapnya dapat dilihat pada lampiran 3.
Data yang telah selesai di-clustering diperoleh dari perhitungan jarak data dengan titik pusat cluster akhir. Titik pusat cluster akhir dari proses clustering merupakan nilai rata-rata yang dimiliki oleh masing-masing cluster 1 dan cluster 2. Nilai rata-rata tersebut digunakan sebagai input dalam perhitungan Sum of Square Within-cluster (SSW). Titik pusat cluster akhir dari proses clustering dapat dilihat pada tabel 4.7 berikut ini.
Tabel 4.7 Titik pusat cluster akhir dari proses clustering
mj Atribut1 Atribut2 Atribut3 Atribut4 Atribut5 Atribut6 Atribut7 Atribut8 m1 baru 83.613 85.565 84.984 83.210 80.694 80.774 85.371 105.532 m2 baru 73.038 71.876 70.571 74.286 71.800 74.819 77.333 93.771
Tahap pertama dari evaluasi clustering menggunakan Davies-Bouldin Index adalah menghitung nilai Sum of Square Within-cluster (SSW) menggunakan persamaan (2.2).
Nilai SSW diperoleh dari perhitungan jarak setiap data terhadap titik pusat cluster akhir menggunakan Euclidiean Distane. Nilai SSW yang diperoleh dari keseluruhan perhitungan SSW adalah sebagai berikut.
SSW1 = 15.3517 SSW2 = 13.3528
Setelah nilai SSW diperoleh, selanjutnya adalah menghitung nilai Sum of Square Between-cluster (SSB). Untuk mendapatkan nilai SSB adalah dengan menghitung jarak antar titik pusat cluster dari setiap cluster menggunakan persamaan (2.3)
SSB1,2 = 30.0671
Perhitungan selanjutnya setelah SSW dan nilai SSB diperoleh adalah menghitung nilai Ratio (Rasio). Nilai Rasio diperoleh dengan menghitung jarak antar titik pusat cluster dari setiap cluster menggunakan persamaan (2.4)
Tabel 4.8 Nilai rasio dari setiap cluster
R Data ke -i
R-Max
1 2
1 0 0.9547 0.9547
2 0.9547 0 0.9547
Karena nilai rasio telah diperoleh, maka perhitungan selanjutnya adalah menghitung nilai Davies-Bouldin Index (DBI). Nilai Davies-Bouldin Index (DBI) diperoleh dengan menghitung rata-rata dari rasio terbesar (R-Max) menggunakan persamaan (2.5)
Berdasarkan hasil DBI yang diperoleh, maka dapat disimpulkan hasil evaluasi dari hasil clustering pada tabel 4.3 adalah cukup baik, karena nilai DBI yang diperoleh sudah mendekati nilai 0.
4.1.5 Grafik jarak antar centroid
Pada Gambar 4.1 ditampilkan grafik hasil pencarian nilai jarak antar centroid, dimana untuk setiap jarak centroid cluster adalah 30.067 dengan K=2.
Gambar 4.3 Jarak antar centroid
4.1.6 Hasil Evaluasi Clustering
Hasil clustering telah diperoleh, maka tahap selanjutnya adalah menghitung nilai DBI dari setiap hasil clustering. Untuk kemudian dihitung nilai rata-rata DBI dari seluruh percobaan dan pada setiap jumlah cluster. Hasil nilai Davies-Bouldin Index dari jumlah Cluster dapat dilihat pada tabel 4.9.
Tabel 4.9 Hasil Davies-Bouldin Index
X
Rata-rata dalam jarak
centroid
Rata-rata dalam jarak centroid pada
cluster
Davies-Bouldin Index
C0 C1 C2 C3
Min 2, Max 100 225.891 15.352 13.353 0.955
Min 3, Max 100 187. 973 168.487 216.509 199.225 1.345 Min 4, Max 100 168.562 111.478 167.479 201.492 184.340 1.531 Berdasarkan hasil DBI yang diperoleh, yaitu 2 cluster dengan hasil DBI = 0.955, 3 cluster hasil DBI = 1.345 dan 4 cluster hasil DBI = 1.531, maka dapat disimpulkan hasil evaluasi dari hasil clustering pada tabel 4.9 bahwa hasil yang terbaik berada pada centroid 2 cluster , karena nilai DBI yang diperoleh sudah mendekati nilai 0.
BAB 5