HASIL DAN PEMBAHASAN - ANALISIS CENTROID CLUSTERING MENGGUNAKAN METODE X-MEANS TESIS SARDO PARD

Bab ini merupakan penjelasan tentang penggunaan metode X-Means dengan ditetapkannya nilai centroid, serta analisa terhadap beberapa metode yang diterapkan juga yang bisa mendapatkan hasil dalam penelitian dengan cara mengcluster data menjadi beberapa cluster pada data set Penjurusan Siswa SMA.

Pelatihan serta pengujian dalam penelitian ini adalah dengan cara melakukan pengelompokkan data terbaik pada metode X-Means dengan melakukan beberapa pengujian terhadap penentuan nilai centroid.

4.1. Hasil Pengujian

Pengujian yang dilakukan oleh peneliti yaitu menggunakan data set Penjurusan Siswa SMA yang meliputi: ID Siswa, Matematika, Biologi, Fisika, Ekonomi, Geografi, Kimia, Sosiologi, IQ. Pada metode X-Means dengan ditetapkannya nilai centroid, serta analisa terhadap beberapa metode yang diterapkan juga yang bisa mendapatkan hasil dalam penelitian dengan cara clustering data menjadi beberapa cluster pada data set Penjurusan Siswa SMA sebagai langkah awal analisa dengan cara melakukan pengelompokkan data terbaik pada metode X-Means.

4.1.1. Model yang digunakan

Pada dataset yang telah ditentukan diperlukan model dari metode yang akan digunakan yaitu X-Means dengan grafik dari software RapidMiner yang digunakan dapat dilihat sebagai berikut:

Gambar 4.1 Rancangan Model X-Means 4.1.2. Pengujian Data

Pada pengujian data dilakukan analisa clustering yang menggunakan perangkat lunak yaitu RapidMiner. Data set diperoleh dari hasil penelitian yang dilakukan disekolah dengan mendapatkan nilai siswa. Data yang diuji bertujuan agar dapat mempelajari berbagai cluster yang terdapat dalam program serta perbedaan yang dihasilkan dari masing-masing metode yang diuji. Adapun rincian data adalah sebagai berikut :

Tabel 4.1 Rincian Data Penjurusan Siswa SMA ID

Siswa X1 X2 X3 X4 X5 X6 X7 X8 Target

1 89 96 96 93 88 84 96 127 IPA

2 88 95 95 90 90 85 92 115 IPA

3 83 93 94 87 89 82 90 109 IPA

4 89 90 92 83 89 85 86 118 IPA

5 83 90 86 89 76 82 91 118 IPA

6 80 88 90 85 78 82 91 118 IPA

7 82 84 84 89 91 84 90 100 IPA

8 82 87 80 90 79 85 87 106 IPA

9 79 88 90 81 84 81 86 118 IPA

10 84 78 85 89 83 84 90 112 IPA

167 70 76 70 76 75 78 78 93 IPS

Keterangan :

ID siswa : Nomor Urut Siswa, X1 : Nilai Matematika, X2 : Nilai Biologi, X3 : Nilai Fisika, X4 : Nilai Ekonomi, X5 : Nilai Geografi, X6 : Nilai Kimia, X7 :

Nilai Sosiologi, X8 : Nilai Kemapuan Menalar (IQ).

Untuk melihat rincian data penjurusan siswa selengkapnya dapat dilihat pada lampiran 1.

4.1.3. Proses Clustering dengan X-Means

Pengujian ini bertujuan untuk melihat pengaruh jumlah dokumen, jumlah cluster, dan metode clustering dalam mengelompokkan dokumen. Selanjutnya dilakukan proses clustering dengan menggunakan X-Means, adapun tahapannya adalah sebagai berikut:

i. Inisialisasi jumlah cluster (C=2) dengan pusat cluster 1 dan pusat cluster 2 diambil secara random, adapun pusat cluster awal dapat dilihat pada tabel 4.2.

Tabel 4.2 Inisialisasi Pusat Cluster Awal (Iterasi ke-1)

ID Siswa X1 X2 X3 X4 X5 X6 X7 X8 Target

85 75 77 72 73 73 70 85 91 IPA

165 70 80 70 69 70 78 78 90 IPS

ii. Hitung jarak setiap data ke masing-masing pusat cluster awal pada tabel 4.2 dengan persamaan sebagai berikut :

2= ² (4.1)

Keterangan :

x1 : data ke-i dari atribut ke-j

x2 : pusat cluster ke-i dari atribut ke-j n : jumlah karakteristik data (atribut)

: Euclidean Distance, jarak antara data pada titik

x

1 dan

x

Berikut adalah perhitungan jarak antar data ke pusat cluster pada tabel 4.2 adalah :

Melakukan hal yang sama sampai seluruh data siswa diperoleh masing-masing jarak terhadap pusat cluster 1 (C1) dan pusat cluster 1 (C2). Adapun hasil perhitungan jarak antar data dapat dilihat pada tabel 4.3.

Tabel 4.3 Jarak Data terhadap Pusat Cluster (Iterasi 1)

ID Siswa Jarak Jarak

Terdekat Cluster ID Siswa

C1 C2

Untuk melihat rincian Jarak Data terhadap Pusat Cluster (Iterasi 1) selengkapnya dapat dilihat pada lampiran 2.

iii. Tentukan pusat cluster baru dengan cara menghitung rata-rata nilai attribut setiap data yang termasuk kedalam cluster pada tabel 4.3. Adapun nilai cluster yang baru dapat dilihat pada tabel 4.4.

Tabel 4.4 Inisialisasi Pusat Cluster Baru (Iterasi ke-2)

Cluster X1 X2 X3 X4 X5 X6 X7 X8

C1 79.65 79.38 79.14 79.97 77.53 77.84 82.96 100.97 C2 71.02 71.60 68.81 72.35 69.73 75.23 74.48 91.88

iv. Kembali kelangkah ii sampai tidak ada data yang berpindah cluster atau sampai batas maksimal iterasi. Pada penelitian ini, konvergensi atau titik pusat data penjurusan siswa diperoleh pada saat iterasi ke – 11, Adapun nilai pusat cluster akhir yang didapati dapat dilihat pada tabel 4.5.

Tabel 4.5 Inisialisasi Pusat Cluster Akhir (Iterasi ke-11)

Cluster X1 X2 X3 X4 X5 X6 X7 X8

C1 83.613 85.565 84.984 83.210 80.694 80.774 85.371 105.532 C2 73.038 71.876 70.571 74.286 71.800 74.819 77.333 93.771

Jika dilakukan pengujian menggunakan aplikasi Rapidminer maka hasil

perhitungan manual dengan Rapidminer menjadi sama seperti tampilan berikut:

Gambar. 4.2 Nilai pusat cluster akhir dengan Rapidminer 4.1.4 Perhitungan Evaluasi Clustering

Evaluasi clustering dilakukan dengan tujuan untuk mengetahui seberapa baik kualitas dari hasil clustering. Pada penelitian ini, evaluasi hasil clustering yang digunakan adalah Davies-Bouldin Index. Untuk mendapatkan nilai Davies-Bouldin Index, terlebih dahulu dihitung nilai Sum of Square Within-cluster (SSW), Sum of Square Between-cluster (SSB) dan Ratio. Untuk memulai perhitungan manual Davies-Bouldin Index, dibutuhkan data yang sudah di clustering. Illustrasi data sample yang telah selesai di-clustering dapat dilihat pada tabel 4.6.

Tabel 4.6 Illustrasi data sample yang telah selesai di-clustering C1

Untuk melihat rincian Illustrasi data sample C1 dan C2 yang telah selesai di-clustering selengkapnya dapat dilihat pada lampiran 3.

Data yang telah selesai di-clustering diperoleh dari perhitungan jarak data dengan titik pusat cluster akhir. Titik pusat cluster akhir dari proses clustering merupakan nilai rata-rata yang dimiliki oleh masing-masing cluster 1 dan cluster 2. Nilai rata-rata tersebut digunakan sebagai input dalam perhitungan Sum of Square Within-cluster (SSW). Titik pusat cluster akhir dari proses clustering dapat dilihat pada tabel 4.7 berikut ini.

Tabel 4.7 Titik pusat cluster akhir dari proses clustering

mj Atribut1 Atribut2 Atribut3 Atribut4 Atribut5 Atribut6 Atribut7 Atribut8 m1 baru 83.613 85.565 84.984 83.210 80.694 80.774 85.371 105.532 m2 baru 73.038 71.876 70.571 74.286 71.800 74.819 77.333 93.771

Tahap pertama dari evaluasi clustering menggunakan Davies-Bouldin Index adalah menghitung nilai Sum of Square Within-cluster (SSW) menggunakan persamaan (2.2).

Nilai SSW diperoleh dari perhitungan jarak setiap data terhadap titik pusat cluster akhir menggunakan Euclidiean Distane. Nilai SSW yang diperoleh dari keseluruhan perhitungan SSW adalah sebagai berikut.

SSW1 = 15.3517 SSW2 = 13.3528

Setelah nilai SSW diperoleh, selanjutnya adalah menghitung nilai Sum of Square Between-cluster (SSB). Untuk mendapatkan nilai SSB adalah dengan menghitung jarak antar titik pusat cluster dari setiap cluster menggunakan persamaan (2.3)

SSB1,2 = 30.0671

Perhitungan selanjutnya setelah SSW dan nilai SSB diperoleh adalah menghitung nilai Ratio (Rasio). Nilai Rasio diperoleh dengan menghitung jarak antar titik pusat cluster dari setiap cluster menggunakan persamaan (2.4)

Tabel 4.8 Nilai rasio dari setiap cluster

R Data ke -i

R-Max

1 2

1 0 0.9547 0.9547

2 0.9547 0 0.9547

Karena nilai rasio telah diperoleh, maka perhitungan selanjutnya adalah menghitung nilai Davies-Bouldin Index (DBI). Nilai Davies-Bouldin Index (DBI) diperoleh dengan menghitung rata-rata dari rasio terbesar (R-Max) menggunakan persamaan (2.5)

Berdasarkan hasil DBI yang diperoleh, maka dapat disimpulkan hasil evaluasi dari hasil clustering pada tabel 4.3 adalah cukup baik, karena nilai DBI yang diperoleh sudah mendekati nilai 0.

4.1.5 Grafik jarak antar centroid

Pada Gambar 4.1 ditampilkan grafik hasil pencarian nilai jarak antar centroid, dimana untuk setiap jarak centroid cluster adalah 30.067 dengan K=2.

Gambar 4.3 Jarak antar centroid

4.1.6 Hasil Evaluasi Clustering

Hasil clustering telah diperoleh, maka tahap selanjutnya adalah menghitung nilai DBI dari setiap hasil clustering. Untuk kemudian dihitung nilai rata-rata DBI dari seluruh percobaan dan pada setiap jumlah cluster. Hasil nilai Davies-Bouldin Index dari jumlah Cluster dapat dilihat pada tabel 4.9.

Tabel 4.9 Hasil Davies-Bouldin Index

Rata-rata dalam jarak

centroid

Rata-rata dalam jarak centroid pada

cluster

Davies-Bouldin Index

C0 C1 C2 C3

Min 2, Max 100 225.891 15.352 13.353 0.955

Min 3, Max 100 187. 973 168.487 216.509 199.225 1.345 Min 4, Max 100 168.562 111.478 167.479 201.492 184.340 1.531 Berdasarkan hasil DBI yang diperoleh, yaitu 2 cluster dengan hasil DBI = 0.955, 3 cluster hasil DBI = 1.345 dan 4 cluster hasil DBI = 1.531, maka dapat disimpulkan hasil evaluasi dari hasil clustering pada tabel 4.9 bahwa hasil yang terbaik berada pada centroid 2 cluster , karena nilai DBI yang diperoleh sudah mendekati nilai 0.

BAB 5

Dalam dokumen ANALISIS CENTROID CLUSTERING MENGGUNAKAN METODE X-MEANS TESIS SARDO PARDINGOTAN SIPAYUNG (Halaman 32-41)