• Tidak ada hasil yang ditemukan

HASIL DAN PEMBAHASAN

4.3 Pencarian K-Means

Tahapan akan dilakukan menggunakan k-means pada dataset blood Transfusion Service Center. Perhitungan akan dilakukan menggunakan pusat cluster dua (dua) samapi dengan 10 (sepuluh) yang diambil secara acak. Berikut penyelesaiannya :

1. K = 2

Dengan pusat cluster yang diambil secara acak berada pada data ke :1 dan 9 yaitu (2, 50, 12500, 98, 2) dan (2, 9, 2250, 22, 2). Dengan jarak yang dihitung menggunakan Euclidean Distance. Perhitungan 1 sampai 10: a. Jarak data ke-1 dengan pusat cluster

(1, 1) = √(2 − 2)2 + (50 − 50)2 + (12500 − 12500)2 + (98 − 98)2 + (2 − 2)2 (1, 1) = 0

(1, 2) = √(2 − 2)2 + (50 − 9)2 + (12500 − 2250)2 + (28 − 22)2 + (2 − 2)2 (1, 2) = 10250.36

b. Jarak data ke-2 dengan pusat cluster

(2, 1) = √(0 − 2)2 + (13 − 50)2 + (3250 − 12500)2 + (28 − 98)2 + (2 − 2)2 (2, 1) = 9250.339.

(2, 2) = √(0 − 2)2 + (13 − 9)2 + (3250 − 2250)2 + (28 − 22)2 + (2 − 2)2 (2, 2) = 1000.028

c. Jarak data ke-3 dengan pusat cluster

(3, 1) = √(1 − 2)2 + (16 − 50)2 + (4000 − 12500)2 + (35 − 98)2 + (2 − 2)2 (3, 1) = 8500.302 (3, 2) = √(1 − 2)2 + (16 − 9)2 + (4000 − 2250)2 + (35 − 22)2 + (2 − 2)2 (3, 2) = 1750.063

d. Jarak data ke-4 dengan pusat cluster

(4, 1) = √(2 − 2)2 + (20 − 50)2 + (5000 − 12500)2 + (45 − 98)2 + (2 − 2)2 (4, 1) = 7500.247 (4, 2) = √(2 − 2)2 + (20 − 9)2 + (5000 − 2250)2 + (45 − 22)2 + (2 − 2)2 (4, 2) = 2750.118

e. Jarak data ke-5 dengan pusat cluster

23

(5, 1) = √(1 − 2)2 + (24 − 50)2 + (6000 − 12500)2 + (77 − 98)2 + (1 − 2)2

(5, 1) = 6500.086

(5, 2) = √(1 − 2)2 + (24 − 9)2 + (6000 − 2250)2 + (77 − 22)2 + (1 − 2)2 (5, 2) = 3750.434

f. Jarak data ke-6 dengan pusat cluster

(6, 1) = √(4 − 2)2 + (4 − 50)2 + (1000 − 12500)2 + (4 − 98)2 + (1 − 2)2

(6, 1) = 11500.48

(6, 2) = √(4 − 2)2 + (4 − 9)2 + (1000 − 2250)2 + (4 − 22)2 + (1 − 2)2 (6, 2) = 1250.142

g. Jarak data ke-7 dengan pusat cluster

(7, 1) = √(2 − 2)2 + (7 − 50)2 + (1750 − 12500)2 + (14 − 98)2 + (2 − 2)2

(7, 1) = 10750.41

(7, 2) = √(2 − 2)2 + (7 − 9)2 + (1750 − 2250)2 + (14 − 22)2 + (2 − 2)2 (7, 2) = 500.068

h. Jarak data ke -8 dengan pusat cluster

(8, 1) = √(1 − 2)2 + (12 − 50)2 + (3000 − 12500)2 + (35 − 98)2 + (1 − 2)2

(8, 1) = 9500.285

(8, 2) = √(1 − 2)2 + (12 − 9)2 + (3000 − 2250)2 + (35 − 22)2 + (1 − 2)2 (8, 2) = 750.12

i. Jarak data ke -9 dengan pusat cluster

(9, 1) = √(2 − 2)2 + (9 − 50)2 + (2250 − 12500)2 + (22 − 98)2 + (2 − 2)2

(9, 1) = 10250.36

(9, 2) = √(2 − 2)2 + (9 − 9)2 + (2250 − 2250)2 + (22 − 22)2 + (2 − 2)2 (9, 2) = 0

j. Jarak data ke -10 dengan pusat cluster

(10, 1) = √(5 − 2)2 + (46 − 50)2 + (11500 − 12500)2 + (98 − 98)2 + (2 − 2)2

(10 1) = 1000.12

(10, 2) = √(5 − 2)2 + (46 − 9)2 + (11500 − 2250)2 + (98 − 22)2 + (2 − 2)2 (10, 2) = 9250.387

Perhitungan data dengan kedua cluster, dapat dilihat pada tabel 4.3 berikut:

Tabel 4.3 Pencarian jarak dengan titik pada cluster

date ke c1 c2

1 0 10250.36

24

date ke c1 c2

date ke c1 c2

date ke c1 c2

Langkah selanjutnya yaitu menentukan centroid (mean) pada cluster. Setelah diperoleh nilai baru maka selanjutnya akan kembali menghitung jarak. Iterasi selanjutnya akan dihitung dengan cara yang sama dan perpindahan data lain.

Setelah tidak terjadi perpindahan data dari cluster yang satu dengan yang lainnya, maka proses clustering dihentikan. Pada pengujian yang dilakukan menggunakan dataset Blood Transfusion Service Center dengan jumlah pusat cluster 2 (dua) berhenti pada iterasi ke – 12 (dua belas). Berikut merupakan hasil akhir pengujian yang dilakukan.

Tabel 4.4 Pengujian k-means dengan pusat cluster 2 date ke Hasil Clustering

Data 1 Clustering 1

Data 2 Clustering 1

date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

Dari 748 data, yang termasuk dalam Clustering 1 sebanyak 81 data dan yang termasuk ke dalam Clustering 2 sebanyak 657.

2. K = 3

Dengan menggunakan pusat cluster sebanyak 3 pusat cluster yang diambil secara acak berhenti di iterasi ke-2 dengan hasil akhir Clustering sebagai berikut :

Tabel 4.5 Pengujian k-means pada pusat cluster 2 date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

Dari 748 data yang dihitung dengan pusat cluster 3, yang termasuk dalam Clustering 1 sebanyak 8, Clustering 2 sebanyak 164, Clustering 3 sebanyak 576.

3. K = 4

Dengan menggunakan pusat cluster sebanyak 4 pusat cluster yang diambil secara acak berhenti di iterasi ke-4 dengan hasil akhir Clustering ini :

Tabel 4.6 Perhitungan k-means dengan pusat cluster sebanyak 4 date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

Dari 748 data yang dihitung dengan pusat cluster 4, yang termasuk dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 95 data, Clustering 3 sebanyak 226 data, dan Clustering ke 4 sebanyak 419 data.

4. K = 5

Dengan menggunakan pusat cluster sebanyak 5 pusat cluster yang diambil secara acak berhenti di iterasi ke-5 dengan hasil akhir Clustering ini:

Tabel 4.7 Hasil akhir k-means pada pusat cluster 5 date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

Dari 748 data yang dihitung dengan jumlah pusat cluster 5, yang termasuk dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 114 data, Clustering 3 sebanyak 219 data, Clustering ke 4 sebanyak 357 data dan Clustering 5 sebanyak 50 data.

5. K = 6

Dengan menggunakan pusat cluster sebanyak 6 pusat cluster yang diambil secara acak berhenti di iterasi ke-5 dengan hasil akhir Clustering sebagai berikut :

date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

Dari 748 data yang dihitung dengan jumlah pusat cluster 6, yang termasuk dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 112 data, Clustering 3 sebanyak 176 data, Clustering ke 4 sebanyak 357 data, Clustering 5 sebanyak 31 data dan Clustering 6 sebanyak 64.

6. K = 7

Dengan menggunakan pusat cluster sebanyak 7 pusat cluster yang diambil secara acak berhenti di iterasi ke-8 dengan hasil akhir Clustering sebagai berikut :

date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

Dari 748 data yang dihitung dengan jumlah pusat cluster 7, yang termasuk dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 69 data, Clustering 3 sebanyak 124 data, Clustering ke 4 sebanyak 357 data, Clustering 5 sebanyak 31 data, Clustering 6 sebanyak 64 dan Clustering 7 sebanyak 95.

7. K = 8

Dengan menggunakan pusat cluster sebanyak 8 pusat cluster yang diambil secara acak berhenti di iterasi ke-9 dengan hasil akhir Clustering sebagai berikut :

8. K = 9

Dengan menggunakan pusat cluster sebanyak 9 pusat cluster yang diambil secara acak berhenti di iterasi ke-9 dengan hasil akhir pengelompokan sebagai berikut :

date ke Hasil Clustering

Data 1 Clustering 1

Data 2 Clustering 6

date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

Dari 748 data yang dihitung dengan jumlah pusat cluster 9, yang termasuk dalam Clustering 1 sebanyak 8 data, kelompok Clustering 2 sebanyak 38 data, Clustering 3 sebanyak 33 data, Clustering ke 4 sebanyak 124 data, Clustering 5 sebanyak 31 data, Clustering 6 sebanyak 64, Clustering 7 sebanyak 19, Clustering 8 sebanyak 74, dan Clustering 9 sebanyak 357.

9. K = 10

Dengan menggunakan pusat cluster sebanyak 10 pusat cluster yang diambil secara acak berhenti di iterasi ke-9 dengan hasil akhir Clustering sebagai berikut :

date ke Hasil Clustering

Data 1 Clustering 1

Data 2 Clustering 6

Data 3 Clustering 5

date ke Hasil Clustering

date ke Hasil Clustering

date ke Hasil Clustering

Dari 748 data yang dihitung dengan jumlah pusat cluster 9, yang termasuk dalam Clustering 1 sebanyak 278 data, Clustering 2 sebanyak 38 data, Clustering 3 sebanyak 33 data, Clustering ke 4 sebanyak 62 data, Clustering 5 sebanyak 31 data, Clustering 6 sebanyak 64, Clustering 7 sebanyak 19, Clustering 8 sebanyak 74, Clustering 9 sebanyak 149, dan Clustering 10 sebanyak 270.

Jumlah iterasi yang dihasilkan oleh masing-masing pusat klaster dapat di lihat pada table (nomor table) adalah sebagai berikut :

Nomor Jumlah pusat klaster Jumlah iterasi 1 Pusat klaster 2 Iterasi 12

2 Pusat klaster 3 Iterasi 2 3 Pusat klaster 4 Iterasi 4 4 Pusat klaster 5 Iterasi 5

5 Pusat klaster 6 Iterasi 5 6 Pusat klaster 7 Iterasi 8

7 Pusat klaster 8 Iterasi belum diisi 8 Pusat klaster 9 Iterasi 9

9 Pusat klaster 10 Iterasi 9

4.4 Hasil silhouette coefficient

Berdasarkan hasil penelitian ini diperoleh jumlah cluster optimu berdasarkan indeks validitas shilhouette :

Tabel 4.9 Shilhouette Coefficient

Nomor Jumlah cluster k Hasil shilhouette S(i)

1 2 0.70497874

2 3 0.58820040

3 4 0.65051866

4 5 0.57455669

5 6 0.43902711

6 7 0.37286151

7 8 0.327991787

8 9 0.332222712

9 10 0.338617252

Tabel 4.9 data validasi cluster dengan indeks validasi shilhouette yang paling optimum. Proses K=3 indeks validitas 0.7417428908457862. Grafik hasil perhitungan shilhoutte :

Gambar 4.1 Nilai Shilhouette dengan K =2

Gambar 4.2 Nilai Shilhouette dengan K =3

Gambar 4.3 Nilai Shilhouette dengan K = 4

Gambar 4.4 Nilai Shilhouette dengan K = 5

Gambar 4.5 Nilai Shilhouette dengan K = 6

Gambar 4.6 Nilai Shilhouette dengan K = 7

Gambar 4.7 Nilai Shilhouette dengan K = 8

Gambar 4.8 Nilai Shilhouette dengan K = 9

Gambar 4.9 Nilai Shilhouette dengan K = 10 4.5 Hasil Pengujian Mengunakan Dataset lain

Dalam penelitian ini menggunakan tiga jenis dataset, hasil yang di ujicoba menggunakan python adalah sebegai berikut :

1. Hasil pengujian Iris Dataset

Nilai shilhouette coefision yang didapatkan menggunakan dataset Iris dengan ujicoba menggunakan 10 pusat klaster dan data pusat klaster diambil secara acak adalah sebagai berikut :

Nomor Jumlah Pusat Cluster Nilai Shilhouette

1 2 0.681046

2 3 0.552819

3 4 0.497217

4 5 0.488748

5 6 0.364834

6 7 0.349747

7 8 0.350060

8 9 0.328819

9 10 0.329014

Dari tabel di atas bahwa kesimpulan pusat klaster mempunyai dua nilai shilhoette paling tinggi. Maka dengan itu pusat klaster dua adalah pusat klaster yang paling optimum.

2. Hasil Pengujian Wholesale Customers

Nilai shilhouette coefision yang didapatkan menggunakan dataset Wholesale Customers dengan ujicoba menggunakan 10 pusat klaster dan data pusat klaster diambil secara acak adalah sebagai berikut :

Nomor Jumlah Pusat Cluster Nilai Shilhouette

1 2 0.4263

2 3 0.3969

3 4 0.3320

4 5 0.3510

5 6 0.3666

6 7 0.3633

7 8 0.3510

8 9 0.3541

9 10 0.3510

BAB V

Dokumen terkait