Penerapan Metode K Means Clustering Data (1)

(1)

Penerapan Metode K-Means Clustering Datamining pada Tingkat

Persaingan SBMPTN di Program Studi ITS

Tugas : Demo Program Data Mining

Disusun sebagai salah satu syarat untuk memenuhi tugas Projek Akhir mata kuliah Data Mining.

Oleh :

Riza Nidhom Fahmi

NRP 2110157002

PROGRAM STUDI D4 LJ PJJ TEKNIK INFORMATIKA

DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER

(2)

Metode K-Means Clustering digunakan dalam data mining untuk mengelompokan data-data kedalam cluster atau beberapa kelompok berdasarkan suatu kemiripan variabel atau atribut data. Berikut adalah contoh data yang saya Gunakan:

NO Nama Prodi data tampung 2016 peminat 2015

1 FISIKA 30 361

2 MATEMATIKA 39 493

3 STATISTIKA 36 759

4 KIMIA 36 586

5 BIOLOGI 27 644

6 TEKNIK MESIN 60 1.784

7 TEKNIK ELEKTRO 48 1.199

8 TEKNIK KIMIA 48 956

9 TEKNIK FISIKA 45 898

10 TEKNIK INDUSTRI 60 1.225

11 TEKNIK MATERIAL DAN METALURGI

39 1.235

12 TEKNIK SIPIL 45 1.653

13 ARSITEKTUR 30 1.135

Berdasarkan data diatas saya ingin mengelompokkan Tingkat Persaingan yang ada di Program

Studi ITS dengan kriteria Daya Tampung program studi dan peminat program studi tersebut.

Algoritma Metode K Means Clustering

(3)

Langkah- Langkah perhitungannya adalah: 1. Menentukan Jumlah cluster data.

2. Tentukan titik pusat cluster secara Random.

3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster

4. kelompokan obyek (Alokasikan masing-masing data ke centroid/rata-rata terdekat)

5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan

Distance space digunakan untuk menghitung jarak antara data dan centroid. Adapun persamaan yang dapat digunakan salah satunya yaitu Euclidean Distance Space. Euclidean distance space sering digunakan dalam perhitungan jarak, hal ini dikarenakan hasil yang diperoleh

merupakan jarak terpendek antara dua titik yang diperhitungkan. Adapun persamaannya adalah sebagai berikut :

dimana :

dij = Jarak objek antara objek i dan j

P = Dimensi data

Xik = Koordinat dari obyek i pada dimensi k

(4)

Dalam tahap ini akan dijelaskan langkah-langkah pengoperasian algoritma K-Means secara manual:

Langkah 1. Menentukan Jumlah Claster.

Diketahui:

Jumlah Cluster = 3, jumlah data = 13, jumlah atribut = 2

NO Nama Prodi data tampung 2016 peminat 2015

1 FISIKA 30 361

11 TEKNIK MATERIAL DAN METALURGI

39 1.235

12 TEKNIK SIPIL 45 1.653

13 ARSITEKTUR 30 1.135

Langkah 2. Tentukan Titik Pusat Cluster Secara Random.

(5)

Langkah 3. Perhitungan Jarak Pusat Cluster

Untuk mengukur jarak antara dengan pusat Cluster digunakan Euclidian Distance, kemudian akan didapatkan matriks jarak yaitu C1, C2 dan C3 sebagai berikut:

Berikut perhitungannya dengan menggunakan persamaan Euclidean Distance Space : - Jarak antara data daya tampung dan peminat pertama dengan pusat cluster pertama.

C1=SQRT((30-30)^2+(361-586)^2)=225

- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-dua. C2= SQRT((30-27)^2+(361-1199)^2)= 838.0054

- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-tiga. C3= SQRT((30-45)^2+(361-759)^2)= 398.2826

Adapun hasil dari perhitungan dari keseluruhan data terhadap tiap pusat cluster awal disajikan pada tabel berikut

649.0624 53.07542 476.0378 53.07542

(6)

Langkah 4. Pengelompokan Data

Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.

Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut berada dalam group(kelompok data).

Langkah 5. Penentuan pusat cluster baru

Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster. Sehingga didapatkan perhitungan sebagai berikut :

1 2

C1 33 521

C2 47 1371.833

C3 43 871

(7)

Ulangi langkah ke 3 (kedua) hingga posisi data tidak mengalami perubahan. dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.

NO C1 C2 C3

Keterangan: Karena kelompok data 1 dan Kelompok data 2 sudah tidak ada perbedaan maka Proses Perulangannya di Hentikan karena proses pengclasifikasian sudah selesai.