Penerapan Metode K-Means Clustering Datamining pada Tingkat
Persaingan SBMPTN di Program Studi ITS
Tugas : Demo Program Data Mining
Disusun sebagai salah satu syarat untuk memenuhi tugas Projek Akhir mata kuliah Data Mining.
Oleh :
Riza Nidhom Fahmi
NRP 2110157002
PROGRAM STUDI D4 LJ PJJ TEKNIK INFORMATIKA
DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER
Metode K-Means Clustering digunakan dalam data mining untuk mengelompokan data-data kedalam cluster atau beberapa kelompok berdasarkan suatu kemiripan variabel atau atribut data. Berikut adalah contoh data yang saya Gunakan:
NO Nama Prodi data tampung 2016 peminat 2015
1 FISIKA 30 361
2 MATEMATIKA 39 493
3 STATISTIKA 36 759
4 KIMIA 36 586
5 BIOLOGI 27 644
6 TEKNIK MESIN 60 1.784
7 TEKNIK ELEKTRO 48 1.199
8 TEKNIK KIMIA 48 956
9 TEKNIK FISIKA 45 898
10 TEKNIK INDUSTRI 60 1.225
11 TEKNIK MATERIAL DAN METALURGI
39 1.235
12 TEKNIK SIPIL 45 1.653
13 ARSITEKTUR 30 1.135
Berdasarkan data diatas saya ingin mengelompokkan Tingkat Persaingan yang ada di Program
Studi ITS dengan kriteria Daya Tampung program studi dan peminat program studi tersebut.
Algoritma Metode K Means Clustering
Langkah- Langkah perhitungannya adalah: 1. Menentukan Jumlah cluster data.
2. Tentukan titik pusat cluster secara Random.
3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
4. kelompokan obyek (Alokasikan masing-masing data ke centroid/rata-rata terdekat)
5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan
Distance space digunakan untuk menghitung jarak antara data dan centroid. Adapun persamaan yang dapat digunakan salah satunya yaitu Euclidean Distance Space. Euclidean distance space sering digunakan dalam perhitungan jarak, hal ini dikarenakan hasil yang diperoleh
merupakan jarak terpendek antara dua titik yang diperhitungkan. Adapun persamaannya adalah sebagai berikut :
dimana :
dij = Jarak objek antara objek i dan j
P = Dimensi data
Xik = Koordinat dari obyek i pada dimensi k
Dalam tahap ini akan dijelaskan langkah-langkah pengoperasian algoritma K-Means secara manual:
Langkah 1. Menentukan Jumlah Claster.
Diketahui:
Jumlah Cluster = 3, jumlah data = 13, jumlah atribut = 2
NO Nama Prodi data tampung 2016 peminat 2015
1 FISIKA 30 361
11 TEKNIK MATERIAL DAN METALURGI
39 1.235
12 TEKNIK SIPIL 45 1.653
13 ARSITEKTUR 30 1.135
Langkah 2. Tentukan Titik Pusat Cluster Secara Random.
Langkah 3. Perhitungan Jarak Pusat Cluster
Untuk mengukur jarak antara dengan pusat Cluster digunakan Euclidian Distance, kemudian akan didapatkan matriks jarak yaitu C1, C2 dan C3 sebagai berikut:
Berikut perhitungannya dengan menggunakan persamaan Euclidean Distance Space : - Jarak antara data daya tampung dan peminat pertama dengan pusat cluster pertama.
C1=SQRT((30-30)^2+(361-586)^2)=225
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-dua. C2= SQRT((30-27)^2+(361-1199)^2)= 838.0054
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-tiga. C3= SQRT((30-45)^2+(361-759)^2)= 398.2826
Adapun hasil dari perhitungan dari keseluruhan data terhadap tiap pusat cluster awal disajikan pada tabel berikut
649.0624 53.07542 476.0378 53.07542
Langkah 4. Pengelompokan Data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut berada dalam group(kelompok data).
Langkah 5. Penentuan pusat cluster baru
Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster. Sehingga didapatkan perhitungan sebagai berikut :
1 2
C1 33 521
C2 47 1371.833
C3 43 871
Ulangi langkah ke 3 (kedua) hingga posisi data tidak mengalami perubahan. dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
NO C1 C2 C3
Keterangan: Karena kelompok data 1 dan Kelompok data 2 sudah tidak ada perbedaan maka Proses Perulangannya di Hentikan karena proses pengclasifikasian sudah selesai.