SKS Lulus - Penerapan Metode Clustering Data Dengan C-Means Untuk Rekomendasi Penerima Beasiswa

IPK Penghasilan 101402001 20 14 6 85 2.98 5 101402002 21 14 6 87 3.56 5 101402003 21 14 6 87 3.2 5 101402004 20 14 6 82 2.91 7.5 101402005 21 14 6 85 2.97 5 101402007 22 14 6 87 3.42 5 101402008 21 14 6 96 3.05 5 101402009 20 14 6 87 3.68 5 101402010 20 14 6 72 2.13 5.5 101402013 21 14 6 85 3.22 5 101402014 20 14 6 84 3.5 5 101402015 20 14 6 87 3.28 5.5

Tabel 3.4 Hasil Filterisasi (Cleaning Data) Karakteristik Data Mahasiswa (Lanjutan)

NIM Umur Fakultas Semester Jumlah

SKS Lulus IPK Penghasilan 101402016 20 14 6 84 3.17 5 101402017 20 14 6 87 3.35 5 101402018 20 14 6 84 2.99 5 101402019 21 14 6 87 3.24 5 101402020 20 14 6 98 3.42 7.5 101402021 22 14 6 85 3.08 7.5 101402022 20 14 6 82 2.81 7.5 101402023 20 14 6 87 3.51 7.5

Tabel diatas merupakan filterisasi/cleaning data dari data yang di inputkan mahasiswa yang mendaftar beasiswa. Setiap penghasilan orang tua dibagikan 1.000.000 sehingga menghasilkan nilai seperti pada tabel 3.4. Misalkan penghasilan orang tua RP 5.000.000 kemudian dibagi 1.000.000 sehingga hasilnya 5. Mahasiswa yang orang tuanya mampu mempunyai kemungkinan untuk memperoleh beasiswa apabila mahasiswa tersebut berprestasi dan jika kriteria yang dimiliki mahasiswa sesuai dengan syarat beasiswa yang ditawarkan. Sedangkan untuk Fakultas di ubah menjadi numerik dengan nilai numeriknya berdasarkan urutan dari tiap Fakultas tersebut, seperti pada tabel 3.3.

3.3.3 Pembentukan Centroid Cluster

Pembentukan centroid di gunakan untuk mengelompokkan atribut-atribut dari tiap- tiap cluster. Atribut dari tiap cluster di jumlahkan kemudian dicari rata-rata tiap

cluster dan di akarkan untuk mendapatkan hasil yang minimum. Pembentukan

centroid di hitung dengan persamaan:

⋃ ( ) = 1∀ Keterangan:

X : Data sampel himpunan ke-i

: Data ke k, dengan k=1,2, …, p c : Banyak jenis himpunan data p : Banyak data

1. Centroid 1 – Gabungan dari semua kelompok (set) umur meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ ( ) dengan n = jumlah data.

= = = 20.5 =√ 20.5 = 4.5

2. Centroid 2–Gabungan dari semua kelompok (set) fakultas meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ ( ) dengan n = jumlah data.

= = = 14 =√ 14 = 3.7

3. Centroid 3 – Gabungan dari semua kelompok (set) semester meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan

∑ ( ) dengan n = jumlah data. =

= 6 =√ 6 = 2.4

4. Centroid 4 – Gabungan dari semua kelompok (set) SKS meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ ( ) dengan n = jumlah data.

= = = 85.9 =√ 85.9 = 9.3

5. Centroid 5 – Gabungan dari semua kelompok (set) IPK meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ ( ) dengan n = jumlah data.

= . . . . = .

= 3.17 =√ 3.17 = 1.78

6. Centroid 6 – Gabungan dari semua kelompok (set) penghasilan orang tua meliputi himpunan titik data X, agar nilai rata-rata yang diperoleh menghasilkan nilai minimum maka nilai rata-rata di akarkan dapat di tulis dengan persamaan ∑ ( ) dengan n = jumlah data.

= . . . .

= . = 5.68

=√ 5.68 = 2.38

Dari persamaan di atas maka dapat dihasilkan enam centroid dengan nilai yang berbeda tiap centroidnya. Tidak ada yang overlap antara cluster. Tidak ada cluster yang kosong dan tidak ada cluster yang memuat semua titik data. Tidak ada centroid yang nilainya sama karena centroid di kelompokkan berdasarkan objek yang sama dan berbeda dengan objek pada centroid yang lain, karena clustering mengelompokkan objek-objek sedemikian rupa sehingga objek dalam satu cluster sangat mirip sedangkan objek diberbagai cluster cukup berbeda. Dari persamaan di atas dapat disimpulkan bahwa perbandingan antara tiap-tiap centroid dapat dilihat pada tabel 3.4 berikut:

Tabel 3.5 Perbandingan Antara Tiap-tiap Centroid

4.5 3.7 2.4 9.3 1.78 2.38

3.3.4 Clustering dengan C-Means

Proses pengelompokan Clustering C-Means dapat dilihat pada gambar 3.4 Flowchart

Clustering C-Means. Pertama ditentukan banyaknya cluster kemudian di tentukan

pusat cluster. Pada penelitian ini jumlah cluster sebanyak 18, jumlah cluster pada penelitian ini di tetapkan berdasarkan banyaknya beasiswa yang ditawarkan di Universitas Sumatera Utara. Kemudian di tentukan pusat cluster dan dihitung jarak objek ke pusat cluster, objek tersebut dikelompokkan berdasarkan jarak minimum. Jika ada objek yang harus dipindah maka prosesnya akan kembali ke penentuan pusat

cluster.

Pusat cluster merupakan centroid yang memperoleh nilai minimum. Pada centroid1 samapai centroid6 pusat clusternya adalah centroid5 karena memperoleh nilai minimum yaitu 1.78. Pusat cluster bertujuan untuk menemukan alokasi titik data sedemikian rupa sehingga jarak diminimalkan. Menurut Euclidean norm, antara sampel data k, dan i pusat cluster dihitung dengan persamaan:

= ( − )

Keterangan:

: Jarak data ke pusat cluster : Nilai data

: Pusat cluster

k : 1,2, … p i :1,2, … c p : Banyak data

c : Banyak jenis himpunan data

Tabel 3.6 Jarak Data Umur ke Pusat Cluster

Umur = ( − ) = Jarak data ke pusat

cluster 20 20–1.78 18.22 21 21–1.78 19.22 21 21–1.78 19.22 20 20–1.78 18.22 21 21–1.78 19.22 22 22–1.78 20.22 21 21–1.78 19.22 20 20–1.78 18.22 20 20–1.78 18.22 21 21–1.78 19.22 20 20–1.78 18.22 20 20–1.78 18.22 20 20–1.78 18.22 20 20–1.78 18.22 20 20–1.78 18.22 21 21–1.78 19.22 20 20–1.78 18.22 22 22–1.78 20.22 20 20–1.78 18.22 20 20–1.78 18.22

Pada tabel 3.5 dapat diketahui jarak data umur ke pusat cluster. Sedangkan untuk sampel data Fakultas, Semester, SKS, IPK, dan penghasilan orang tua dapat diketahui jarak data dari tiap objek ke pusat cluster dengan persamaan seperti pada tabel 3.5. Setelah diketahui jarak objek ke pusat cluster kemudian objek dikelompokkan berdasarkan jarak minimum. Jika ada objek yang harus di pindah maka akan kembali pada proses penentuan pusat objek tersebut. Kemudian lanjut pada proses penghitungan jarak objek ke pusat cluster hingga pengelompokan objek berdasarkan jarak minimum dan dilakukan secara berulang sehingga diperoleh kualitas alokasi cluster yang berbeda. C-Means menggunakan jumlah jarak antara

usulan cluster dan data terkait yang menunjukkan milik kelompok tersebut, sehingga diperoleh rekomendasi jenis beasiswa yang sesuai untuk di ikuti mahasiswa yang mendaftar beasiswa. Rekomendasi yang diperoleh mahasiswa sesuai dengan jarak kedekatan karakter yang di inputkan terhadap jenis beasiswa yang direkomendasikan.

3.4 Analisis Komponen Sistem

3.4.1 Data Flow Diagram (DFD) Level 0

Data Flow Diagram (DFD) level 0 disebut dengan Diagram konteks (context

diagram). Diagram konteks pada sistem yang dibangun dapat di lihat pada gambar 3.5

Diagram konteks atau DFD level 0:

Gambar 3.4 Diagram konteks (DFD Level 0)

3.4.2 Data Flow Diagram (DFD) Level 1

Data Flow Diagram (DFD) level 1 pada sistem yang dibangun dapat di lihat pada gambar 3.6 berikut:

Gambar 3.5 Data Flow Diagram Level 1 3.4.3 Data Flow Diagram (DFD) Level 2

Data Flow Diagram (DFD) level 2 proses mengelola data mahasiswa yang mendaftar beasiswa dapat di lihat pada gambar 3.7 berikut:

Dalam dokumen Penerapan Metode Clustering Data Dengan C-Means Untuk Rekomendasi Penerima Beasiswa Pada Universitas Sumatera Utara (Halaman 36-44)