Penerapan Algoritma K-Means Untuk Klasterisasi Daerah Potensi Calon Mahasiswa Baru
Alvie Syahrina
Fakultas Ilmu Komputer dan Teknologi Informasi, Program Studi Teknik Informatika, Universitas Budi Darma, Medan, Indonesia Email: [email protected]
Email Penulis Korespondensi: [email protected]
Abstrak−Clustering K-Means digunakan untuk melakukan clustering. Metode K-Means mencoba mengelompokkan data yang ada ke dalam beberapa kelompok yang unik, dengan data dalam satu kelompok memiliki karakteristik sama dan yang berbeda dengan data pada kelompok lainnya. Oleh karena itu, metode ini digunakan untuk mengelompokkan daerah potensial bagi calon mahasiswa baru dengan menggunakan beberapa kriteria, seperti nilai pada jumlah kota. Salah satu faktor dilakukannya penerapan algoritma K-Means untuk klasterisasi daerah potensial calon mahasiswa baru di Universitas Budi Darma adalah untuk memudahkan dalam pihak kampus dengan adanya pengelompokan. Salah satu masalah dalam pengklasteran adalah kesulitan dalam menentukan daerah potensial bagi calon mahasiswa baru yang harus menentukan dalam memenuhi jumlah klasterisasi. Sering terjadi suatu permasalahan yang mempunyai jumlah pengklasteran terlalu sedikit dibanding dengan ketersediaan pihak kampus untuk daerah potesial calon mahasiswa baru. Proses pengelompokan K-Means dilakukan dengan cara menentukan titik pusat awal secara acak pada sekelompok siswa. Untuk mendapatkan hasil identifikasi daerah potensial calon mahasiswa baru yaitu untuk angkatan 2017- 2019 cluster 1 sebanyak 3 kota dari 10 kota dari angkatan 2017, pada cluster 2 sebanyak 4 kota untuk angkatan 2018, dan cluster 3 dengan total 3 kota dari 10 sampel angkatan 2017-2019.
Kata Kunci: Data Mining; K-Means Clustering; Rapid Miner; Klasterisasi Calon Mahasiswa Baru
Abstract−K-Means clustering is used to perform clustering. The K-Means method tries to group the existing data into several unique groups, with the data in one group having the same characteristics and different from the data in other groups. Therefore, this method is used to classify potential areas for prospective new students by using several criteria, such as scores on the number of cities. One of the factors for implementing the K-Means algorithm for clustering potential areas for prospective new students at Budi Darma University is to make it easier for the campus party to group them. One of the problems in clustering is the difficulty in determining potential areas for prospective new students who must determine the number of clusters to meet. There is often a problem that has too few clusters compared to the availability of the campus for potential areas for prospective new students. The process of grouping K-Means is done by determining the initial center point randomly in a group of students. To get the results of the identification of potential areas for prospective new students, namely for the 2017-2019 class, cluster 1 consists of 3 cities from 10 cities from the 2017 batch, in cluster 2 there are 4 cities for the 2018 batch, and cluster 3 with a total of 3 cities from 10 samples from the 2017-2019.
Keywords: Data Mining; K-Means Clustering; Rapid Miner; Clustering of Prospective New Students
1. PENDAHULUAN
Kemajuan teknologi dan informasi saat ini sudah semakin berkembang pesat dan hampir mencakup di segala bidang.
Bidang yang dimaksudkan mulai dari menghasilkan data yang besar pada bidang industri, ekonomi, ilmu, serta berbagai bidang lainnya. Penerapan teknologi dan informasi ini juga berkembang dalam dunia pendidikan salah satunya untuk menghasilkan data yang berlimpah, mengenai data dari siswa yang mengikuti pendidikan. Hal tersebut dapat dikatakan sebagai proses untuk mendapatkan informasi dari basis data yang besar dengan cara penggalian data guna memanfaatkan kumpulan data atau yang lebih sering disebut dengan data mining.
Data mining adalah suatu proses penambangan informasi penting dari suatu data. Informasi penting ini diambil dari suatu proses yang sangat rumit seperti menggunakan artificial intelligence, teknik statistik, ilmu matematika, machine learning, dan lain sebagainya[1]. Data mining ini memiliki banyak fungsi. Tetapi, yang paling utama adalah sebagai fungsi descriptive dan fungsi predictive. Fungsi data mining yang lainnya adalah characterization, discrimination, association, classification, clustering, outlier and trend analysis, dan sebagainya[2].
Universitas Budi Darma merupakan salah satu Universitas yang menerima mahasiswa baru setiap tahunnya.
Proses penerimaan mahasiswa baru di Universitas Budi Darma diawali dengan sosialisasi kepada masyarakat atau sekolah, pendaftaran, ujian seleksi, pengumuman hasil ujian, Registrasi Ulang, Sistem Pengenalan Kampus (SPK) dan proses perkuliahan. Dalam kenyataannya, Universitas Budi Darma seringkali masih salah dalam menentukan tempat sosialisasi pengenalan kampus. Terlihat dari promosi yang dilakukan masih secara acak (tidak memiliki tempat pasti).
Hal ini menjadikan Universitas Budi Darma belum mendapatkan hasil yang optimal dari promosi yang dilakukan. Karena berdasarkan pengamatan peneliti, Mahasiswa/i Budi Darma kebanyakan mengetahui informasi Universitas Budi Darma bukan lewat promosi atau sosialisasi seperti yang diharapkan. Namun melalui informasi yang diberikan oleh saudara dan sejenisnya. Hal ini sejalan dengan penerapan algoritma K-Means. Hasil dari penerapan algoritma ini nantinya diharapkan dapat membantu promosi Universitas Budi Darma agar tepat sasaran dan juga meminimalisir biaya yang ada.
Dan algoritma K-Means Clustering ini juga bisa diterapkan dalam berbagai hal seperti Pengelompokan kualitas kerja pegawai, Implementasi data mining pemilihan pelanggan potensial, dan untuk menentukan bahan bangunan[3].
penulis terdahulu telah menerapkan metode K-Means antara lain dilakukan oleh Ediyanto, dkk (2013) yang melakukan penelitian tentang pengklasifikasian karakteristik dengan metode K-Means Cluster Analysis[4].
Ong Johan Oskar (2013) yang meneliti tentang implementasi algoritma K-Means Clustering untuk menentukan strategi marketing president university[5].
Berdasarkan penjabaran latar belakang diatas maka judul dari penelitian ini adalah ‘Penerapan Algoritma K-Means Untuk Klasterisasi Daerah Potensial Calon Mahasiswa Baru (Studi Kasus: Universitas Budi Darma)’.
Dengan atribut (variabel) yang diperlukan adalah asal sekolah mahasiswa, dan asal kota mahasiswa.
2. METODOLOGI PENELITIAN
2.1 Kerangka Kerja Penelitian
Gambar 1. Kerangka Kerja Penelitian Keterangan:
a. Studi Literatur
Pada tahap ini, pengumpulan data dilakukan dari referensi untuk memperoleh informasi yang dibutuhkan untuk pembuatan skripsi ini baik dari buku, artikel, makalah, jurnal, dan situs internet.
b. Identifikasi Masalah
Pada tahap ini, inilah cara penulis untuk dapat memprediksi, memperkirakan, dan mendeskripsikan permasalahan yang terjadi dalam pengklasterisasian calon mahasiswa baru Pada Universitas Budi Darma
c. Pengumpulan Data
Pada tahap ini, dilakukan pengumpulan data yang terkait dengan penelitian dan pembuatan sistem. Yaitu dengan kata lain, melalui wawancara dan observasi.
d. Analisa Data
Pada tahap analisis ini, akan dilakukan pemahaman terhadap proses pemecahan masalah ini. Untuk tahap Algoritma Clustering K-Means, proses penelitian dimana data akan di proses untuk menanggapi perumusan masalah tersebut
e. Implementasi dan Pengujian Sistem
Tahap Implementasi dan Pengujian Sistem merupakan tahap implementasi dari proses analisis dan perancangan sistem, dimana data akan diolah dalam perangkat lunak (Source Code), tujuannya untuk mengetahui apakah sistem dapat bekerja sesuai dengan kebutuhan. Untuk penerapan dalam pengklasterisasian calon mahasiswa baru Pada Universitas Budi Darma, perangkat tersebut berupa perangkat lunak dan perangkat keras. Setelah perancangan sistem selesai dilakukan, maka tahap selanjutnya adalah tahap pengujian.
f. Kesimpulan dan Saran
Tahapan ini merupakan akhir dari penelitian yang didasari pada hasil yang diperoleh dengan mengumpulkan semua data, bahan dan hasil pengujian pada tahap sebelumnya, dan memberikan kesimpulan berupa laporan penelitian. Saran yang diberikan dapat dijadikan sebagai masukan untuk Universitas Budi Darma untuk dapat dimanfaatkan kedepannya.
2.2 Algoritma K-Means
Pengertian algoritma ini yakni clustering yakni merupakan bagian dari “unsupervised machine learning algorithms”
dimana tergolong simpel namun juga terkenal. Definisi lain menjelaskan bahwa suatu cara analisis pada data yag disebut Mining dimana dijaalankan model tersebut akan tetapi tidak menggunakan supervisi atau kata lainnya yakni unsupervised selain itu juga adalah cara yang mengaplikasikan penggolongan data memakai sistem yang disebutpartisi[3]. Pada algoritma tersebut mendapatkan pemasukan data namun tidak ada nama kelas. Sebaliknya untuk supervised learning mendapatkan pemasukan yakni (x2 , y2) ,(x1 , y1), …, (xi , yi), dengan xi yakni data di pelatihan lalu yi yakni namakelas untuk xi [8]. Data pada clustering memakai cara K-Means Clustering umumnya dilaksanakan pada algoritma a:
a. Pilih beberapa cluster
b. Tempatkan datanya di cluster acak
c. Lakukan perhitungan rerata pada data ditiap cluster d. Tempatkan tiap data kererata data paling dekat
e. Ulangi langkah nomer 3, bilamana terdapat data yang melakukan perpindahan cluster maupun bila terdapat perubahan penilaia di centroid, terdapat yang atasdi threshold yang dilakukan penentuan maupun bilamana dirubahnya penilaian di objective function yang dipakai pada atas dinilai threshold yang dipilih.
1.2.1 Menentukan Nilai Centroid/Titik Pusat Awal
Pada proses menentukan nilai centroid dapat dilakukan dengan melihat record data sesuai dengan jumlah attribute kriteria. Nilai centroid diperoleh dari data acak.
1.2.2 Menghitung Jarak dengan Model Euclidean
Untuk menghitung jarak dengan model Euclidean dapat menggunakan rumus persamaan berikut ini:
Cluster C1 : d(x1, c1)=√(𝑎1𝑎 − 𝑐1𝑎)2 + (𝑎2𝑏 − 𝑐1𝑏)2 (1) Cluster C2 : d(x1, c2)=√(𝑎1𝑎 – 𝑐2𝑎)2 + (𝑎2𝑏 – 𝑐2𝑏)2 (2) Hingga Cluster selanjutnya sesuai dengan data tersedia
3. HASIL DAN PEMBAHASAN
3.1 Analisa Pengambilan Keputusan Pengklasterisasian Daerah Potensial Calon Mahasiswa di Universitas Budi Darma
Data yang akan digunakan untuk melakukan prediksi adalah data asal sekolah dan asal kota mahasiswa baru yang sudah memiliki nilai dari beberapa asal sekolah dan asal kota tersebut pada tahun 2017-2019 yang diperoleh dari Universitas Budi Darma.
Tabel 1. Tabel Data Daftar Nama-Nama Mahasiswa Baru Tahun 2017-2019
No. Kota Atribut
Jumlah Sekolah Jumlah Siswa 1.
2.
3.
4.
5.
6.
7.
8.
Medan Nias Rantau Parapat
Riau Siantar Sibolga Aceh Samosir
606 110 64 36 49 20 74 20
620 130 69 36 50 20 74 30 9.
10.
Sidikalang Sipirok
7 8
25 19 3.2 Implementasi dan Hasil Pengujian
Pada tahapan ini, akan dilakukan implementasi dan pengujian terhadap data daftar nama-nama mahasiswa baru tahun 2017-2019. Pengujian dilakukan dengan menggunakan aplikasi Rapid Miner. Pengujian ini bertujuan untuk memastikan apakah penerapan metode K-Means terhadap pengambilan keputusan data klasterisasi calon mahasiswa
baru tersebut sudah akurat atau belum. Studi kasus dilakukan terhadap data daftar nama-nama calon mahasiswa baru tahun 2017-2019 pada Universitas Budi Darma. Berikut tampilan awal Rapid Miner
Gambar 2. Tampilan Awal Rapid Miner Setelah itu melakukan import file excel untuk sampel data
Gambar 3. Import File Microsoft Excel Kemudian pilih sampel data yang akan diimport lalu pilih next
Gambar 4. Sampel Data
Dari sampel data yang telah dipilih maka dilakukan, kemudian masuk dalam proses implementasi pengujian data yang telah disimpan dalam aplikasi Rapid Miner dengan metode Clustering K-Means
Gambar 5. Implementasi Algoritma Clustering K-Means Dari hasil pengujian tools Rapid Miner didapatkan hasil 3 Cluster
Gambar 6. Hasil Pengujian
4. KESIMPULAN
Dari hasil analisa dan pengujian pengelompokan data untuk klasterisasi calon mahasiswa baru dengan algoritma K- Means Clustering, dapat diambil beberapa kesimpulan, dimana metode K-Means Clustering dapat diimplementasikan dengan menggunakan database untuk klasterisasi calon mahasiswa baru. Penerapan algoritma K-Means Clustering dalam merekomendasikan jurusan calon Mahasiswa baru berdasarkan jumlah sekolah dan jumlah siswa. Melakukan pengujian data menggunakan tools rapid miner Algoritma K- Means Clustering dapat dilakukan pengujian
REFERENCES
[1] A. Fathan Hidayatullah, M. Rifqi Ma, and arif Program Studi Manajemen Informatika STMIK Jenderal Achmad Yani Yogyakarta Jl Ringroad Barat, “Penerapan Text Mining dalam Klasifikasi Judul Skripsi,” Semin. Nas. Apl. Teknol. Inf.
Agustus, pp. 1907–5022, 2016.
[2] J. A. Sijabat and Z. Zakaria, “2. Jurnal Alimancon Sijabat 2,” 2017.
[3] F. Nasari and S. Darma, “Seminar Nasional Teknologi Informasi dan Multimedia 2015 PENERAPAN K-MEANS CLUSTERING PADA DATA PENERIMAAN MAHASISWA BARU (STUDI KASUS : UNIVERSITAS POTENSI UTAMA),” pp. 6–8, 2015.
[4] Ediyanto, N. Mara, and N. S. Intisari, “Pengklasifikasian Karakteristik Dengan Metode K-Means Cluster Analysis,” Bul.
Ilm. Mat. Stat. dan Ter., vol. 02, no. 2, pp. 133–136, 2013.
[5] J. O. Ong, “Implementasi Algotritma K-means clustering untuk menentukan strategi marketing president university,” J. Ilm.
Tek. Ind., vol. vol.12, no, no. juni, pp. 10–20, 2013.
[6] M. R. Alhapizi, M. Nasir, and I. Effendy, “Penerapan Data Mining Menggunakan Algoritma K-Means Clustering Untuk Menentukan Strategi Promosi Mahasiswa Baru Universitas Bina Darma Palembang,” J. Softw. Eng. Ampera, vol. 1, no. 1, pp. 1–14, 2020, doi: 10.51519/journalsea.v1i1.10.
[7] A. P. Windarto, “Penerapan Datamining Pada Ekspor Buah-Buahan Menurut Negara Tujuan Menggunakan K-Means Clustering Method,” Techno.Com, vol. 16, no. 4, pp. 348–357, 2017, doi: 10.33633/tc.v16i4.1447.
[8] I. Parlina, A. P. Windarto, A. Wanto, and M. R. Lubis, “Memanfaatkan Algoritma K-Means Dalam Menentukan Pegawai Yang Layak Mengikuti Asessment Center,” Memanfaatkan Algoritm. K-Means Dalam Menentukan Pegawai Yang Layak Mengikuti Asessment Cent. Untuk Clust. Progr. Sdp, vol. 3, no. 1, pp. 87–93, 2018.
[9] Yudi Agusta, “K-Means – Penerapan, Permasalahan dan Metode Terkait,” J. Sist. dan Inform., vol. 3, no. Februari, pp. 47–
60, 2007