PENERAPAN ALGORITMA K-MEANS DALAM CLUSTERING DATA MINING PADA PENENTUAN KELOMPOK UANG KULIAH TUNGGAL (UKT) DI UNIVERSITAS SILIWANGI

(1)

1

PENERAPAN ALGORITMA K-MEANS DALAM CLUSTERING DATA MINING PADA PENENTUAN KELOMPOK

UANG KULIAH TUNGGAL (UKT) DI UNIVERSITAS SILIWANGI

Nita Paramita Rukmana, Acep Irham Gufroni, dan Alam Rahmatulloh Teknik Informatika Universitas Siliwangi Tasikmalaya

Based on form letter of Director General of Higher Education Number 97/E/KU on February 5th, _{2013, instructs all}

Universities to conduct two things. Those are to repeal entrance fee and to assign Tarif Uang Kuliah (UKT) for University students of S1 and D3. Based on interview result with internal parts in Siliwangi University, in the implementation of UKT is found that there are some mistakes in collecting the data that are not appropriate with family finances in determination of UKT. This case rises the complaint from the parents who think UKT that has been determined is not appropriate. This research aims at grouping UKT data of University students in Siliwangi University by taking advantage of data mining process by using Clustering technique. Algorithm used to form cluster is Algorithm of K-Means. K-Means is one of methods of non-hierarchical clustering data that can group the students’ data into some clusters based on the similarity of those data so that the students’ data that have similar characteristic are grouped in one cluster, and those data that have different characteristic are grouped in another cluster. Therefore the benefit from grouping using K-means can help the parts that concern to know the grouping of UKT, in determination of UKT as well as being reference in creating the rule of UKT grouping.

Keywords : UKT, Siliwangi University, Data Mining, Clustering, K-means. ABSTRAK

Berdasarkan Surat Edaran Dirjen Dikti Nomor 97/E/KU/2013 tertanggal 5 Febuari 2013, menginstruksikan kepada seluruh Perguruan Tinggi di Indonesia untuk melakukan dua hal yakni menghapus uang pangkal serta menetapkan dan melaksanakan tarif Uang Kuliah Tunggal (UKT) bagi mahasiswa baru S1 dan D3. Berdasarkan hasil wawancara dengan pihak internal Universitas Siliwangi bahwa dalam pelaksanaan UKT ditemukan ada beberapa kesalahan dalam pengumpulan data yang tidak sesuai dengan keuangan keluarga dalam penentuan kelompok UKT. Hal ini menimbulkan komplain dari orang tua wali yang merasa UKT yang ditetapkan tidak tepat. Penelitian ini bertujuan untuk melakukan pengelompokan terhadap data UKT mahasiswa Universitas Siliwangi dengan memanfaatkan proses data mining dengan menggunakan teknik Clustering. Algoritma yang digunakan untuk pembentukan cluster adalah algoritma K-Means. K-Means merupakan salah satu metode data non-hierarchical clustering yang dapat mengelompokkan data mahasiswa ke dalam beberapa cluster berdasarkan kemiripan dari data tersebut, sehingga data mahasiswa yang memiliki karakteristik yang sama dikelompokan dalam satu cluster dan yang memiliki karakteristik yang berbeda dikelompokan dalam cluster yang lain. Sehingga manfaat dari hasil pengelompokan menggunakan K-means dapat membantu pihak-pihak yang berkepentingan untuk mengetahui pengelompokan UKT, dalam penetapan pengelompokan UKT serta menjadi rujukan dalam pembuatan aturan pengelompokan UKT.

Kata kunci : UKT, Universitas Siliwangi, Data Mining, Clustering, K-means

I. Pendahuluan

Berdasarkan Surat Edaran Dirjen Dikti Nomor 97/E/KU/2013 tertanggal 5 Febuari 2013, menginstruksikan kepada seluruh Perguruan Tinggi di Indonesia untuk melakukan dua hal yakni menghapus uang pangkal serta menetapkan dan melaksanakan tarif Uang Kuliah Tunggal (UKT) bagi mahasiswa baru S1 dan D3 Reguler mulai tahun akademik 2013/2014. UKT merupakan sistem pembayaran kuliah di Perguruan Tinggi Negeri, dengan cara meringkas seluruh pembayaran kuliah dari awal masuk hingga akhir tanpa ada baiya tambahan apapun selain yang telah ditentukan dengan hanya satu kali pembayaran ditiap semester. Berdasarkan PermenDikBud Nomor 55 tahun 2013 bahwa kriteria kelompok UKT dibagi lima kelompok , I sampai dengan V berdasarkan kemampuan ekonomi mahasiswa, orang tua mahasiswa, atau pihak lain yang membiayainya.

Tujuan dari UKT untuk meringankan beban mahasiswa terhadap pembiayaan pendidikan (PermenDikBud RI No 55, 2013), akan tetapi dalam pelaksanaannya tujuan dari UKT sendiri belum tercapai merata dikalangan mahasiswa. Berdasarkan hasil wawancara dengan pihak internal Universitas Siliwangi bahwa dalam pelaksanaan UKT di Universitas Siliwangi ditemukan ada beberapa kesalahan dalam pengumpulan data yang tidak sesuai dengan keuangan keluarga dalam penentuan kelompok UKT. Hal ini

menimbulkan komplain dari orang tua wali yang merasa UKT yang ditetapkan tidak tepat.

Pada penelitian ini dilakukan analisis data mining clustering menggunakan algoritma K-means yang nantinya bisa menjadi solusi dalam menjawab permasalahan data pengelompokan UKT yang tidak sesuai, dikarenakan K-means itu sendiri menurut K. Arai dan A. R. Barakbah dalam (Tahta, Budi, Ali, 2012) K-means merupakan algoritma clustering yang paling sederhana, umum, dan mempunyai kemampuan mengelompokan data dalam jumlah yang cukup besar dengan waktu komputasi yang relatif cepat serta efisien, yang sesuai dengan data mahasiswa Universitas Siliwangi bervolume cukup besar dan bertipe numeric. Maka masalah yang dihadapi adalah bagaimana menganalisis data mahasiswa periode 2014/2015 di Universitas Siliwangi untuk menentukan pengelompokan UKT dengan menggunakan algoritma K-means clustering data mining.

Batasan masalah pada penilitian ini yaitu data yang diolah adalah data mahasiswa UKT di Universitas Siliwangi periode 2014/2015 yang disimpan berupa file excel. Analisis digunakan untuk menentukan pengelompokan dan pola penetapan UKT di Universitas Siliwangi. Algoritma clustering yang digunakan adalah algoritma K-Means, serta data yang dihasilkan berupa pengetahuan dalam bentuk tabel dan grafik pengelompokan UKT.

(2)

2

Tujuan pada penelitian ini mengelompokan data UKT

Universitas Siliwangi dengan pendekatan data mining menggunakan algoritma K-means dan memberikan informasi dan pengetahuan berupa tabel yang informative.

Manfaat pada penelitian ini diharapkan tersedianya informasi mengenai pengelompokan UKT, membantu pihak-pihak yang berkepentingan untuk mengetahui pengelompokan UKT, dalam penetapan pengelompokan UKT, dan menjadi rujukan dalam pembuatan aturan pengelompokan UKT.

II. Landasan Teori A. Data Mining

Data Mining merupakan sebuah proses menggali tumpukan data untuk memperoleh pola data dan pengetahuan. Data mining juga merupakan bagian dari proses Knowledge Discoveries from Data. (Zaki, Meira Jr., 2014).

Han, Kamber dan Pei (2012) menyebutkan bahwa KDD atau Knowledge Discovery from Data, merupakan proses terstruktur, yaitu sebagai berikut :

1. Data Cleaning adalah Proses membersihkan data dari data noise dan tidak konsisten.

2. Data Integration adalah Proses untuk menggabungkan data dari beberapa sumber yang berbeda.

3. Data Selection adalah Proses untuk memilih data dari database yang sesuai dengan tujuan analisis.

4. Data Transformation adalah Proses mengubah bentuk data menjadi data yang sesuai untuk proses Mining. 5. Data Mining adalah Proses penting yang menggunakan

sebuah metode tertentu untuk memperoleh sebuah pola dari data.

6. Pattern Evaluationadalah Proses mengidentifikasi pola. 7. Knowledge Presentation adalah yang dapat

merepresentasikan informasi yang dibutuhkan, proses dimana informasi yang telah didapatkan kemudian digunakan oleh pemilik data.

B. Clustering

Tujuan utama dari metode clustering adalah pengelompokan sejumlah data atau obyek ke dalam cluster (group) sehingga dalam setiap cluster akan berisi data yang semirip mungkin. Dalam clustering metode ini berusaha untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu cluster dan membuat jarak antar cluster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan obyek dalam cluster-cluster yang lain (Santoso, 2007).

Dalam data mining ada dua jenis metode clustering yang digunakan dalam pengelompokan data, yaitu hierarchical clustering dan non- hierarchical clustering. metode non-hierarchical (partitioning) clustering dimulai dengan menentukan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster, atau lain sebagainya). Setelah jumlah cluster diketahui, baru proses cluster dilakukan. Metode ini biasa disebut dengan K-Means Clustering (Santoso, 2010).

C. K-means

K-means clustering merupakan salah satu metode data clustering non-hirarki yang mengelompokan data dalam bentuk satu atau lebih cluster. Data-data yang memiliki karakteristik yang sama dikelompokan dalam satu cluster dan data yang memiliki karakteristik yang berbeda dikelompokan dengan cluster yang lain sehingga data yang berada dalam satu cluster memiliki tingkat variasi yang kecil (Agusta, 2007).

Algoritma K-means adalah algoritma yang terbaik dalam algoritma partitional clustering dan yang paling sering digunakan diantara algoritma clustering lainnya kerena kesederhanaan dan efisiensinya (Agusta, 2007). Kelebihan Algoritma K-means itu sendiri menurut K. Arai and A. R. Barakbah, merupakan algoritma clustering yang paling sederhana dan umum, hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien. Namun, K-means mempunyai kelemahan yang diakibatkan oleh penentuan pusat awal cluster (Tahta, Budi, Ali, 2012).

Algoritma K-Means dimulai dengan pemilihan secara acak K, K disini merupakan banyaknya cluster yang ingin dibentuk. Kemudian tetapkan nilai-nilai K secara random, untuk sementara nilai tersebut menjadi pusat dari cluster atau biasa disebut dengan centroid secara random, mean atau “means”. Hitung jarak setiap data yang ada terhadap masing-masing centroid menggunakan rumus Euclidean hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Klasifikasikan setiap data berdasarkan kedekatannya dengan centroid. Lakukan langkah tersebut hingga nilai centroid tidak berubah. (Witten, Ian H. dan Frank, Eibe, 2005).

Jarak Euclidean yang dirumuskan sebagai berikut:

= Jarak data ke i ke pusat cluster j = Data ke i pada atribut dat ke k = Data ke j pada atribut dat ke k

D. UKT

Berdsarkan PermenDikBud RI No 55, 2013 UKT merupakan sistem pembayaran kuliah di Perguruan Tinggi Negeri, dengan cara meringkas seluruh pembayaran kuliah dari awal masuk hingga akhir tanpa ada baiya tambahan apapun selain yang telah ditentukan dengan hanya Perguruan Tinggi Negeri (PTN) diharuskan membayar biaya atau uang pangkal yang relatif besar di awal yang membebani mahasiswa, hal ini bertolak belakang dengan tujuan pemerintah untuk meringankan beban mahasiswa terhadap pembiayaan pendidikan maka perlu menetapkan uang kuliah tunggal di perguruan tinggi negeri di lingkungan Kementerian Pendidikan dan Kebudayaan bahwa kriteria kelompok UKT dibagi lima kelompok , I sampai dengan V berdasarkan kemampuan ekonomi mahasiswa, orang tua mahasiswa, atau pihak lain yang membiayainya.

III. Metodologi

Penelitian ini dibagi menjadi tiga tahapan utama yaitu : 1.Pra penelitian, dimulai dengan melakukan studi pendahuluan

untuk mengidentifikasi masalah yang ada, studi pustaka, dan pengumpulan data UKT Universitas Siliwangi 2014

2.Persiapan proses data mining terdiri dari, Data Cleaning, Data Autentication, Data Integration, Data Selection, dan Data Transformation.

3.Proses Data Mining dengan mengelompokan menggunakan algoritma K-means.

(3)

3

Pengelompokan UKT UNSIL - Studi Pendahuluan - Studi Pustaka - Pengumpulan Data - Data Cleaning - Data Integration - Data Selection - Data Transformation

- Tidak ada perubahan centroid - Ada Perubahan Centroid

- Hitung Jarak terdekat - Tentkan Titik Pusat - Menentuan JumlahCluster

- Knowledge Presentation

Pra Penelitian Persiapan Data Mining

Proses Data Mining (K-means) Hasil

Gambar 3.1. Diagram Penelitian A. Pra Penelitian

1. Studi Pendahuluan ini dimulai dengan melakukan pengamatan secara langsung melalui wawancara terhadap pihak internal Universitas Siliwangi. Wawancara ini bertujuan untuk mengetahui gambaran masalah UKT di Universitas Siliwangi. Setelah hasil wawancara didapat dilakukan identifikasi masalah untuk menetapkan rumusan dan batasan masalah.

2. Setelah rumusan masalah didapatkan, dilakukan studi pustaka mencari referensi dari jurnal, buku, dan e-book untuk mendapatkaan teori –teori tentang permasalahan yang telah didapatkan, sebagai panduan dalam mendapatan solusi untuk permasalahan yang telah ditemukan.

3. Dalam pengumpulan data dilakukan pendekatan kepada tim UKT guna mendapatkan data UKT Universitas Siliwangi periode 2014 yang sebenarnya.

B. Persiapan Data Mining 1. Data Cleaning

Data Cleaning merupakan proses untuk dapat mengatasi nilai yang hilang, noise dan data yang tidak konsisten. (Han, Kamber dan Pei, 2012). Data set yang didapatkan dari data UKT Universitas Siliwangi 2014 sebanyak 3324 mahasiswa yang telah di kelompokan menjadi 5, yaitu kelompok 1 sebanyak 149 mahasiswa, kelompok 2 sebanyak 299 mahasiswa, kelompok 3 sebanyak 1510 mahasiswa, kelompok 4 sebanyak 603 mahasiswa, dan kelompok 5 sebanyak 727 mahasiswa. Memiliki 8 atribut yaitu, No, Npm, Nama, Prodi, Pendidikan Ayah, Pekerjaan, Penghasilan, dan UKT diperoleh 200 data premature.

2. Data Integration

Data Integration merupakan proses menggabungkan data dari banyak database atau data warehouse. Menggabugkan data UKT mahahsiswa dengan data pekerjaan orang tua. 3. Data Selection

Data Selection merupakan proses meminimalkan jumlah data yang digunakan untuk proses mining dengan tetap merepresentasikan data aslinya. (Han, Kamber dan Pei, 2012). 4. Data Transformation

Data transformation dilakukan untuk mengubah bentuk dan format data. Hal ini tentunya akan sangat membantu memudahkan pengguna dalam proses mining ataupun memahami hasil yang didapat. (Han, Kamber & Pei, 2012).

Agar data pada kolom “Pekerjaan” dapat diolah menggunakan metode K-means clustering, maka data yang berjenis data nominal seperti pekerjaan diinisialisasikan terlebih dahulu dalam bentuk numeric (Tahta, Budi, Ali, 2012).

C. Proses Data Mining K-means

Mulai

Menentukan Jumlah Cluster

Menentukan Titik pusat awal cluster

(Centroid) Kelompokan Objek berdasarkan jarak minimum Menghitung Jarak ke masing-masing centroid Selesai

Ada Objek yang berpindah

Tidak

Ya

Gambar 3.2. Flowchart Algoritma K-means D. Knowledge Presentation

Setelah dilakukan pengelompokan menggunakan algoritma K-means maka diperoleh Knowledge Presentation adalah yang dapat merepresentasikan informasi yang dibutuhkan proses dimana informasi yang telah didapatkan kemudian digunakan.

IV. Hasil Dan Pembahasan A. Data Cleaning

Berikut ini adalah kolom dan baris data yang di cleaning pertama beserta alasan kolom tersebut mengalami proses cleaning.

a. Kolom ‘Pendidikan Ayah’. Kolom ini dihilangkan karena kolom ini bersifat teks dan tidak diperlukan terhadap atribut pengelompokan UKT, serta memiiki baris data yang tidak lengkap.

b. Kolom ‘UKT’ baris data yang terdapat pada kolom ini di hilangkan karena nanti akan menjadi kolom hasil pengelompokan menggunakan proses data mining algoritma K-means.

c. Terdapat 200 data premature yaitu data yang tidak lengkap pada kolom “Pekerjaan” .

Telah ditemukan data premature sebanyak 200 data yaitu 6 % dari jumlah data yang ada, sehingga data awal 3324 menjadi 3124 data yang digunakan. Untuk memperkuat hasil data cleaning, maka dilakukan tahap data authentication, yaitu dengan memeriksa kembali pada lembar berkas data UKT, akan tetapi berkas tersebut sudah terkomputerisasi, diperoleh hasil ternyata terdapat satu tabel lagi yaitu tabel pekerjaan, maka dilakukan tahapan selanjutnya yaitu data integration.

B. Data Integration

Dilakukan proses cleaning kedua dengan mengintegrasikan data awal UKT dengan data tabel pekerjaan, diperoleh data premature berkurang menjadi 36 data dari 200 data karena telah ditemukan data yang lengkap pada kolom “Pekerjaan” di tabel pekerjaan. Hasil yang diperoleh dari data integration yaitu data premature 36 data sebanyak 1 % dari data keseluruhan, maka data yang akan digunakan untuk proses data mining sebanyak 3288 data.

C. Data Selection

Untuk data selection UKT ini, semua data hasil dari cleaning dan integration digunakan, karena jika

(4)

4

meminimalkan data yang diolah hasilnya tidak mencakup

keseluruhan data .

D. Data Transformation

Kolom “pekerjaan” yang dilakukan perubahan bentuk format yaitu:

a. Pada kolom Pekerjaan terdapat 10 jenis pekerjaan yaitu Wiraswasta, Pegawai Negeri Sipil, Karyawan Swasta, Lain-lain, Buruh, Petani, Pensiunan/Purn, Pedagang, ABRI dan Profesional.

b. Kemudian pekerjaan tersebut diurutkan dari terbesar berdasarkan banyak datanya atau frekuensi.

c. Setelah itu pekerjaan yang memiliki frekuensi terbesar diberi inisial dengan angka 1, dan pekerjaan yang memiliki frekuensi terbesar kedua diberi inisial dengan angka 2, begitu seterusnya sehingga pekerjaan dengan frekuensi paling sedikit.

Table 4.1. Inisialisasi Data Pekerjaan

Pekerjaan Frekuensi Inisialisasi

Wiraswasta 1278 1

Pegawai Negeri Sipil 848 2

Karyawan Swasta 235 3 Lain-lain 202 4 Buruh 191 5 Petani 159 6 Pensiunan/Purn 152 7 Pedagang 142 8 ABRI 55 9 Profesional 26 10 Jumlah 3288

E. Proses Pengelompokan Algoritma K-means 1. Menentukan Jumlah Cluster

Pengelompokan UKT ini dibuat 5 cluster, sesuai dengan jumlah kelompok UKT yang ada di Universitas Siliwangi pada periode tahun 2014, dari kelompok paling rendah yaitu kelompok 1, sampai kelompok paling besar yaitu 5.

2. Menentukan Titik Pusat Awal Cluster (Centroid) Pada penelitian ini terdapat data tunggal yang telah dikelompokan sebelumnya maka mengambil titik pusat mengacu pada nilai rata-rata karena, jika sample data yang diambil dari nilai yang mendekati rata-rata akan lebih kuat mendeskripsikan keadaan populasi secara umum. Hal ini didukung oleh pembangkitan awal titik pusat secara random itu K-means tidak menjamin hasil pengklasteran yang unik (S.S Khan, 2004). Inilah yang menyebabkan metode K-means sulit untuk mencapai global optimum, akan tetapi hanaya local minimum (B. Kovesi 2001), maka besar kemungkinan ini akan menyebabkan hasil pengklasteran yang tidak tepat (Y.M Cheung, 2003).

Tabel 4.1. Nilai Rata-Rata Tiap Kelompok UKT

Cluster 1 2 3 4 5

Penghasilan 984.664,4 1.164.885,3 2.487.118,9 4.252.420,6 10.117.953,7

Pekerjaan 5.12 3.32 2.71 2.54 2.71

Pada penelitian ini diambil nilai titik pusat awal cluster mengacu pada nilai yang mendekati rata-rata maka diperoleh titik pusat awal cluster .

Tabel 4.2. Titik Pusat Awal Cluster

Cluster 1 2 3 4 5

Penghasilan 1.000.000 1200000 2500000 4288700 10000000

Pekerjaan 5 4 3 2 3

3. Menghitung Jarak ke Masing-Masing Centroid dan Mengelompokan Berdsarkan Jarak Minimun

Setelah didapat titik pusat awal cluster, kemudian dilakukan perhitungan jarak Euclidian, dan mengelompokan berdasarkan jarak terkecil salanjutnya akan di dapat nilai centroid baru untuk acuan perhitungan berikutnya sampai nilai centroid sebelum dan sesudah bernilai sama. Pada penelitian ini telah diperoleh 15 kali iterasi.

Perhitungan jarak Euclidean pada iterasi 1

1) Berikut ini beberapa hasil perhitungan jarak Euclidean pada titik pusat cluster 1 (1.000.000, 5) :

500.000 500.000 400.000 0 100000 0 Lakukan perhitungan yang sama sampai data ke 3288. 2) Berikut ini beberapa hasil perhitungan jarak Euclidean pada titik pusat cluster 2 (1.200.000, 4):

700.000 700.000 600.000 200.000 300.000 200.000 Lakukan perhitungan yang sama sampai data ke 3288.

3) Berikut ini beberapa hasil perhitungan jarak Euclidean pada titik pusat cluster 3 (2500000, 3):

2.000.000 2.000.000 1.900.000 1.500.000 1.600.000 1.500.000 Lakukan perhitungan yang sama sampai data ke 3288.

4) Berikut ini beberapa hasil perhitungan jarak Euclidean pada titik pusat cluster 4 (4.288.700, 2):

3.788.700 3.788.700 3.688.700 3.288.700 3.388.700 3.288.700 Lakukan perhitungan yang sama sampai data ke 3288.

5) Berikut ini beberapa hasil perhitungan jarak Euclidean pada titik pusat cluster 5 (10.000.000, 3):

9.500.000 9.500.000 9.400.000 9.000.000 9.100.000 9.000.000

(5)

5

Pada iterasi 1 diperoleh nilai centroid baru dengan titik

pusat awal tidak sama, maka perlu dilakukan iterasi 2, lakukan perhitungan jarak Euclidean kemudian kelompokan berdasarkan jarak minimum, sampai nilai centroid sebelum dan sesudahnya sama, maka proses iterasi berhenti.

Tabel 4.3. Nilai Centroid Iterasi 1

Cluster Titik Pusat Awal Iterasi 1

Centroid Penghasilan Pekerjaan Penghasilan Pekerjaan

Cluster 1 1.000.000 5 948.329,176 3,730

Cluster 2 12.000.000 4 1.471.010,903 3,177

Cluster 3 2.500.000 3 2.552.847,738 2,772

Cluster 4 4.288.700 2 4.615.256,927 2,578

Cluster 5 10.000.000 3 18.097.533,542 2,886

Cluster Iterasi 1 Iterasi 2

Cluster 1 948.329,17 3,730 972.552,95 3,757

Cluster 2 1.471.010,90 3,177 1.803.650.37 2.847

Cluster 3 2.552.847,73 2,772 2.976.969,77 2,788

Cluster 4 4.615.256,92 2,578 5.296.199,28 2,629

Cluster 5 18.097.533,5 2,886 26.942.330,30 2,782

Cluster 1 972.552,95 3,757 991259,48 3,738

Cluster 2 1.803.650.37 2.847 1.833.829,65 2,884

Cluster 3 2.976.969,77 2,788 3.223.053,51 2,725

Cluster 4 5.296.199,28 2,629 6.018.282,38 2,635

Cluster 5 26.942.330,3 2,782 32.045.691,97 2,596

Cluster 1 991259,48 3,738 995.687,177 3,744

Cluster 2 1.833.829,65 2,884 19.145.53,68 2,865

Cluster 3 3.223.053,51 2,725 3.546.929,86 2,670

Cluster 4 6.018.282,38 2,635 6.633.723,68 2,684

Cluster 5 32.045.691,97 2,596 32.189.731,67 2,613

Cluster 1 995.687,17 3,744 1.000.499,17 3,73

Cluster 2 19.145.53,68 2,865 1,933,849,25 2,91

Cluster 3 3.546.929,86 2,670 3,844.709,53 2,57

Cluster 4 6.633.723,68 2,684 8.013.005,74 2,94

Cluster 5 32.189.731,67 2,613 32189731,67 2,613

Keterangan warna abu-abu fsets menunjukan nilai centroid yang sama.

Cluster 1 1.000.499,17 3,733 1.000.499,17 3,733

Cluster 2 1,933,849,25 2,915 1.955.664,03 2.920

Cluster 3 3,844.709,53 2,571 4.006.550,13 2.601

Cluster 4 8.013.005,74 2,948 98859955,19 2,907

Cluster 5 32189731,67 2,613 33.181.919,14 2,651

Cluster 1 1.000.499,17 3,733 1.000.499,17 3,733

Cluster 2 1.955.664,03 2.920 1.969.206,04 2,922

Cluster 3 4.006.550,13 2.601 4.086.528,03 2,601

Cluster 4 98859955,19 2,907 10.853.948,41 2,960

Cluster 5 33.181.919,14 2,651 33.181.919,14 2,651

Cluster 1 1.000.499,17 3,733 1.001.788,15 3,726

Cluster 2 1.969.206,04 2,922 2.299.552,34 2,799

Cluster 3 4.086.528,03 2,601 4.513.059,73 2,627

Cluster 4 10.853.948,41 2,960 11.266.421.14 2,984

Cluster 5 33.181.919,14 2,651 33.181.919,14 2,651

Tabel 4.11. Nilai Centroid Hasil Iterasi 9

Cluster 1 1.001.788,15 3,726 1.205.287,61 3,433

Cluster 2 2.299.552,34 2,799 2.542.814,85 2,783

Cluster 3 4.513.059,73 2,627 4.633.470,65 2,582

Cluster 4 11.266.421.14 2,984 11.287.230,10 2,994

Cluster 5 33.181.919,14 2,651 33.181.919,14 2,651

Cluster 1 1.205.287,61 3,433 1.223.585,39 3,436

Cluster 2 2.542.814,85 2,783 2.626.123,14 2,756

Cluster 3 4.633.470,65 2,582 4.734.770,05 2,583

Cluster 4 11.287.230,10 2,994 11.287.230,10 2,994

Cluster 5 33.181.919,14 2,651 33.181.919,14 2,651

Tabel 4.13. Nilai Centroid l Iterasi 11

Cluster 1 1.223.585,39 3,436 1.226.732,08 3,440

Cluster 2 2.626.123,14 2,756 2.643.661,61 2,756

Cluster 3 4.734.770,05 2,583 4.790.741,01 2,563

Cluster 4 11.287.230,10 2,994 11.499.933,22 3,08

Cluster 5 33.181.919,14 2,651 33.181.919,14 2,651

Cluster 1 1.226.732,08 3,440 1.226.732,08 3,440

Cluster 2 2.643.661,61 2,756 2.653.152,49 2,762

Cluster 3 4.790.741,01 2,563 4.809.411,83 2,555

Cluster 4 11.499.933,29 3,08 11.541.331,24 3,083

Cluster 5 33.181.919,10 2,651 33.181.919,10 2,651

Cluster 1 1.226.732,08 3,440 1.226.732,08 3,440

Cluster 2 2.653.152,49 2,762 2.657.143,06 2,768

Cluster 3 4.809.411,83 2,555 4.814.620,24 2,548

Cluster 4 11.541.331,24 3,083 11.541.331,24 3,083

Cluster 5 33.181.919,14 2,651 33.181.919,14 2,651

Cluster 1 1.226.732,08 3,440 1.228.920,32 3,446

Cluster 2 2.657.143,06 2,768 2.658.212,48 2,764

Cluster 3 4.814.620,24 2,548 4.814.620,24 2,548

Cluster 4 11.541.331,24 3,083 11.541.331,24 3,083

(6)

6

Pada iterasi 15 nilai centroid dengan nilai centroid pada

iterasi 14 sudah sama maka proses berhenti. Tabel 4.17. Nilai Centroid Iterasi 15

Cluster 1 1.228.920,32 3,446 1.228.920,32 3,446 Cluster 2 2.658.212,48 2,764 2.658.212,48 2,764 Cluster 3 4.814.620,24 2,548 4.814.620,24 2,548 Cluster 4 11.541.331,24 3,083 11.541.331,24 3,083 Cluster 5 33.181.919,14 2,651 33.181.919,14 2,651 4. Knowledge Presentation a. Cluster 1

Berdasarkan hasil perhitungan algoritma K-means pada cluster 1 ini terdapat 652 mahasiswa lebih banyak 77,1 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 149 mahasiswa, serta memliki nilai centroid akhir yaitu (1.228.920,3 ; 3,446).

b. Cluster 2

Berdasarkan hasil perhitungan algoritma K-means pada cluster 2 ini terdapat 1341 mahasiswa lebih banyak 77,7 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 299 mahasiswa, serta nilai centroid memiliki akhir yaitu (2.658.212,4 ; 2,764).

c. Cluster 3

Berdasarkan hasil perhitungan algoritma K-means pada cluster 3 ini terdapat 1041 mahasiswa lebih sedikit 31 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 1510 mahasiswa, serta memiliki nilai centroid akhir yaitu (4.814.620,2; 2,548).

d. Cluster 4

Berdasarkan hasil perhitungan algoritma K-means pada cluster 4 ini terdapat 168 mahasiswa lebih sedikit 31 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 603 mahasiswa, serta memiliki nilai centroid akhir yaitu (11.541.331,2 ; 3,083).

e. Cluster 5

Berdasarkan hasil perhitungan algoritma K-means pada cluster 5 ini terdapat 86 mahasiswa lebih sedikit 88,5 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 727 mahasiswa, serta memiliki nilai centroid akhir yaitu (33.181.919,1; 2,651).

V. Kesimpulan dan Saran A. Kesimpulan

1. Didapatkan data pengelompokan UKT menggunakan algoritma K-means clustering, yaitu untuk kelompok 1 berjumlah 652 mahasiswa, kelompok 2 berjumlah 1341 mahasiswa, kelompok 3 berjumlah 1041 mahasiswa , kelompok 4 berjumlah 168 mahasiswa, dan kelompok 5 berjumlah 86 mahasiswa.

2. Diketahui prioritas cluster yang tidak sesuai dengan data yang ada yaitu pada kelompok 5 yang berjumlah 86 mahasiswa lebih sedikit 88,5 % dengan jumlah cluster UKT Unsil sebelumnya sebanyak 727 mahasiswa. 3. Kelemahan algoritma K-means dalam menentukan titik

pusat secara random ini dilakukan optimasi yaitu dengan menentukan titik pusat awal cluster mengacu pada nilai terdekat dengan rata-rata, karena rata-rata akan lebih kuat mendeskripsikan keadaan populasi secara umum.

B. Saran

Penelitian ini dapat dikembangkan lebih lanjut dengan melakukan optimasi pada algoritma K-means. Memilih lebih dari satu titik pusat awal cluster kemudian

melakukan beberapa kali percobaan cluster serta dihitung nilai variance yang paling kecil maka cluster itulah yang dipilih sebagai cluster terbaik dari beberapa percobaan yang telah ada.

DAFTAR PUSTAKA

Agusta, Y. 2007. K-means - Penerapan, Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika Vol. 3 (Februari 2007): 47-60.

Alfiana Tahta, Budi, dan Ali . 2013. Analisa Perbandingan Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Custer Data (Studi kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS). Surabaya : Teknik Industri, Institut Teknologi Sepuluh November (ITS).

B.Kovesi, J.M. Boucher, 2001 , K-means algorithm for vector quantization

Han, Jiawei, & Kamber, Micheline, & Pei, Jian. 2012. Data Mining: Concept and Technique, 3nd Ed. Waltham: Elsevier.

J. Zaki, Mohammed, dan Miera Jr., Wagner. 2014. Data Mining and Analysis : Fundamental Concept and Algorithms. New York: Cambridge University Press. Peraturan Menteri Pendidikan dan Kebudayaan Republik

Indonesia NO 55 tahun 2013 Tentang Biaya Kuliah Tunggal dan Uang Kuliah Tunggal .

Santosa, B. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis.Yogyakarta: Graha Ilmu. Santoso, S. 2010. Statistik Multivariat. Jakarta: Elex Media

Komputindo.

Surat Edaran Dirjen Dikti Nomor 97/E/KU/2013 5 Febuari, tentang Uang Kuliah Tunggal. 2013. Jakarta : Kementrian Pendidikan dan Kebudayaan Direktorat Jenderal Pendidikan Tinggi

S.S. Khan, A. Ahmad , 2004 , Cluster center initialization algorithm for K –means clustering

Witten, Ian H. dan Frank, Eibe. 2005. Data Mining Practical Machine Learning Tools and Techniques, Second Edition. Morgan Kaufmann, San Fransisco

Y.M. Cheung, 2003 K-Means A new generalized K-means clustering algorithm