ANALISIS KEBERHASILAN MAHASISWA DENGAN METODE
CLUSTERING K-MEANS
1)Tamsir Hasudungan Sirait dan 2)Johan Oscar Ong
1)Departemen Sistem Informasi Institut Teknologi Harapan Bangsa 2)Departemen Teknik Industri Institut Teknologi Harapan Bangsa
[email protected] ; [email protected]
Abstract
The admission test done actually have not yet enough to know the ability of new student because not a few students passing the test but having a trouble in their study. Some of them resigns before finish their study because unable to follow subjects. The thing ought to can be handled early on that number of students experiencing deductible failure. In this research, we want to analyze the student with cluster into certain batches based on resemblance of the attribute. K-Means Clustering is a useful statistical analysis in forming a number of group to the objects into group amounts which have been specified where object characteristic only enter group based on certain variable, however the characteristic reasoning of object had not been known sure. Information gain is a measurement to do selection attributes. Information gain will be applied before K-Means Clustering to select attribute which will be used in clustering. After successfully finished this research, output yielded by application is differentiated become two focuses, that are based on GPA and study term. But from the difference of the input results an attribute which is permanent influences, that is “ asal SMA”. Future work can be done to accuracy of well guaranteed data and other methods to compare the performance of this method.
Keywords: K-Means clustering, information gain, composition with proportion,
1. Pendahuluan
Memasuki abad 21 ini perkembangan teknologi yang semakin pesat terus bermunculan menggantikan teknologi yang sebelumnya. Teknologi yang baru terus dapat dirasakan manfaatnya untuk mengatasi segala permasalahan yang ada. Namun yang menjadi permasalahan justru fokus pada ketersediaan sumber daya manusia yang mampu mengolah dan mengoperasikan teknologi tersebut. Sumber daya manusia yang berkualitas sangat diperlukan untuk menunjang perkembangan teknologi yang ada. Salah satu cara untuk meningkatkan jumlah sumber daya manusia yang berkualitas ini tentunya dengan pendidikan formal.
Permasalahan yang dihadapi pada beberapa perguruan tinggi adalah kualitas calon mahasiswa baru dari sisi kemampuan akademisnya. Seleksi penerimaan mahasiswa saat ini belum cukup untuk memberikan informasi terhadap kemampuan akademis dan kesungguhan calon mahasiswa baru. Hal ini berakibat banyaknya calon mahasiswa yang pada akhirnya tidak dapat lulus tepat waktu dan bahkan mengundurkan diri karena ketidakmampuan mengikuti perkuliahan secara akademis. Permasalahan ini seharusnya dapat ditangani sejak dini agar jumlah mahasiswa yang mengalami kegagalan dapat diminimasi.
Adapun tujuan penelitian ini adalah melakukan penelitian terhadap atribut yang paling berpengaruh terhadap indeks prestasi kumulatif dan lamanya studi mahasiswa dan melakukan pengelompokkan terhadap sejumlah calon mahasiswa
baru ke dalam cluster berdasarkan kemiripan atribut. Dari hasil tersebut dapat ditentukan karakteristik mahasiswa yang
seperti apa yang mampu meraih indeks prestasi kumulatif baik dan cepat menyelesaikan studi di perguruan Tinggi. Oleh karena itu, research question dalam penelitian ini adalah bagaimana melakukan identifikasi dan analisis terhadap karakteristik calon mahasiswa baru agar diperoleh calon mahasiswa baru yang memiliki kualitas dan kompetensi tinggi.
2. Landasan Teori
Data mining merupakan suatu rangkaian proses untuk menggali nilai tambah dari sekumpulan data yang berupa
pengetahuan yang selama ini tidak diketahui secara manual. Data mining sendiri merupakan kumpulan bidang ilmu
seperti artificial intelligent, machine learning, statistik dan basis data. Han dan Kamber (2000) mengatakan bahwa data
2.1 Information Gain
Information gain merupakan suatu pengukuran yang dilakukan untuk melakukan seleksi terhadap atribut-atribut sehingga dapat disimpulkan atribut apa saja yang akan digunakan. Penyeleksian suatu sampel yang diberikan digunakan
suatu sampel sembarang masuk ke dalam kelas Ci dan ditaksir dengan
S
iS
. Sebagai contoh atribut A yang bukan atributsuatu kelas, memiliki v buah nilai yang berbeda yaitu
{
a
1, a
1, … , a
v}
. Atribut A tersebut dapat digunakan untukmemisahkan S ke dalam vsubnet Sj yaitu
{
S
1, S
1, … , S
v}
yang dalam hal ini Sj ini memuat sampel-sampel di dalam Syang memiliki nilai aj dari A. Jika atribut A tersebut merupakan atribut terbaik yang digunakan untuk pemisahan, maka
subnet-subnet tersebut akan berhubungan dengan cabang-cabang yang turun dari simpul yang memuat himpunan S. Bila
Sij adalah jumlah sampel dari kelas Ci dalam suatu subnet Sj, maka informasi harapan atau entropi berdasarkan pemisahan
ke dalam subnet-subnet A dihitung dengan persamaan :
E
(A
)=
∑
i
m
S
ij
+
S
2j+
…
+
S
mjS
J
(
S
ij, S
2j, …, S
mj)
(2)Sehingga information gain untuk atribut A dapat diperoleh dengan persamaan:
Gain
(A
)=
I
(S
1, S
2, … , S
3)−
E
(
A
)
(3)Persamaan (3) diatas merupakan reduksi yang diharapkan dalam entropi yang disebabkan oleh pengenalan nilai
information gain terbesar yang dipilih sebagai uji atribut untuk himpunan S.
2.2 Metode Clustering
Metode clustering mempartisi data ke dalam kelompok sehingga data yang memiliki karakteristik yang sama
dikelompokkan ke dalam satu cluster yang sama (Refaat, 2007). Tujuan dari clustering ini adalah untuk meminimalisasi
fungsi tujuan yang ditetapkan dalam proses clustering, yang umumnya berusaha meminimalisasi variasi dalam suatu
cluster dan memaksimalisasi variasi antar cluster.
2.3 Metode Hard K-Means
Hard K-Means merupakan suatu metode untuk melakukan pengalokasian data ke masing-masing cluster. Alokasi data
tersebut didasarkan perbandingan jarak antara data dengan centroid setiap cluster, dengan persamaan sebagai berikut:
(Yudi Agusta, 2007)
a
ik=
{
1
d
=
min
{
D
(x
k, v
i)}
0
lainnya
(4)Dimana
a
ik adalah keanggotaan data ke-k ke cluster ke-i sedangkanv
i merupakan nilai centroin cluster ke- i.Adapun fungsi objektif dalam metode Hard K-Means adalah sebagai berikut:
J
(U , V
)=
∑
Dimana N adalah jumlah data, c merupakan jumlah cluster, dan
a
ik mempunyai nilai 1 jika suatu data merupakananggota suatu kelompok dan 0 bila sebaliknya. Pusat centroid dihitung dengan persamaan: (Yudi Agusta, 2007)
v
ij=
Penelitian ini menggunakan 197 data mahasiswa yang telah studi di Institut Teknologi Harapan Bangsa. Pengolahan data
dirancang aplikasi yang berbasis web dengan wampserver5_1.7.2 serta menggunakan clementine 12.0 untuk melakukan
Penelitian Pendahuluan
Studi Literatur Identifikasi masalah
Penentuan tujuan pengamatan
Analisis Pengumpulan Data
Pengolahan Data
Kesimpulan dan Saran
Gambar 1 Alur Penelitian
4. Hasil dan Pembahasan
Atribut yang digunakan sebagai input dalam studi kasus ini adalah data-data mahasiswa baru ITHB yang terdiri dari jenis kelamin, usia, daerah asal, asal sekolah, program studi yang dipilih pada saat SMA, nilai tes matematika dari ujian tes kemampuan akademis yang dilakukan, pekerjaan orang tua, domisili orang tua, dan pilihan pertama program studi mahasiswa saat mendaftar di perguruan tinggi.
Kemudian atribut tersebut dihitung dengan information gain, dimana atribut yang memiliki nilai diatas threshold yang
nantinya akan digunakan sebagai data input dalam proses pengelompokkan sehingga output yang dihasilkan mempresentasikan kemampuan mahasiswa baru yang akan menempuh proses perkuliahan. Jumlah data yang digunakan adalah 197 data, dan ketentuan untuk data yang tidak tersedia digantikan dengan rata-rata atribut untuk seluruh sampel yang masuk dalam kelas yang sama.
Pada tahap awal desain, ditentukan matriks X sebagai data dari atribut yang dihitung menggunakan information gain dan
di-cluster. Kemudian menentukan jumlah cluster yang dibentuk berdasarkan tingkat kemiripan yang tinggi, jumlah
maksimum iterasi dan kriteria penghentian,
U
n=
U
n−1. Hasil implementasi information gain untuk setiap atribut denganclass yang digunakan adalah IPk dan lama kuliah dapat dilihat pada Tabel 1. Secara keseluruhan, cara kerja sistem dapat dilihat pada Gambar 5.
Tabel 1. Hasil implementasi Information Gain untuk setiap atribut untuk class Ipk dan Lama kuliah
No. Atribut Class Ipk No. Atribut Class Lama Kuliah
1 Asal SMA : 0.893826094428 1 Asal SMA : 0.640040174921
2 Lama Kuliah : 0.138372688276 2 Ipk : 0.138372688276
3 Daerah Asal Orang tua : 0.084109934070 3 Jenis Kelamin : 0.065529595192
4 Jenis pendaftaran : 0.062698326937 4 Daerah asal Mahasiswa : 0.063445283871
5 Daerah asal Mahasiswa : 0.058226848521 5 Daerah Asal Orang tua : 0.046235185598
6 Pekerjaan Ayah : 0.058207644577 6 Pekerjaan Ibu : 0.037187816146
7 Pilihan 1 jurusan di ITHB : 0.051892814406 7 Nilai Matematika : 0.031565537727
8 Nilai Matematika : 0.048817162495 8 Pilihan 1 jurusan di ITHB : 0.026408191502
9 Program Studi SMA : 0.046683602809 9 Program Studi SMA : 0.020851432839
10 Pilihan 2 jurusan di ITHB : 0.045592446817 10 Usia : 0.017421987196
11 Usia : 0.041917352684 11 Pilihan 2 jurusan di ITHB : 0.009118821483
12 Pekerjaan Ibu : 0.034562866873 12 Pekerjaan Ayah : 0.008707343635
13 Gelombang Penerimaan : 0.026236963323 13 Jenis pendaftaran : 0.006216301024
Pengujian K-Means di bentuk 3 cluster dengan dua output berbeda yaitu atribut Ipk dan lama kuliah. Pembentukan ini
didasarkan pada hasil observasi dan analisa terhadap pembentukan yang terjadi. Pemodelan K-Means clustering
digunakan dengan software clementine 12.0. Hasil clustering dapat dilihat pada Tabel 2.
Tabel 2. Hasil K-Means clustering
Output Cluster 1 Cluster 2 Cluster 3
Ipk 137 data 43 data 17 data
Lama Kuliah 92 data 95 data 10 data
Hasil clustering secara lengkap dapat dilihat pada Tabel 3. Bila dilakukan analisis yang mendalam terhadap hasil output
IPk, maka dapat diberikan label untuk cluster pertama yaitu mahasiswa yang lulus dengan Ipk diatas 3.51, cluster kedua
adalah mahasiswa yang lulus dengan dengan IPk kurang dari 2.74, dan cluster ketiga adalah mahasiswa yang lulus
dengan IPk antara 2.75 sampai 3.5.
Tabel 3. Hasil output IPk dengan K-Means clustering
Ipk Cluster1 Cluster 2 Cluster 3
>3.51 24.37% 1.02% 1.02%
2.75
-3.5 44.67% 16.24% 7.61%
< 2.74 0.51% 4.57% 0%
TOTAL 69.55% 21.83% 8.63%
Dari cluster pertama dapat diketahui bahwa mahasiswa yang akan lulus dengan IPk lebih dari 3.51 adalah mahasiswa
yang memiliki karakteristik diantaranya berasal dari SMA di Jawa Barat atau Sumatera Utara dengan terutama berasal dari SMAK 1 Bina Bakti Bandung, SMAK St Maria 3 Cimahi, SMAK Yahya Bandung dan SMAK 1 BPK Penabur Bandung dengan lama kuliah 4 tahun, orang tua berdomisili di Jawa Barat atau Sumatera Utara dengan pekerjaan wiraswasta atau pegawai swasta, melalui pendaftaran reguler atau JPA-C dan mahasiswa yang memilih jurusan teknik informatika atau desain komunikasi visual sebagai pilihan 1. Secara detail, hasilnya dapat dilihat pada gambar 1-4.
Gambar 4. Asal orang tua output IPk Gambar 5. Daerah asal mahasiswa output Ipk
Begitu pula output lama kuliah dengan K-Means clustering diperoleh seperti pada Tabel 4. Dari hasil tersebut dapat
diberi label untuk cluster pertama adalah mahasiswa yang lulus dalam waktu 4 tahun atau 5-6 tahun, cluster kedua adalah
mahasiswa yang lulus dalam waktu 4 tahun, dan cluster ketiga adalah mahasiswa yang lulus dalam waktu 5-6 tahun.
Dari Cluster kedua dapat diketahui bahwa mahasiswa yang akan lulus dalam waktu 4 tahun adalah mahasiswa yang memiliki karakteristik berasal dari SMA di Jawa Barat atau Sumatera Utara, namun terutama yang berasal dari SMAK 1 Bina Bakti Bandung, SMAK Yahya Bandung, SMAK St. Maria 2 Bandung, SMAK 1 BPK Penabur Bandung dan SMAK St. Angela Bandung, selain itu juga memiliki IPk lebih dari 3.51, berjenis kelamin wanita dan berasal dari Jawa Barat atau DKI Jakarta.
Tabel 4. Hasil output Lama Kuliah dengan K-Means clustering
Output Lama Kuliah Cluster 1 Cluster 2 Cluster 3
4 tahun 27.91% 45.69% 0.51%
5-6 tahun 18.78% 2.54% 5%
Start
Persiapan Data
Proses Information Gain
Atribut yang digunakan pada proses clustering (Nilai gain
atribut > threshold)
Input k = 3 Initial Membership Matrix U
R = 0 Max Iterasi = 100 Error Telorance = 0.001
Finish = false
R , Max Iterasi & Finish = true
Menghitung Cluster Center
Menghitung Distance Space
Memperbaiki Matrix U
Error < Error Tolerance
Finish = true
R = r +1
Finish
No
No
Gambar 6. Flowchart sistem
5. Kesimpulan dan Saran
Pada penelitian ini mencoba mengaplikasikan Hard K-Means untuk melakukan analisis dan identifikasi terhadap calon
mahasiswa baru. Adapun output yang dihasilkan oleh aplikasi adalah berdasarkan IPk dan lama kuliah, namun atribut yang tetap mempengaruhi keduanya adalah asal SMA. Penyeleksian atribut juga dilakukan dengan menghitung nilai
information gain. Perkembangan lebih lanjut untuk penelitian ini adalah dengan mengembangkan aplikasi yang
terintegrasi antara proses information gain dan K-Means clustering. Selain itu juga dikembangkan metode pendekatan
yang lain untuk menguji ketepatan metode ini sebagai salah satu alat marketing sehingga tepat sasaran.
6. Daftar Pustaka
[1] Han, J., dan Kamber, M. (2000). Data Mining : Concepts and Techniques. United States: Morgan Kaufmann Publishers.
[2] Mirkin, B. (2005). Clustering for Data Mining: Concepts and Techniques. New York: Taylor & Francis Group. [3] Refaat, M. (2007). Data Preparation for Data Mining Using SAS. San Francisco: Diane D Cerra.
[4] Taniar, D. (2007). Data Mining and Knowledge Discovery Technologies. Hershey, New York: IGI Publishing. [5] Yudi Agusta, P. (2007). K-Means-Penerapan, Permasalahan dan Metode terkait. Jurnal Sistem dan Informatika