ANALISIS KEBERHASILAN MAHASISWA DENGAN M

(1)

ANALISIS KEBERHASILAN MAHASISWA DENGAN METODE

CLUSTERING K-MEANS

1)_{Tamsir Hasudungan Sirait dan}2)_{Johan Oscar Ong}

1)_{Departemen Sistem Informasi Institut Teknologi Harapan Bangsa} 2)_{Departemen Teknik Industri Institut Teknologi Harapan Bangsa}

[email protected] ; [email protected]

Abstract

The admission test done actually have not yet enough to know the ability of new student because not a few students passing the test but having a trouble in their study. Some of them resigns before finish their study because unable to follow subjects. The thing ought to can be handled early on that number of students experiencing deductible failure. In this research, we want to analyze the student with cluster into certain batches based on resemblance of the attribute. K-Means Clustering is a useful statistical analysis in forming a number of group to the objects into group amounts which have been specified where object characteristic only enter group based on certain variable, however the characteristic reasoning of object had not been known sure. Information gain is a measurement to do selection attributes. Information gain will be applied before K-Means Clustering to select attribute which will be used in clustering. After successfully finished this research, output yielded by application is differentiated become two focuses, that are based on GPA and study term. But from the difference of the input results an attribute which is permanent influences, that is “ asal SMA”. Future work can be done to accuracy of well guaranteed data and other methods to compare the performance of this method.

Keywords: K-Means clustering, information gain, composition with proportion,

1. Pendahuluan

Memasuki abad 21 ini perkembangan teknologi yang semakin pesat terus bermunculan menggantikan teknologi yang sebelumnya. Teknologi yang baru terus dapat dirasakan manfaatnya untuk mengatasi segala permasalahan yang ada. Namun yang menjadi permasalahan justru fokus pada ketersediaan sumber daya manusia yang mampu mengolah dan mengoperasikan teknologi tersebut. Sumber daya manusia yang berkualitas sangat diperlukan untuk menunjang perkembangan teknologi yang ada. Salah satu cara untuk meningkatkan jumlah sumber daya manusia yang berkualitas ini tentunya dengan pendidikan formal.

Permasalahan yang dihadapi pada beberapa perguruan tinggi adalah kualitas calon mahasiswa baru dari sisi kemampuan akademisnya. Seleksi penerimaan mahasiswa saat ini belum cukup untuk memberikan informasi terhadap kemampuan akademis dan kesungguhan calon mahasiswa baru. Hal ini berakibat banyaknya calon mahasiswa yang pada akhirnya tidak dapat lulus tepat waktu dan bahkan mengundurkan diri karena ketidakmampuan mengikuti perkuliahan secara akademis. Permasalahan ini seharusnya dapat ditangani sejak dini agar jumlah mahasiswa yang mengalami kegagalan dapat diminimasi.

Adapun tujuan penelitian ini adalah melakukan penelitian terhadap atribut yang paling berpengaruh terhadap indeks prestasi kumulatif dan lamanya studi mahasiswa dan melakukan pengelompokkan terhadap sejumlah calon mahasiswa

baru ke dalam cluster berdasarkan kemiripan atribut. Dari hasil tersebut dapat ditentukan karakteristik mahasiswa yang

seperti apa yang mampu meraih indeks prestasi kumulatif baik dan cepat menyelesaikan studi di perguruan Tinggi. Oleh karena itu, research question dalam penelitian ini adalah bagaimana melakukan identifikasi dan analisis terhadap karakteristik calon mahasiswa baru agar diperoleh calon mahasiswa baru yang memiliki kualitas dan kompetensi tinggi.

2. Landasan Teori

Data mining merupakan suatu rangkaian proses untuk menggali nilai tambah dari sekumpulan data yang berupa

pengetahuan yang selama ini tidak diketahui secara manual. Data mining sendiri merupakan kumpulan bidang ilmu

seperti artificial intelligent, machine learning, statistik dan basis data. Han dan Kamber (2000) mengatakan bahwa data

(2)

2.1 Information Gain

Information gain merupakan suatu pengukuran yang dilakukan untuk melakukan seleksi terhadap atribut-atribut sehingga dapat disimpulkan atribut apa saja yang akan digunakan. Penyeleksian suatu sampel yang diberikan digunakan

suatu sampel sembarang masuk ke dalam kelas Ci dan ditaksir dengan

S

i

S

. Sebagai contoh atribut A yang bukan atribut

suatu kelas, memiliki v buah nilai yang berbeda yaitu

{

a

1

, a

1

, … , a

v

}

. Atribut A tersebut dapat digunakan untuk

memisahkan S ke dalam vsubnet Sj yaitu

{

S

1

, S

1

, … , S

v

}

yang dalam hal ini Sj ini memuat sampel-sampel di dalam S

yang memiliki nilai aj dari A. Jika atribut A tersebut merupakan atribut terbaik yang digunakan untuk pemisahan, maka

subnet-subnet tersebut akan berhubungan dengan cabang-cabang yang turun dari simpul yang memuat himpunan S. Bila

Sij adalah jumlah sampel dari kelas Ci dalam suatu subnet Sj, maka informasi harapan atau entropi berdasarkan pemisahan

ke dalam subnet-subnet A dihitung dengan persamaan :

E

(

A

)

=

∑

i

m

_S

ij

+

S

2j

+

…

+

S

mj

S

J

(

S

ij

, S

2j

, …, S

mj

)

(2)

Sehingga information gain untuk atribut A dapat diperoleh dengan persamaan:

Gain

(

A

)

=

I

(

S

1

, S

2

, … , S

3)

−

E

(

A

)

(3)

Persamaan (3) diatas merupakan reduksi yang diharapkan dalam entropi yang disebabkan oleh pengenalan nilai

information gain terbesar yang dipilih sebagai uji atribut untuk himpunan S.

2.2 Metode Clustering

Metode clustering mempartisi data ke dalam kelompok sehingga data yang memiliki karakteristik yang sama

dikelompokkan ke dalam satu cluster yang sama (Refaat, 2007). Tujuan dari clustering ini adalah untuk meminimalisasi

fungsi tujuan yang ditetapkan dalam proses clustering, yang umumnya berusaha meminimalisasi variasi dalam suatu

cluster dan memaksimalisasi variasi antar cluster.

2.3 Metode Hard K-Means

Hard K-Means merupakan suatu metode untuk melakukan pengalokasian data ke masing-masing cluster. Alokasi data

tersebut didasarkan perbandingan jarak antara data dengan centroid setiap cluster, dengan persamaan sebagai berikut:

(Yudi Agusta, 2007)

a

ik

=

{

1 d

=

min

{

D

(

x

k

, v

i)

}

0 lainnya

(4)

Dimana

a

ik adalah keanggotaan data ke-k ke cluster ke-i sedangkan

v

i merupakan nilai centroin cluster ke- i.

Adapun fungsi objektif dalam metode Hard K-Means adalah sebagai berikut:

J

(

U , V

)

=

∑

Dimana N adalah jumlah data, c merupakan jumlah cluster, dan

a

ik mempunyai nilai 1 jika suatu data merupakan

anggota suatu kelompok dan 0 bila sebaliknya. Pusat centroid dihitung dengan persamaan: (Yudi Agusta, 2007)

v

ij

=

Penelitian ini menggunakan 197 data mahasiswa yang telah studi di Institut Teknologi Harapan Bangsa. Pengolahan data

dirancang aplikasi yang berbasis web dengan wampserver5_1.7.2 serta menggunakan clementine 12.0 untuk melakukan

(3)

Penelitian Pendahuluan

Studi Literatur Identifikasi masalah

Penentuan tujuan pengamatan

Analisis Pengumpulan Data

Pengolahan Data

Kesimpulan dan Saran

Gambar 1 Alur Penelitian

4. Hasil dan Pembahasan

Atribut yang digunakan sebagai input dalam studi kasus ini adalah data-data mahasiswa baru ITHB yang terdiri dari jenis kelamin, usia, daerah asal, asal sekolah, program studi yang dipilih pada saat SMA, nilai tes matematika dari ujian tes kemampuan akademis yang dilakukan, pekerjaan orang tua, domisili orang tua, dan pilihan pertama program studi mahasiswa saat mendaftar di perguruan tinggi.

Kemudian atribut tersebut dihitung dengan information gain, dimana atribut yang memiliki nilai diatas threshold yang

nantinya akan digunakan sebagai data input dalam proses pengelompokkan sehingga output yang dihasilkan mempresentasikan kemampuan mahasiswa baru yang akan menempuh proses perkuliahan. Jumlah data yang digunakan adalah 197 data, dan ketentuan untuk data yang tidak tersedia digantikan dengan rata-rata atribut untuk seluruh sampel yang masuk dalam kelas yang sama.

Pada tahap awal desain, ditentukan matriks X sebagai data dari atribut yang dihitung menggunakan information gain dan

di-cluster. Kemudian menentukan jumlah cluster yang dibentuk berdasarkan tingkat kemiripan yang tinggi, jumlah

maksimum iterasi dan kriteria penghentian,

U

n

=

U

n−1. Hasil implementasi information gain untuk setiap atribut dengan

class yang digunakan adalah IPk dan lama kuliah dapat dilihat pada Tabel 1. Secara keseluruhan, cara kerja sistem dapat dilihat pada Gambar 5.

Tabel 1. Hasil implementasi Information Gain untuk setiap atribut untuk class Ipk dan Lama kuliah

No. Atribut Class Ipk No. Atribut Class Lama Kuliah

1 Asal SMA : 0.893826094428 1 Asal SMA : 0.640040174921

2 Lama Kuliah : 0.138372688276 2 Ipk : 0.138372688276

3 Daerah Asal Orang tua : 0.084109934070 3 Jenis Kelamin : 0.065529595192

4 Jenis pendaftaran : 0.062698326937 4 Daerah asal Mahasiswa : 0.063445283871

5 Daerah asal Mahasiswa : 0.058226848521 5 Daerah Asal Orang tua : 0.046235185598

6 Pekerjaan Ayah : 0.058207644577 6 Pekerjaan Ibu : 0.037187816146

7 Pilihan 1 jurusan di ITHB : 0.051892814406 7 Nilai Matematika : 0.031565537727

8 Nilai Matematika : 0.048817162495 8 Pilihan 1 jurusan di ITHB : 0.026408191502

9 Program Studi SMA : 0.046683602809 9 Program Studi SMA : 0.020851432839

10 Pilihan 2 jurusan di ITHB : 0.045592446817 10 Usia : 0.017421987196

11 Usia : 0.041917352684 11 Pilihan 2 jurusan di ITHB : 0.009118821483

12 Pekerjaan Ibu : 0.034562866873 12 Pekerjaan Ayah : 0.008707343635

13 Gelombang Penerimaan : 0.026236963323 13 Jenis pendaftaran : 0.006216301024

(4)

Pengujian K-Means di bentuk 3 cluster dengan dua output berbeda yaitu atribut Ipk dan lama kuliah. Pembentukan ini

didasarkan pada hasil observasi dan analisa terhadap pembentukan yang terjadi. Pemodelan K-Means clustering

digunakan dengan software clementine 12.0. Hasil clustering dapat dilihat pada Tabel 2.

Tabel 2. Hasil K-Means clustering

Output Cluster 1 Cluster 2 Cluster 3

Ipk 137 data 43 data 17 data

Lama Kuliah 92 data 95 data 10 data

Hasil clustering secara lengkap dapat dilihat pada Tabel 3. Bila dilakukan analisis yang mendalam terhadap hasil output

IPk, maka dapat diberikan label untuk cluster pertama yaitu mahasiswa yang lulus dengan Ipk diatas 3.51, cluster kedua

adalah mahasiswa yang lulus dengan dengan IPk kurang dari 2.74, dan cluster ketiga adalah mahasiswa yang lulus

dengan IPk antara 2.75 sampai 3.5.

Tabel 3. Hasil output IPk dengan K-Means clustering

Ipk Cluster1 Cluster 2 Cluster 3

>3.51 24.37% 1.02% 1.02%

2.75

-3.5 44.67% 16.24% 7.61%

< 2.74 0.51% 4.57% 0%

TOTAL 69.55% 21.83% 8.63%

Dari cluster pertama dapat diketahui bahwa mahasiswa yang akan lulus dengan IPk lebih dari 3.51 adalah mahasiswa

yang memiliki karakteristik diantaranya berasal dari SMA di Jawa Barat atau Sumatera Utara dengan terutama berasal dari SMAK 1 Bina Bakti Bandung, SMAK St Maria 3 Cimahi, SMAK Yahya Bandung dan SMAK 1 BPK Penabur Bandung dengan lama kuliah 4 tahun, orang tua berdomisili di Jawa Barat atau Sumatera Utara dengan pekerjaan wiraswasta atau pegawai swasta, melalui pendaftaran reguler atau JPA-C dan mahasiswa yang memilih jurusan teknik informatika atau desain komunikasi visual sebagai pilihan 1. Secara detail, hasilnya dapat dilihat pada gambar 1-4.

(5)

Gambar 4. Asal orang tua output IPk Gambar 5. Daerah asal mahasiswa output Ipk

Begitu pula output lama kuliah dengan K-Means clustering diperoleh seperti pada Tabel 4. Dari hasil tersebut dapat

diberi label untuk cluster pertama adalah mahasiswa yang lulus dalam waktu 4 tahun atau 5-6 tahun, cluster kedua adalah

mahasiswa yang lulus dalam waktu 4 tahun, dan cluster ketiga adalah mahasiswa yang lulus dalam waktu 5-6 tahun.

Dari Cluster kedua dapat diketahui bahwa mahasiswa yang akan lulus dalam waktu 4 tahun adalah mahasiswa yang memiliki karakteristik berasal dari SMA di Jawa Barat atau Sumatera Utara, namun terutama yang berasal dari SMAK 1 Bina Bakti Bandung, SMAK Yahya Bandung, SMAK St. Maria 2 Bandung, SMAK 1 BPK Penabur Bandung dan SMAK St. Angela Bandung, selain itu juga memiliki IPk lebih dari 3.51, berjenis kelamin wanita dan berasal dari Jawa Barat atau DKI Jakarta.

Tabel 4. Hasil output Lama Kuliah dengan K-Means clustering

Output Lama Kuliah Cluster 1 Cluster 2 Cluster 3

4 tahun 27.91% 45.69% 0.51%

5-6 tahun 18.78% 2.54% 5%

(6)

Start

Persiapan Data

Proses Information Gain

Atribut yang digunakan pada proses clustering (Nilai gain

atribut > threshold)

Input k = 3 Initial Membership Matrix U

R = 0 Max Iterasi = 100 Error Telorance = 0.001

Finish = false

R , Max Iterasi & Finish = true

Menghitung Cluster Center

Menghitung Distance Space

Memperbaiki Matrix U

Error < Error Tolerance

Finish = true

R = r +1

Finish

No

Gambar 6. Flowchart sistem

5. Kesimpulan dan Saran

Pada penelitian ini mencoba mengaplikasikan Hard K-Means untuk melakukan analisis dan identifikasi terhadap calon

mahasiswa baru. Adapun output yang dihasilkan oleh aplikasi adalah berdasarkan IPk dan lama kuliah, namun atribut yang tetap mempengaruhi keduanya adalah asal SMA. Penyeleksian atribut juga dilakukan dengan menghitung nilai

information gain. Perkembangan lebih lanjut untuk penelitian ini adalah dengan mengembangkan aplikasi yang

terintegrasi antara proses information gain dan K-Means clustering. Selain itu juga dikembangkan metode pendekatan

yang lain untuk menguji ketepatan metode ini sebagai salah satu alat marketing sehingga tepat sasaran.

6. Daftar Pustaka

[1] Han, J., dan Kamber, M. (2000). Data Mining : Concepts and Techniques. United States: Morgan Kaufmann Publishers.

[2] Mirkin, B. (2005). Clustering for Data Mining: Concepts and Techniques. New York: Taylor & Francis Group. [3] Refaat, M. (2007). Data Preparation for Data Mining Using SAS. San Francisco: Diane D Cerra.

[4] Taniar, D. (2007). Data Mining and Knowledge Discovery Technologies. Hershey, New York: IGI Publishing. [5] Yudi Agusta, P. (2007). K-Means-Penerapan, Permasalahan dan Metode terkait. Jurnal Sistem dan Informatika

(7)