Student Clustering Based Olll Academic Using K.. Means Algoritms

(1)

Student Clustering Based

Olll

Academic Using K .. Means Algoritms

HirOlllnm.us Leong1, Shlnta Estn Wab.yun.ingrum2

1,2 Faculty of Computer Science, Faculty of Computer Science Unika Soegijapranata [email protected]

Abstract

One goal of clustering data mining is to find a cluster of a particular data modeling. By modeling the data, it can provide more description of the data being analyzed and can be visualized in graphical form. One of the methods used in data mining to search for data modeling is to use K-Means algorithm analysis. K-K-Means algorithm is used to find groupings of data with specific points, called the centroid. By grouping the data, then large amounts of data, grouped in a simpler

visualization. The final results can be used as Decision Support System. Keyword: K·Means Algoritms, Data Mining, Clustering

1. Pendahuiuan

Sistem pembelajaran di perguruan tinggi dibangun berdasarkan perencanaan yang relevan dengan tujuan pendidikan yang ingin dicapai. Sehingga perIu diterapkan berbagai strategi dan teknik yang menunjang pengembangan mahasiswa untuk berpikir kritis, bereksplorasi, berkreasi dalam

memanfaatkan berbagai sumber

pengetahuan.

Salah satu proses dalam

pengembangan sistem pembelajaran tersebut adalah pengembangan dan pembaharuan proses dan kegiatan perkuliahan antara dosen dan mahasiswa. Keseluruhan pengembangan dan pembaharuan, tertuang dalam proses kegiatan belajar mengajar yang diatur oleh kurikulum.

Kurikulum memberlkan perangkat rencana dan pengaturan tentang isi, bahan kajian maupun bahan pelajaran sampai pada cara penyampaian dan penilaian yang digunakan sebagai pedoman dalam penyelenggaraan kegiatan belajar mengajar.

Pedoman penilaian kepada

mahasiswa menjadi tolak ukur bagi suatu program studi dalam pengembangan kurlkulum dan kualitas pendidikan yang ingin dicapai.

Penelitian tentang 'Student Clustering Based On Academic Using K-Means Algorithms' adalah penelitian yang ingin menggambarkan proses penilaian mahasiswa dalam bentuk analisis data

mining. Bahan analisis adalah nilai akademik mahasiswa secara keseluruhan.

Hasil akhir yang ingin dicapai dari penelitian 1m adalah penggambaran mahasiswa secara cluster atau secara pemodelan kelompok nHai baik indeks prestasi komulatif (IPK) mahasiswa maupun nHai mahasiswa pada mata kuliah-mata kuliah tertentu dan dapat divisualisasikan dalam bentuk tabel dan graflk.

2. Tiinjauan Pustaka 2.1 Konsep Data Mining

Pengertian data mining mengacu pada kata "menyaring" atau "menambang" pengetahuan dari sejumlah data berukuran besar. Berry dan Linoff mendeflnisikan data mining sebagai: "suatu proses eksplorasi dan analisis, dengan cara otomatis atau semi otomatis, dari sejumlah data yang besar supaya menemukan pola dan aturan yang sangat penting"

Umumnya data mining mempunyai pengertian yang sama dengan istilah "Knowledge Discovery in Databases" atau menemukan pengetahuan dalam database. Proses menemukan pengetahuan dalam database menggunakan beberapa langkah iteratif secara sekuensial yaitu sebagai berikut:

1. Data cleaning (untuk membersihkan data pencilan dan tidak konsisten)

2. Data integration (menggabungkan data dari beberapa sumber data yang berbeda)

(2)

3. Data selection (mengambil data yang relevan dari database yang akan digunakan dalam proses analisis)

4. Data transformation (data

ditransformasikan atau digabungkan dalam bentuk form untuk proses analisis) 5. Data mining (proses-proses mendasar

dengan menggunakan metode kecerdasan buatan dalam menemukan pola-pola yang khusus dari analisis data)

6. Pattern Evaluation (mengidentiftkasikan pola yang menarik berdasarkan pengukuran tertentu dari pengetahuan) 7. Knowledge presentation (teknik yang

digunakan untuk visualisasi dan representasi pengetahuan)

Berdasarkan fungsi dan tujuannya, semua proses eksplorasi dalam data mining dapat digolongkan ke dalam 2 kategori besar yaitu proses data mining yang bersifat deskriptif atau menjelaskan dan proses data mining yang bersifat prediktif atau meramalkan.

2.2 Algoritma KaMeans

Algoritma K-Means adalah metode clustering secara partisi yang membagi data ke dalam beberapa kelompok yang berbeda yang disebut sebagai cluster. Dalam proses algoritma K-Means, dilakukan proses secara iteratif dengan penentuan kelompok/cluster dilakukan secara acak. Setiap data akan dibagi berdasarkan jarak minimal rata-rata data tersebut ke cluster terdekat.

Berikut adalah langkah-langkah algoritma K-Means:

Tentukan jumlah cluster K yang akan dibentuk

1. Tentukan centroid C secara acak

2. Hitunglah jarak setiap data ke masing-masing centroid menggunakan rumus jarak antar data (euclidian distance)

n

d(x, y) =

L

(Xi - Yi)2 ..••...•••..•• (1)

i=l Keterangan:

d

=

distance/jarak titik (X, y)

Xi = titik X data ke-i

Yi

=

titik Y data ke-i

3. kelompokkan setiap data berdasarkan jarak terdekat data tersebut dengan setiap centroid C. Tentukan posisi centroid C yang barn dengan cara menghitung nilai rata-rata dari data-data yang ada pada centroid yang sama

C. = (:.

)Ld

l ••••••••••••••• (2) Keterangan:

nk adalah jumlah data dalam cluster k dan di adalah data ke-i dalam cluster k

4. Lakukan kembali langkah 3, jika posisi centroid barn tidak sama dengan centroid yang lama (proses iterasi sampai kondisi centroid ke n sama dengan centroid n-l) 3. Metodologi Peneiitiu

Metode yang digunakan dalam penelitian adalah metode CRISP-DM (CRoss Industry Standard Process for Data Mining).

Metode CRISP-DM adalah standarisasi yang berhubungan dengan proses pemodelan data mining. Standarisasi ini tidak mengacu pada teknologi tertentu, melainkan pada semua tingkatan pengguna data mining untuk menyelesaikan masalah perusahaan atau lembaga secara umum.

Gambar 3.1 Metode CRISP-DM

Business Understanding: merupakan fase inisialisasi awal pengembangan data IDlrung yaitu pemahaman tentang obyektivitas dan kebutuhan. Pemahaman tersebut diterjemahkan ke dalam defmisi

(3)

masalah yang akan diselesaikan dengan data

mining sehingga dapat dirancang

perencanaan awal untuk mencapai tujuan. Data Understanding: Fase data understanding dimulai dengan eksplorasi

data yang akan digunakan dalam

permasalahan data mining, ver~fikasi dan menemukan pengertian awal dan data yang akan digunakan dalam proses analisis. Dari proses-proses tersebut, maka dapat di?erol~h hal-hal menarik untuk penyusunan hlpotesls dari informasi yang tersembunyi.

Data Preparation: Hampir sebagian besar dari proses pemodelan data mining terfokus pada fase data preparation atau persiapan data. Pengumpulan data, penilaian terhadap data, konsolidasi dan pembersihan data, seleksi dan transformasi data dibutuhkan dalam fase ini.

Modeling: Fase modeling adalah fase pemilihan model analisis yang akan diimplementasikan dalam data mining, misalnya decision tree, neural network,

aturan asosiasi, dan lain-lain. Pemilihan

model analisis disesuaikan dengan

pennasalahan yang diselesaikan, bahkan beberapa model dapat diimplementasikan dalam penyelesaian masalah.

EvaKuatnon: Fase evaluation atau evaluasi adalah fase analisis terhadap model yang digunakan, bagaimana kinerja model terhadap analisis data yang digunakan; apakah model yang diimplementasikan sudah atau belum memenuhi fase pertama

Deployment: Fase deployment

mendefinisikan bagaimana model

dikembangkan dalam bentuk sistem, siapa yang akan menggunakannya, dan seberapa sering sistem tersebut digunakan. Terdapat 3 langkah yang ada dalam fase ini, yaitu: Perencanaan deployment, Perencanaan pengawasan dan pemeliharaan; langkah ini penting apabila hasil dari pemodelan dalam data mining digunakan secara periodik. 4. Basil Penelitian dan PembahasaJlJl

Persiapan data adalah proses awal dari

implementasi sistem. Dalam proses

persiapan data, perlu dilakukan persiapan

database mahasiswa Fakultas

llmu

Komputer

NAMAMHS KD JUR ANGKAIAN NIRM TPLHR TGLHR KELAMIN MARITAL ALAMAT KOTA TELEPON AGAMA DARAH KODEPOS ALAMAT_ASAl. NIRL . berikut: THNAJAR KD_MSI.IJI FKI NIM FI';2 KDMK_PI.IS NILAI KELAS NO ARSIP OPERATOR TANGGAL KD_JUR DOSEN

Gambar 4.1 Schema Database

Tiga tabel utama menyimpan data tentang mahasiswa, mata kuliah dan hasil studi mahasiswa. Dari sejumlah kolom yang tersedia, maka diambil data yang dijadikan bahan analisis yaitu data mahasiswa (nim dan nama mahasiswa), data mata kuliah (kode matakuliah, nama mata kuliah dan besar sks) dan data hasil studi berupa nilai.

Berikut adalah contoh penerapan algoritma clustering untuk analisis data nilai mata kuliah dengan nama Relational Database Management System (RDBMS).

Tabel 4 1 Data WK dan Nilai RDBMS _{_.}

-nim ipk jrdbms 3:.-..z..:I'.Y 09.02.0001 3.83 ~1. 0 09.02.0002 3.90 4.0 09.02.0003 3.14 3.0 09.02.0004 3.88 4.0 09.02.0005 2.95 3.5 09.02.0007 2.76 1.0 09.02.0008 3.88 4.0 09.02.0010 2.58 1.0 09.02.0011 2.68 2.5 09.02.0013 3.76 3.5 09.02.0016 3.74 3.5 09.02.0017 3.62 3.5 09.02.0021 2.97 4.0 09.02.0029 2.73 3.0 09.02.0030 3.71 4.0 09.02.0033 3.28 3.0 09.02.0051 2.95 2.5 09.02.0052 3.42 3.0 09.02.0056 2.65 2.5 09.02.0058 2.57 2.5

(4)

Langkah pertama adalah menentukan jumlah cluster yang akan dibentuk. Sebagai contoh: ditentukan dua cluster secara acak sebagai berikut:

Cl = (2.75, 3.00)

C2

=

(3.25, 3.75)

Langkah kedua adalah menghitung jarak setiap titik terhadap C 1 dan C2 menggunakan rumus distance. Perhitungan jarak data pertama dengan nim 09.02.0001 adalah sebagai berikut:

d1 (x, y)

=

~(3.83-2.75)2 + (4.0-3.00)2

=

1.47

d2 (x, y)

=

~(3.83

- 3.25)2 + (4.0-3.75)2

=

0.63

Nilai minimal 0.63 sehingga data pertama masuk ke dalam pengelompokan cluster C2

Dengan cara yang sama, maka data selanjutnya dapat diperoleh perhitungan jarak dan pengelompokan clusteringdalam bentuk tabel sebagai berikut:

T b 14 2H i1H' a e

.

as ltungan terasl I . 1

nim ipk rdbms d1 d2 CLUSTER 09.02.0001 3.83 4.0 1.47 0.63 C2 09.02.0002 3.90 4.0 1.52 0.69 C2 09.02.0003 3.14 3.0 0.39 0.76 C1 09.02.0004 3.88 4.0 1.51 0.68 C2 09.02.0005 2.95 3.5 0.54 0.39 C2 09.02.0007 2.76 1.0 2.00 2.79 C1 09.02.0008 3.88 4.0 1.51 0.68 C2 09.02.0010 2.58 1.0 2.01 2.83 C1 09.02.0011 2.68 2.5 0.50 1. 37 C1 09.02.0013 3.76 3.5 1.13 0.57 C2 09.02.0016 3.74 3.5 1.11 0.55 C2 09.02.0017 3.62 3.5 1. 00 0.45 C2 09.02.0021 2.97 4.0 1. 02 0.38 C2 09.02.0029 2.73 3.0 0.02 0.91 C1 09.02.0030 3.71 4.0 1.38 0.52 C2 09.02.0033 3.28 3.0 0.53 0.75 C1 09.02.0051 2.95 2.5 0.54 1.29 C1 09.02.0052 3.42 3.0 0.67 0.77 Cl 09.02.0056 2.65 2.5 0.51 1.39 C1 09.02.0058 2.57 2.5 0.53 1.42 C1

Apabila data dalam bentuk tabel di atas, digambarkan dalam bentuk grafIk clustering, maka didapatkan visualisasi sebagai berikut:

Grafik Clustering

4.:

!J..!-~J.~

3.5 . . .... '.L ... ,1 _• _{..; ... +}' _{• •}' I _: 3

····:-.1

···.1..+.

~ 2.51~·1

m 2 .. t ... + ... l

~

1.51+1···+

·· .. ···i

1: •..

0.5f

... , ... i·· i ••••• ~_ ••• M ••••••• . .... i ... 1... ... -+ ... -+ .... . ••• ••••• M •••••••••••••••••• I ~ U U 3 U U U U 4 IPK

Gambar 4.2 Visualisasi Clustering lterasi 1

Langkah terakhir adalah menentukan posisi titik centroid yang barn dengan perhitungan

mengambil nilai rata-rata dari data yang ada pada

centroid Cl dan centroid C2.

nim ipk 09.02.0003 3,14 09.02.0007 2,76 09.02.0010 2,58 09.02.0011 2,68 09.02.0029 2,73 09.02.0033 3,28 09.02.0051 2.95 rdbms 3 1 1 2,5 3 3 2,5 09.02.0052 3,42 3 09.02.0056 2,65 2,5 09.02.0058 2,57 2,5

Cl barn

=

AVERAGE (IPK, RDBMS)

=

(2.88,2.4) nim ipk rdbms 09.02.0002 3,9 4 09.02.0004 3,88 4 09.02.0005 2,95 3,5 09.02.0008 3,88 4 09.02.0013 3,76 3,5 09.02.0016 3,74 3,5 09.02.0017 3,62 3,5 09.02.0021 2,97 4 09.02.0030 3,71 4

C2 barn = AVERAGE (IPK, RDBMS) = (3.62,3.8)

(5)

Dengan cara yang sarna pada pembahasan di atas, maka dapat dilakukan proses untuk. iterasi berikut. Hasilnya dari iterasi berikut adalah sebagai berikut:

Tabel 4. 3 HasH Perbitunaan Iterasi 1

nirn 09.02.0001 09.02.0002 09.02.0003 09.02.0004 09.02.0005 09.02.0007 09.02.0008 09.02.0010 09.02.0011 09.02.0013 09.02.0016 09.02.0017 09.02.0021 09.02.0029 09.02.0030 09.02.0033 09.02.0051 09.02.0052 09.02.0056 09.02.0058 4,5 , 3,5

3:

~ 2,5 :g 2: a: 1,5 1 0,5 o ipk 3.83 3.90 3.14 3.88 2.95 2.76 3.88 2.58 2.68 3.76 3.74 3.62 2.97 2.73 3.71 3.28 2.95 3.42 2.65 2.57 rdbrns d1 4.0 1.86 4.0 1. 90 3.0 0.65 4.0 1.89 3.5 1.10 1.0 1.41 4.0 1.89 1.0 1.43 2.5 0.22 3.5 1.41 3.5 1.40 3.5 1.33 4.0 1. 60 3.0 0.62 4.0 1. 80 3.0 0.72 2.5 0.12 3.0 0.80 2.5 0.26 2.5 0.32 Grafik Clustering d2 CLUSTER 0.29 C2 0.34 C2 0.93 C1 0.33 C2 0.74 C2 2.93 C1 0.33 C2 2.99 C1 1.60 C1 0.33 C2 0.32 C2 0.30 C2 0.68 C2 1.20 C1 0.22 C2 0.87 C1 1.46 C1 0.83 C1 1.62 C1 1.67 C1 """"'~""'~ u U U 3 U U U U 4 IPK

Gamb8ll' 4.3 Visualisasi Cllllstering Iterasi 2

5. Kesimpulan dan Saran 5.1 Kesfimpulan

1. Algoritma K-Means dapat untuk mengelola nilai IPK menjadi pengelompokan Pengelompokan IPK dapat

digunakan mahasiswa clustering. dilakukan

dengan perhitungan jarak dan nilai centroid menggunakan rumusan dan formula K-Means

2. Terdapat 3 analisis utama yang dapat diselesaikan menggunakan algoritma K-Means yaitu analisis data nilai lIPK

mahasiswa, analisis perbandingan nilai mata kuliah tertentu terhadap nilai lPK

dan analisis perbandingan nilai mata kuliah terhadap mata kuliah dalam rumpun mata kuliah yang sarna dalam kurikulum.

3. Dengan melakukan proses analisis terhadap nilai baik IPK maupun mata kuliah, maka didapatkan garnbaran secara umum tentang data hasil stum mahasiswa.

5.2 Saran

Penelitian yang dilakukan masih sebatas dalarn penggarnbaran data secara umum sehingga pengembangan di masa-masa mendatang perlu mempertimbangkan pengembangan sistem pendukung keputusan menggunakan algoritma yang sarna.

Daftar Pustaka

[1] Michael I.A Bern) and Gordons S. Linnoff, "Data Mining Techniques", Wiley Publishing, Inc, 2004

[2] Cross fudustry Standard Process for Data Mining, http://www.crisp-dm.orgl

[3] Iiawei Han dan Micheline Kamber. "Data Mining: Concepts and Techniques", Morgan Kaufmann Publisher, 2001

[4] Mehmed Kantardzic, "Data Mining-Concepts, Models, Methods, and Algorithms", New John Wiley & Sons, Inc., 2003

[5] Sean Kelly, "Data Warehouse in Action", John Wiley & Sons, Inc., 1997

[6] Efrem G. Mallach, "Decision Support and Data Warehouse Systems", McGraw-Hill,2ooo

[7] George M. Marakas , "Modem Data Warehousing, Mining, and Visualization -Core Concepts", Prentice Hall, Inc., 2003