• Tidak ada hasil yang ditemukan

CLUSTERING MOTIVASI BELAJAR SISWA ELEARNING BERBASIS ALGORITMA K-MEANS

N/A
N/A
Protected

Academic year: 2021

Membagikan "CLUSTERING MOTIVASI BELAJAR SISWA ELEARNING BERBASIS ALGORITMA K-MEANS"

Copied!
5
0
0

Teks penuh

(1)

CLUSTERING MOTIVASI BELAJAR SISWA ELEARNING

BERBASIS ALGORITMA K-MEANS

Sismadi

AMIK BSI JAKARTA e-mail: [email protected]

Abstrak

Pengelompokkan motivasi belajar siswa cukup sulit pada proses pembelajaran secara konvensional, apalagi proses pembelajaran dilaksanakan tanpa bertatap muka secara langsung atau non-konvensional yang biasa disebut elearning. Kesulitan pengelompokan terletak pada seberapa besar siswa memiliki semangat belajar untuk dapat lulus pada mata kuliah yang diambil. Algoritma k-means digunakan pada penelitian ini untuk menghitung secara kuantitas dari sejumlah atribut data yang digunakan. Atribut data yang diproses oleh algoritma k-means antara lain jumlah login, akses materi, jumlah membuat thread diforum diskusi, jumlah tanggapan forum komentar diskusi dan jumlah mengerjakan soal latihan. Dari atribut tersebut setelah diolah dapat mengelompokkan siswa masuk dalam cluster semangat belajar rendah dengan nilai aktifitas 4.027, sedang dengan nilai aktifitas 10.3294 dan tinggi dengan nilai aktifitas 17.5938. Matakuliah yang disediakan terdapat 3, antara lain Bahasa Indonesia, Matematika, dan Pengantar Teknologi Informasi dan Komputer. Sebagai penentu berhasil atau tidaknya siswa dalam belajar adalah tingkat kelulusan yang dicapai. Untuk tingkat kelulusan juga terbagi menjadi 3 yaitu cukup, baik dan memuaskan. Untuk mengukur tingkat efektifitas clustering dengan algoritma k-means, pada penelitian ini menggunakan metode Sum of Squared Error.

Keywords: clustering k-means, clustering supervised

1. Pendahuluan

Pembelajaran merupakan sebuah proses yang panjang untuk dapat menciptakan sumber daya manusia yang handal dan berkarakter, sehingga menjadi individu yang baik untuk membangun bangsanya. Proses pembelajaran dapat menggunakan media elektronik dan dapat dilaksanakan dari jarak-jauh yang memanfaatkan paket informasi berbasis teknologi informasi dan komunikasi, yang dapat diakses oleh anak didik kapan saja dan dimana saja (menteri, 2013). Pembelajaran jarak jauh dapat dilaksanakan dengan dua acara yaitu synchronous dan asynchronous. Permasalahan yang dihadapi pada pembelajaran elearning penelitian ini adalah sulitnya dalam mengkategorikan bahwa seoarang siswa mahir pada kuliah tertentu dengan tingkat kemahiran sebaik apa, sebab bisa terjadi bahwa siswa dapat masuk kedalam lebih dari satu cluster. Pada penelitian ini data yang digunakan hasil dari penampungan proses pembelajaran asynchronous. Atribut data yang digunakan ada lima varian antara lain jumlah login, jumlah membuat thread diforum, jumlah

komentar diforum, jumlah mengerjakan soal latihan dan ujian dan jumlah mengakses materi pembelajaran. Untuk materi pembelajaran dapat didownload sekaligus ataupun perpertemuan. Materi kuliah yang disajikan pada penelitian ini terdiri dari Bahasa Indonesia(BI), agama(PA) dan Pendidikan Kewarganegaraan(PKN). Untuk jumlah mahasiswa yang dilakukan clustering sebanyak 257 orang dengan komposisi 113 orang mengambil matakuliah PKN, 94 orang BI dan 48 orang PA. Untuk clustering dengan menggunakan algoritma K-Means. Algoritma ini salah satu yang memiliki tingkat akurasi tinggi dalam mengelompokkan data dengan jumlah besar dibanding dengan Self-Organization Map(SOM) dan algoritma tradisional yang lain (Joao M. Sousa, 2002). Untuk mengukur kualitas cluster menggunakan Sum of Square Error(SSE). Nilai SSE yang dihasilkan semakin kecil maka semakin baik kualitas cluster yang diperoleh. Penelitian menggunakan algoritma k-means untuk prediksi kinerja anak didik dengan pola pembelajaran elearning juga telah dilakukan di Nigeria (O.J, O.O, & I.C, 2010). Penelitian

(2)

lanjutan untuk memilih bahan sebagai pembelajaran elearning menggunakan algoritma k-means juga telah dilaksanakan di Nigeria (I.O, O.A, & E.R, 2016).

2. Metode Penelitian

Mengelompokkan manusia berdasarkan individu sulit untuk dilakukan, sebab setiap individu bersifat unik dan memiliki lingkungan yang berbeda-beda, begitu pula pada pembelajaran yang bersifat non-tatap muka yaitu memalui media digital yang biasa dikenal dengan elearning (Chang & Yang, 2009). Kesulitan yang ada pada penelitian ini adalah mengelompokkan siswa kedalam cluster berdasarkan aktifitas selama proses pembelajaran dengan berdasar pada lima atribut aktifitas yang telah dilakukan. Atribut tersebut antara lain jumlah login, jumlah membuat thread diskusi, jumlah komentar dalam forum diskusi, jumlah mengerjakan soal latihan dan jumlah mengakses materi pembelajaran selama satu semester yang dilakukan siswa. Pembagian cluster terdiri dari tiga dengan berdasar pada jumlah matakuliah yang disajikan. Dengan algoritma k-means maka siswa dikelompokkan menjadi tiga kelompok berdasar pada matakuliah yang telah diikuti. Setiap siswa akan masuk tepat satu kedalam cluster matakuliah, sebagai hasil keakuratan clustering maka data siswa yang mengikuti matakuliah akan dibandingkan dengan anggota kelompok cluster matakuliah. Bila anggota cluster dengan data siswa yang mengikuti matakuliah sama maka disebut valid, namun bila tidak sesuai disebut tidak valid. Selain itu tingkat keefektifan clustering hasilnya diukur dengan sum of square error.

K-means

Algoritma k-means merupakan salah satu algoritma yang sederhana dengan sifat tidak dipandu(unsupervised) untuk memecahkan masalah clustering (coursera.org, 2017). Ide dasar dari algoritma k-means adalah menentukan k centroids merupakan satu dari banyaknya titik-titik clusters. Penempatan titik cluster terbaik adalah dengan meletakkan pada tempat terbanyak penyebaran data atau dengan kata lain, meminimumkan nilai jarak elemen–eleman dengan titik pusat dalam cluster (Kantardzic, 2011). Penentuan nilai k dilakukan secara acak, k adalah banyaknya cluster yang dibentuk dan merupakan titik pusat cluster yang disebut centroids, mean atau means. Kemudian dihitung jarak setiap data dengan

titik centroids pada masing-masing cluster dengan rumus Euclidian hingga ditemukan jarak yang paling dekat dengan titik centroids. Klasifikasikan setiap data dengan titik centroids hingga nilainya tidak berubah (Witten & Frank, 2005).

Algoritma k-means

Pada dasarnya clustering dengan k-means adalah menghitung nilai jarak data dengan titik pusat(centroids) dalam satu grup atau cluster, peghitungan ini diulang terus hingga nilai k centroids stabil atau tidak berubah. Banyaknya perulangan tergantung pada nilai k. Berikut langkah perhitungan k-means. 1. Tentukan nilai k secara acak dan hitung

setiap clusters dengan pusat cluster. (centroid of each cluster)

2.1 ∑ (within-cluster

variation) 2.2 (the total square error)

2.3 2. Generate partisi baru dengan penugasan setiap sample data terhadap pusat titik cluster.

3. Hitunglah setiap pusat cluster yang baru.

4. Ulangi langkap 2 dan 3 hingga nilai pusat cluster tidak berubah atau stabil. Karakteristik algoritma k-means antara lain sebagai berikut (Kantardzic, 2011).

1. Kompleksitas algoritma K-Means adalah O(nkl) dengan n adalah jumlah objek data dan k adalah jumlah cluster dan l adalah banyak iterasi. Umumnya k dan l tetap sehingga algoritma ini memiliki kompleksitas linear terhadap ukuran data.

2. Algoritma K-Means merupakan algoritma yang tidak terpengaruh urutan data(order-independent).

3. Algoritma K-Means sangat sensitif terhadap noise dan outlier sebab dapat mempengaruhi nilai means.

4. Karena kompleksitas linear, algoritma K-Means relatif scalable dan efisien untuk untuk pemrosesan data dalam jumlah besar(higher-dimensionality).

Algoritma k-means mengukur goodness dari struktur clustering tanpa adanya informasi dari luar, sebagai contoh SSE.

Sum of Square Error

Untuk mengevaluasi tingkat efektifitas clustering pada penelitian ini digunakan sum of square error(SSE). SSE sangat

(3)

sederhana dan umum digunakan untuk pengukuran keakuratan cluster (Maimon & Rokach, 2005). Berikut ini tahapan dalam menghitung SSE:

SSE=∑ 2.5

Dimana adalah anggota dari cluster k; adalah vektor rata-rata dari cluster k. Sehingga komponen dapat ditulis sebagai berikut:

= 2.6

Dimana adalah nilai dari anggota yang dimiliki olek cluster k.

3. Pembahasan

Pada penelitian ini, data atribut yang digunakan untuk clustering antara lain jumlah login, akses materi, membuat thread diskusi, berkomentar diforum dan mengerjakan soal. Dari setiap atribut tersebut diproses dengan algoritma K-Means. Berikut data masing-masing atribut:

Tabel 1. Data atribut aktifitas siswa

No ID A1 A2 A3 A4 A5 1 22652 7 2 0 1 5 2 12473 21 12 2 31 13 3 13805 20 15 8 35 13 4 12777 4 8 1 5 4 . . . . . . . . 257 7673 12 1 2 11 12 Keterangan: A1 : Jumlah login

A2 : Jumlah akses materi pembelajaran A3 : Jumlah membuat thread diskusi A4 : Jumlah berkomentar diforum diskusi A5 : Jumlah mengerjakan soal ujian

Dari data berjumlah 257 siswa terbagi menjadi tiga cluster berdasarkan kriteria motivasi yaitu rendah, sedang dan tinggi.

3.1. K-means

Berikut langkah-langkah pemrosesan data dengan algoritma k-means dan hasilnya setiap tahapan.

1. Menentukan jumlah cluster.

Jumlah cluster yang terbentuk ada tiga yang dikelompokkan berdasarkan kriteria motivasi rendah, sedang dan tinggi.

2. Alokasikan data kedalam cluster secara acak.

Pengalokasian data kedalam cluster secara acak yang dibuat oleh software rapidMiner v.5.3.000

Cluster Model Cluster 0: 96 items Cluster 1: 96 items Cluster 2: 65 items

Total number of items: 257

Dari hasil pengelompokkan oleh rapidMiner tersebut diatas, dapat diuraikan sebagai berikut:

Pada cluster 0 terdapat 96 items data dengan anggota data nomer urut ke-1,4,5,6,11,12,13,15,16,17,20,21 dan seterusnya hingga berjumlah 96 data. Cluster 1 juga memiliki data sebanyak 96 items dengan nomer urut data ke-7,8,9,18,19,22,25,27,28,29 dan seterusnya hingga 96 items data. Untuk cluster ke-2 dengan jumlah data 65 items dengan urutan data ke-2,3,10,14,36,39,47,69,72,73 dan seterusnya hingga 65 items.

3. Hitung pusat cluster atau centroids rata-rata data pada cluster dengan rumus berikut: ∑ Dimana: k : index cluster X : indeks data

Mk : centroid/rata-rata cluster ke-k n : jumlah data

i : dimulai dari 1-n

Berikut nilai pusat cluster ke-0 dengan iterasi pertama dan anggota cluster data ke-1,4,5,6,11,12,13,15,16,17,20,21 hingga 96 items. Nilai Mk = (7,479;6,719;2,927;2,635;0,375) dengan urutan atribut login, kerjakansoal, aksesmateri,komenforum dan buatthread.

Sedangkan untuk pusat cluster ke-1 dengan iterasi ke-0 dengan anggota data cluster nomor urut ke-7,8,9,18,19,22,25,27,28,29 hingga berjumlah 96 items data, yang memiliki

nilai Mk =

(16,438;11,250;8,271;13,240;2,448) dengan urutan atribut sama dengan cluster ke-0 dan nilai pusat cluster ke-2 dengan nomer urut data sebagai

(4)

anggotanya adalah data ke-2,3,10,14,36,39,47,69,72,73 hingga 65 items dan nilai Mk = (27,923;13.508;13.415;27.308;5.815). 4. Langkah berikutnya mengenerate partisi

baru dengan memberikan nilai pusat cluster atau centroids yang lebih dekat dengan pusat cluster.

5. Ulangi langkah 4 dan 5 hingga anggota cluster stabil atau tidak berpindah keanggotaannya.

Table 2. Nilai pusat cluster

Attribute

cluster_0 cluster_1 cluster_2

login

7.479

16.438

27.923

komenforum

2.635

13.24

27.308

kerjakansoal

6.719

11.25

13.508

buatthread

0.375

2.448

5.815

aksesmateri

2.927

8.271

13.415

Keterangan:

Cluster_0 mewakili motivasi rendah Cluster_1 mewakili motivasi sedang Cluster_2 mewakili motivasi tinggi Berikut hasil dalam bentuk graph

Gambar. 1. Graph clustering k-means Gambar diatas menunjukan bahwa cluster yang dibentuk ada 3 yang mewakili matakuliah diambil oleh siswa. Angka 0 hingga 2 adalah cluster yang dibentuk, dimana setiap cluster memiliki anggota tepat satu item, yang berarti suatu data tepat menjadi anggota hanya satu cluster.

Kemudian untuk penyajian hasil k-means dalam bentuk grafik sebagai berikut:

Gambar 2. Plot grafik k-means Setiap garis mewakili satu cluster dan garis warna merah adalah cluster ke-2 yang memiliki nilai tertinggi dan menggambarkan aktifitas siswa yang tinggi berdasarkan atribut yang diambil.

Table 3. Nilai uji validitas

No ID c-0 c-1 c-2 validitas lulus 1 22652 1 tidak tidak 2 12473 1 valid ya 3 13805 1 valid ya 4 12777 1 tidak ya 5 3955 1 valid tidak 6 3956 1 valid tidak 7 7673 1 valid ya 8 3958 1 tidak ya . . . . . . . . 257 6499 1 valid ya Keterangan:

c-0 : custer 0 mewakili motivasi rendah c-1 : cluster 1 mewakili motivasi sedang c-2 : cluster 2 mewakili motivasi tinggi validitas :

valid  anggota cluster sesuai aktifitas tidak  anggota cluster tidak sesuai dengan data empiris

Nilai uji validitas diperoleh dengan membandingkan data empiris kelulusan dengan hasil algoritma k-means clustering yang mengelompokkan data kedalam cluster rendah, sedang dan tinggi. Kemudian hasil dari anggota cluster dilihat apakah sesuai dengan kelulusan berhasil atau gagal pada data empiris, bila sesuai dan siswa lulus maka dikatakan valid untuk kriteria sedang dan tinggi, namun bila data tidak sesuai cluster dan/atau status tidak lulus maka dikatakan tidak valid bila masuk dalam cluster sedang dan tinggi. Dari perbandingan data tersebut diperoleh tingkat validitas kisaran 67 persen.

(5)

3.2. Sum of Square Error (SSE)

Untuk pengukuran efektifitas cluster secara internal pada penelitian ini menggunakan Sum of Square Error(SSE).

SSE=∑ 1 = 2

Tabel 4. Tingkat efektifitas SSE

cluster µk,j (x1..257)-µkj SSE 0 2,412174 0,17834 0,38511 1 2,212531 0,117449 2 1,882038 0,100369 Keterangan

Untuk nilai SSE semakin kecil maka efektifitas cluster semakin baik dan akurat. 4. Simpulan

Penelitian ini memproses data aktifitas siswa dengan dasar catatan logfile yang ada pada system database elearning. Untuk penelitian sebelumnya banyak menggunakan atribut siswa atau data profil. Namun ternyata data logfile aktifitas siswa dapat dijadikan parameter untuk mengukur motivasi belajar siswa dengan rekam jejak yang telah dilakukan. Siswa dikatakan memiliki motivasi tinggi apabila validitas dikatakan valid dan lulus, sebab ada beberapa siswa yang valid namun tidak lulus dimatakuliah yang diikutinya dan begitu pula beberapa siswa yang lulus namun secara data tidak valid. Untuk penelitian ini memiliki tingkat akurasi kisaran 67 persen dengan algoritma k-means sebab algoritma ini menggunakan logika CRISP yang berarti mengelompokkan data kedalam cluster dengan nilai kebenaran absolut (benar atau salah). Untuk penelitian lanjutan dapat menggunakan algoritma fuzzy c-means dengan harapan dapat meningkatkan tingkat akurasi yang lebih baik lagi dan data dapat diperlengkap. Algoritma fuzzy c-means memiliki nilai tingkat kebenaran dari nol hingga satu. Dimana sebuah data dapat menjadi anggota lebih dari satu cluster dengan nilai kebenaran tertentu, bila data empiris menggolongkan ke cluster ke-0, sementara algoritma fuzzy k-means memasukkan menjadi anggota cluster ke-1.

Referensi

Chang, W.-C., & Yang, H.-C. (2009). Applying IRT to Estimate Learning Ability and K-means Clustering in

Web based Learning. JOURNAL OF SOFTWARE, 167-174.

coursera.org. (2017, 03 09). coursera.org. Retrieved from coursera.org: https://www.coursera.org/learn/mac hine-learning/lecture/93VPG/k-means-algorithm

I.O, A., O.A, A., & E.R, A. (2016). Modeling and Simulation of K-Means Clustering Learning Object Adaptability Model for Selecting Materials in E-Learning. International Journal of Computer Applications, 10-18.

Joao M. Sousa, U. K. (2002). A Comparative Study of Fuzzy Target Selection Methods in Direct Marketing. Fuzzy systems.

Kantardzic, M. (2011). Data Mining: Concepts, Models, Methods and Algorithms, Second Edition. Hoboken, NJ, USA: John Wiley & Sons, Inc.

Maimon, O., & Rokach, L. (2005). Data Maining and Knowledge Discovery Handbook. New York: Springer. menteri, p. (2013, december 31). sindikker.

Retrieved from

http://sindikker.org/web/:

http://sindikker.dikti.go.id/dok/perme ndikbud/permen_tahun2013_nomor 109.pdf

O.J, O., O.O, O., & I.C, O. (2010). Application of k-Means Clustering algorithm for prediction of Students’ Academic Performance. (IJCSIS) International Journal of Computer Science and Information Security, 292-295.

Witten, I. H., & Frank, I. (2005). Data Mining Practical Machine Learning Tools and Techniques, Second Edition. San Francisco: Morgan Kaufmann Publisher

Gambar

Tabel 1. Data atribut aktifitas siswa  No  ID  A1  A2  A3  A4  A5  1  22652  7  2  0  1  5  2  12473  21  12  2  31  13  3  13805  20  15  8  35  13  4  12777  4  8  1  5  4
Table 2. Nilai pusat cluster

Referensi

Dokumen terkait

Pendidikan yang dikatakan berhasil dapat dilihat dari hasil prestasi belajar. siswa yang

clustering keilmuan dalam data mining adalah pengelompokan sejumlah data atau objek ke dalam cluster ( group ) sehingga setiap dalam cluster tersebut akan berisi data

rendah dibandingkan dengan hasil SSE pada single linkage. Dapat dilihat pada table 4.1 jumlah data pada setiap cluster lebih. seimbang atau selisih jumlah pada setiap

Pengelompokan siswa berdasarkan faktor-faktor yang mempengaruhi keberhasilan siswa dalam belajar bertujuan untuk membantu dan mempermudah pada proses pengelolaan data

Aplikasi RapidMiner digunakan oleh peneliti untuk mempermudah proses data mining dalam menghasilkan informasi, dimana hasil clustering terbaik adalah 5 cluster, yaitu

Pada Gambar 4.8 dapat dilihat bahwa hasil cluster 1 terbesar yaitu jalur masuk Beasiswa dengan persentase 47,5% mahasiswa yang berpotensi tinggi terkena drop out,

Jumlah mahasiswa yang berada dalam cluster 7 adalah sejumlah 50 orang mahasiswa dengan kemampuan akademik yang baik, namun kurang aktif dalam kegiatan

Skenario Pengujian Form Aplikasi Hasil Pengujian Black Box yang belum ada di dalam database menyimpan data siswa tersebut dan menampilkan pesan berhasil Menginputkan data