• Tidak ada hasil yang ditemukan

PEMANFAATAN METODE K-MEANS CLUSTERING DALAM PENENTUAN PENERIMA BEASISWA

N/A
N/A
Protected

Academic year: 2018

Membagikan "PEMANFAATAN METODE K-MEANS CLUSTERING DALAM PENENTUAN PENERIMA BEASISWA"

Copied!
49
0
0

Teks penuh

(1)

commit to user

PEMANFAATAN METODE K-MEANS

CLUSTERING

DALAM

PENENTUAN PENERIMA BEASISWA

SKRIPSI

Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu

Jurusan Informatika

Disusun Oleh:

NOOR FITRIANA HASTUTI

NIM. M0508059

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

(2)

commit to user

PEMANFAATAN METODE K-MEANS

CLUSTERING

DALAM

PENENTUAN PENERIMA BEASISWA

SKRIPSI

Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu

Jurusan Informatika

Disusun Oleh:

NOOR FITRIANA HASTUTI

NIM. M0508059

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

(3)

commit to user

SKRIPSI

PEMANFAATAN METODE K-MEANS

CLUSTERING

DALAM

PENENTUAN PENERIMA BEASISWA

Disusun Oleh:

Noor Fitriana Hastuti

NIM. M0508059

Skripsi ini telah disetujui untuk dipertahankan di hadapan Dewan Penguji

pada tanggal: 22 Januari 2013

(4)

commit to user

SKRIPSI

PEMANFAATAN METODE K-MEANS CLUSTERING

DALAM PENENTUAN PENERIMA BEASISWA

Disusun Oleh:

NOOR FITRIANA HASTUTI

NIM. M0508059

telah dipertahankan di hadapan Dewan Penguji

pada tanggal: 28 Januari 2013

Susunan Dewan Penguji

(5)

commit to user

MOTTO

.

(6)

commit to user

PERSEMBAHAN

Dipersembahkan untuk:

Ayah dan Ibu tercinta yang tanpa henti

memberikan doa, nasehat, dukungan, dan

(7)

commit to user

PEMANFAATAN METODE K-MEANS CLUSTERING DALAM

PENENTUAN PENERIMA BEASISWA

NOOR FITRIANA HASTUTI

Jurusan Informatika. Fakultas MIPA. Universitas Sebelas Maret.

ABSTRAK

Pengelompokkan data mahasiswa berdasarkan kriteria Indeks Prestasi Kumulatif (IPK), penghasilan total orang tua, dan jumlah tanggungan keluarga dapat membantu dalam proses penerimaan beasiswa. Metode yang bisa digunakan untuk pengelompokkan data mahasiswa ini adalah K-Means Clustering. Metode K-Means Clustering berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama. Data mahasiswa dikelompokkan menjadi tiga cluster yaitu menerima, dipertimbangkan, dan tidak berhak menerima beasiswa. Kemudian setiap cluster

diklasifikasikan berdasarkan kriteria mana yang lebih diprioritaskan. Cluster

dengan nilai terbesar pada centroid akhir merupakan cluster yang direkomendasikan menerima beasiswa, sedangkan cluster dengan nilai terkecil pada centroid akhir merupakan cluster yang tidak berhak menerima beasiswa. Pengujian sistem dilakukan sebanyak 40 kali percobaan terhadap 48 data mahasiswa untuk mendapatkan presisi hasil implementasi metode K-Means

Clustering. Nilai presisi dihitung dengan Error Presisi, dengan membandingkan data hasil clustering dari 40 percobaan. Hasil perhitungan Error Presisi pada hasil klasifikasi berdasarkan IPK adalah 0,118 dan berdasarkan penghasilan orang tua adalah 0,076. Nilai Error Presisi yang rendah menunjukkan bahwa nilai presisinya tinggi. Nilai presisi tinggi menunjukkan ketetapan data pada setiap percobaan dengan menggunakan tiga cluster juga tinggi.

(8)

commit to user

USE OF K-MEANS CLUSTERING METHOD FOR DETERMINATION OF SCHOLARSHIP RECIPIENTS

NOOR FITRIANA HASTUTI

Department of Informatics. Mathematic and Natural Science Faculty. Sebelas Maret University

ABSTRACT

Student data clustering based on the criteria of grade point average (GPA), parent s total income, and the number of family dependents can assist in the process of receiving a scholarship. Method that can be used for data classification of these students are K-Means Clustering. K-Means Clustering Method attempt to group the data into several groups, where data in one group have the same characteristics. The student data are grouped into three clusters, which received, considered, and is not eligible to receive the scholarship. Then each cluster is classified based on which criteria is prioritized. Cluster with the greatest value on the last centroid, is the recommended cluster receive scholarships, while the cluster with the smallest value on the last centroid is a cluster that is not eligible to receive the scholarship. Testing the system carried 40 times experimental with 48 students data to obtain the precision of the implementation of K-Means clustering results of method. Precision values computed by Precision Error, by comparing the clustering result data from 40 experiment. Precision Error calculation results on the classification results based on GPA is 0.118 and based on parent

is 0.076. Low Error Precision value indicates that the precision value of it is high. High precision value indicates determination of data on each experiment using three clusters are also high.

(9)

commit to user

KATA PENGANTAR

Puji syukur kehadirat Allah SWT karena dengan ridho dan rahmat-Nya,

penulis dapat menyelesaikan Tugas Pemanfaatan Metode

K-Means Clustering dalam Penentuan Penerima Beasiswa Banyak kesulitan dan

hambatan yang Penulis temui dalam penyusunan laporan ini. Namun berkat

bantuan dan bimbingan dari berbagai pihak, Penulis dapat menyelesaikannya.

Penulis mengucapkan terima kasih kepada berbagai pihak yang telah

memberikan bimbingan, dukungan dan saran dalam pembuatan laporan ini,

terutama kepada:

kesabaran memberikan bimbingan dan pengarahan selama proses penyusunan

skripsi ini.

4. Ibu Esti Suryani, S.Si., M.Kom. selaku Dosen Pembimbing II yang penuh

kesabaran memberikan bimbingan dan pengarahan selama proses penyusunan

skripsi ini.

5. Ayah dan Ibu tercinta untuk setiap kasih sayang, nasehat, dan dukungan

moral maupun material yang tak mungkin terbalas.

6. Teman-teman semua terutama mahasiswa Informatika FMIPA UNS dan Eska

Sebayu Rian Putra yang selalu memberikan bantuan, dukungan, dan motivasi

kepada Penulis.

Semoga skripsi ini dapat bermanfaat bagi pihak yang berkepentingan.

Surakarta, 15 Januari 2013

(10)
(11)

commit to user

BAB 3 METODOLOGI PENELITIAN... 20

3.1 Pengumpulan Data ... 20

3.1.1 Tempat dan Waktu Penelitian ... 20

3.1.2 Metode Pengumpulan Data ... 20

3.2 Pemodelan Data ... 21

3.3 Proses Clustering ... 22

3.4 Klasifikasi Hasil Clustering ... 23

3.5 Implementasi Sistem ... 23

3.6 Pengujian Clustering ... 24

BAB 4 PEMBAHASAN ... 25

4.1 Pemodelan Data ... 25

4.2 Proses Clustering ... 25

4.3 Klasifikasi Hasil Clustering ... 30

4.4 Implementasi Sistem ... 31

4.4.1 Gambaran Umum Sistem ... 32

4.4.2 Perancangan Basis Data ... 33

4.5 Pengujian Clustering ... 34

BAB 5 PENUTUP ... 35

5.1 Kesimpulan ... 35

5.2 Saran ... 35

(12)

commit to user

DAFTAR TABEL

Halaman

Tabel 2.1 Daftar objek yang akan diolah dalam clustering ... 12

Tabel 2.2 Hasil clustering ... 14

Tabel 3.1 Pengategorian PO ... 22

Tabel 4.1 Hasil perhitungan jarak awal pada iterasi-1 ... 27

Tabel 4.2 Hasil cluster iterasi-1 ... 28

Tabel 4.3 Hasil dua centroid akhir ... 29

Tabel 4.4 Hasil klasifikasi ... 30

Tabel 4.5 Hasil klasifikasi mahasiswa ... 31

Tabel 4.6 Tb_mahasiswa ... 33

Tabel 4.7 Tb_cmsd ... 33

Tabel 4.8 Tb_dokumentasi ... 33

(13)

commit to user

DAFTAR GAMBAR

Halaman

Gambar 2.1 Diagram alir algoritma k-means ... 11

Gambar 2.2 Ilustrasi algoritma k-means ... 11

Gambar 2.3 Partitional coeficient (PC) ... 14

Gambar 2.4 Classification entropy (CE) ... 14

Gambar 2.5 Partition index (SC) ... 15

Gambar 2.6 Separation index (S) ... 15

Gambar 2.7 Xie and beni index (XB) ... 15

Gambar 2.8 Dunn index (DI) ... 15

Gambar 3.1 Alur rancangan penelitian ... 20

(14)

commit to user

DAFTAR LAMPIRAN

Halaman

Lampiran A ... 38

Lampiran B ... 39

Lampiran C ... 40

Lampiran D ... 41

Lampiran E ... 42

(15)

commit to user

BAB 1

PENDAHULUAN

1.1Latar Belakang

Beasiswa adalah pemberian berupa bantuan keuangan yang diberikan

kepada perorangan yang bertujuan untuk digunakan demi keberlangsungan

pendidikan yang ditempuh (Putranto, 2011). Pemberian beasiswa merupakan

program kerja yang ada di setiap universitas atau perguruan tinggi. Program

beasiswa diadakan untuk meringankan beban mahasiswa dalam menempuh masa

studi kuliah khususnya dalam masalah biaya. Pemberian beasiswa kepada

mahasiswa dilakukan secara selektif sesuai dengan jenis beasiswa yang diadakan.

Universitas Sebelas Maret menyediakan beberapa program beasiswa, sebagai

contoh yaitu beasiswa Peningkatan Prestasi Akademik (PPA), Beasiswa Bantuan

Belajar Mahasiswa (BBM), beasiswa astra, dan lain sebagainya. Indeks Prestasi

Kumulatif (IPK), jumlah tanggungan keluarga, dan penghasilan total orang tua

(penghasilan ayah ditambah penghasilan ibu) menjadi kriteria dalam proses

rekruitmen beasiswa.

Proses seleksi penerimaan beasiswa secara manual yaitu dengan

menginputkan satu persatu data mahasiswa ke dalam file spreadsheet kemudian

melakukan sorting data mahasiswa seringkali menimbulkan beberapa

permasalahan, antara lain membutuhkan waktu yang lama dan ketelitian yang

tinggi. Selain itu, transparansi serta ketidakjelasan metodologi yang digunakan

dalam proses komputasi penerimaan beasiswa juga menjadi salah satu

permasalahan, sehingga dibutuhkan suatu sistem yang dapat membantu dalam

proses pengambilan keputusan siapa saja mahasiswa yang direkomendasikan

menerima beasiswa berdasarkan kriteria-kriteria yang telah ditentukan secara

cepat dan tepat sasaran.

Salah satu metode yang dapat digunakan untuk menyelesaikan

permasalahan tersebut adalah metode K-Means Clustering. K-Means Clustering

merupakan salah satu metode data clustering non hirarki yang berusaha

(16)

commit to user

Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang

memiliki karakteristik sama dikelompokkan ke dalam satu cluster yang sama

(Agusta, 2007).

Pada penelitian sebelumnya, Nanjaya (2005) melakukan pembahasan

mengenai penggunaan metode K-Means pada suatu clustering data non-numerik

(categorical) untuk studi kasus biro jodoh. Dari penelitian tersebut didapatkan

bahwa clustering dapat dilakukan pada atribut-atribut kategorikal yang

ditransformasikan terlebih dahulu ke dalam bentuk numerik.

Penelitian lainnya mengenai perbandingan performa antara algoritma

K-Means Clustering dengan algoritma Fuzzy C-Means Clustering oleh Santhanam

dan Velmurugan (2010). Dalam penelitian ini, kedua algoritma tersebut

diimplementasikan dan dianalisis kinerjanya berdasarkan pada kualitas hasil

clustering dan waktu eksekusi. Kedua algoritma menghasilkan hasil clustering

yang hampir sama, namun algoritma K-Means Clustering memiliki waktu

komputasi yang lebih unggul, dengan kata lain kinerja dari algoritma K-Means

lebih baik dibandingkan dengan Fuzzy C-Means.

Berdasarkan penelitian tersebut, sistem pendukung keputusan

penerimaan beasiswa yang akan diimplementasikan dibangun dengan

menggunakan metode K-Means Clustering. Dengan penerapan sistem pendukung

keputusan dengan metode K-Means Clustering ini diharapkan dapat membantu

dalam proses pengambilan keputusan siapa saja mahasiswa yang

direkomendasikan menerima beasiswa berdasarkan kriteria-kriteria yang telah

ditentukan secara cepat dan tepat sasaran.

1.2Rumusan Masalah

Berdasarkan latar belakang yang telah dijelaskan sebelumnya, rumusan

masalah yang akan diselesaikan adalah bagaimana mengelompokkan data

mahasiswa untuk mendukung keputusan penentuan penerima beasiswa dengan

(17)

commit to user

3

1.3Batasan Masalah

Batasan masalah dalam tugas akhir ini adalah:

1. Kriteria yang digunakan dalam clustering antara lain Indeks Prestasi

Kumulatif (IPK), jumlah tanggungan keluarga, dan penghasilan total orang

tua (penghasilan ayah ditambah dengan penghasilan ibu).

2. Sistem bersifat general (tidak mengacu pada satu jenis beasiswa) dan hanya

melakukan clustering data mahasiswa berdasarkan kriteria-kriteria yang

telah disebutkan pada poin pertama, sedangkan keputusan penerima

beasiswa tergantung pada salah satu kriteria yang lebih diprioritaskan pada

beasiswa tersebut, yaitu salah satu dari prioritas kriteria IPK dan prioritas

kriteria penghasilan total orang tua dibagi dengan jumlah tanggungan

keluarga.

3. Jumlah cluster yang akan digunakan pada kasus ini adalah tiga (3)

berdasarkan perhitungan validasi cluster optimal, yaitu mahasiswa yang

direkomendasikan menerima beasiswa, dipertimbangkan menerima

beasiswa, dan tidak menerima beasiswa.

4. Quota penerima beasiswa dan pendanaan tidak termasuk dalam

pengklasteran.

1.4Tujuan Penelitian

Tujuan penelitian yang ingin dicapai dalam tugas akhir ini adalah

mengelompokkan data mahasiswa untuk mendukung keputusan penetuan

penerima beasiswa dengan metode K-Means Clustering.

1.5Manfaat Penelitian

Manfaat penelitian dalam tugas akhir ini adalah pendukung keputusan

yang dihasilkan diharapkan mampu membantu untuk membuat keputusan dalam

(18)

commit to user

1.6Sistematika Penulisan

Agar mudah dipahami, laporan ini dibuat dalam suatu sistematika

penulisan yang dapat dijadikan acuan mengenai keterkaitan antar bab yang ada

dalam laporan, dengan uraian sebagai berikut :

BAB 1 : PENDAHULUAN

Bab Pendahuluan memuat tentang latar belakang masalah, perumusan

masalah, tujuan dan manfaat penelitian, metodologi penelitian dan sistematika

penyusunan laporan.

BAB 2 : LANDASAN TEORI

Bab Landasan Teori memuat penjelasan tentang dasar teori yang

digunakan untuk dasar pembahasan dari penelitian.

BAB 3 : METODE PENELITIAN

Bab Metodologi Penelitian berisi tentang metode atau langkah langkah

dalam pemecahan masalah.

BAB 4 : PEMBAHASAN

Bab Pembahasan memuat pembahasan permasalahan yang telah

dirumuskan dengan menggunakan landasan teori yang mendukung. Teori tersebut

harus mengacu pada pustaka yang digunakan. Pembahasan dilakukan pada

metode penyelesaian permasalahan.

BAB 5 : PENUTUP

Bab Penutup berisi kesimpulan dan saran. Kesimpulan berisi rumusan

jawaban terhadap pertanyaan (perumusan masalah) dan hasil pembahasan dari

penelitian yang telah dilakukan. Saran merupakan sesuatu yang belum ditempuh

(19)

commit to user

BAB 2

TINJAUAN PUSTAKA

2.1 Dasar Teori

2.1.1 Sistem Pendukung Keputusan (SPK)

Sistem Pendukung Keputusan (SPK) pertama kali didefinisikan oleh

Scott-Morton pada tahun 1970 sebagai sistem berbasis komputer yang interaktif, yang

membantu pengambil keputusan memanfaatkan data dan model untuk

menyelesaikan masalah tidak terstruktur. Sistem pendukung keputusan diharapkan

dapat mendukung para pengambil keputusan manajerial dalam situasi semi

terstruktur dan tidak terstruktur. Sistem pendukung keputusan dimaksudkan untuk

menjadi alat bantu bagi para pengambil keputusan untuk memperluas kapabilitas

mereka, namun tidak untuk menggantikan penilaian mereka (Turban et al, 2011).

Menurut Turban et al (2011), sistem pendukung keputusan terdiri dari

empat subsistem, yaitu:

1. Subsistem Manajemen Data

Subsistem manajemen data mencakup suatu database yang berisi data yang

relevan untuk situasi dan dikelola oleh perangkat lunak yang disebut Database

Management System (DBMS). Manajemen data dapat diinterkoneksikan dengan

data warehouse perusahaan, suatu repositori untuk data perusahaan yang relevan

untuk pengambilan keputusan. Biasanya data dimasukkan dan diakses melalui

database Web Server.

2. Subsistem Manajemen Model

Subsistem manajemen model merupakan suatu paket perangkat lunak yang

mencakup model keuangan, statistik, ilmu manajemen, atau model kuantitatif

lainnya yang memberikan kemampuan analitik dan manajemen perangkat lunak

yang sesuai. Perangkat lunak ini sering disebut Model Base Management System

(MBMS).

3. Subsistem Antarmuka Pengguna

Pengguna berkomunikasi dan memerintahkan SPK melalui subsistem

(20)

commit to user

menegaskan bahwa beberapa kontribusi yang unik dari SPK berasal dari interaksi

yang intensif antara komputer dan pengambil keputusan. Web Browser

menyediakan struktur antarmuka Graphical User Interface (GUI) yang familier

dan konsisten. Istilah antarmuka pengguna mencakup semua aspek komunikasi

antara pengguna dengan sistem.

4. Subsistem Manajemen Berbasis Pengetahuan

Subsistem manajemen berbasis pengetahuan dapat mendukung subsistem lain

atau berlaku sebagai komponen yang berdiri sendiri. Subsistem manajemen

berbasis pengetahuan dapat saling berhubungan dengan repositori pengetahuan

organisasi yang disebut organization knowledge base.

Proses pengambilan keputusan dilakukan dengan menggunakan beberapa

tahapan. Menurut Turban et al (2011), tahapan dalam pengambilan keputusan

antara lain:

1. Intelligence

Tahap ini merupakan proses penelusuran dan pendeteksian dari lingkup

problematika serta proses pengenalan masalah. Data masukkan diperoleh,

diproses, dan diuji dalam rangka mengindentifikasikan masalah.

2. Design

Tahap ini merupakan proses menemukan, mengembangkan, dan menganalisis

alternatif tindakan yang bisa dilakukan. Tahap ini meliputi proses untuk mengerti

masalah, menurunkan solusi, menguji kelayakan solusi.

3. Choice

Tahap ini merupakan proses pemilihan di antara berbagai alternatif tindakan

yang mungkin dijalankan. Tahap ini dimulai dengan mencari solusi dengan

menggunakan model, melakukan analisis sensitivitas, menyeleksi alternatif yang

terbaik, melakukan aksi atau rencana untuk mengimplementasikan, dan

merancang sistem pengendalian.

4. Implementation

Fase implementasi meliputi pembuatan suatu solusi yang direkomendasikan.

(21)

sensitivitas-commit to user

7

analisis masalah. Fase ini mengadaptasikan materi yang dipilih untuk diterapkan

pada situasi pemilihan (penyelesaian masalah).

2.1.2 Clustering

Clustering adalah mengelompokkan item data ke dalam sejumlah kecil

grup sedemikian sehingga masing-masing grup mempunyai sesuatu persamaan

yang esensial (Andayani, 2007).

Ada beberapa pendekatan yang digunakan dalam mengembangkan metode

clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi

dan clustering dengan pendekatan hirarki. Clustering dengan pendekatan partisi

atau sering disebut dengan partition-based clustering mengelompokkan data

dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada.

Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical

clustering mengelompokkan data dengan membuat suatu hirarki berupa kurva

yang menggambarkan pengelompokan cluster dimana data yang mirip akan

ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang

berjauhan.

Menurut Andayani (2007), Algoritma clustering dibagi ke dalam

beberapa kelompok besar, antara lain:

1. Partitioning algorithms: algoritma dalam kelompok ini membentuk

bermacam partisi dan kemudian mengevaluasinya dengan berdasarkan

beberapa kriteria.

2. Hierarchy algorithms: pembentukan dekomposisi hirarki dari sekumpulan

data menggunakan beberapa kriteria.

3. Density based: pembentukan cluster berdasarkan pada koneksi dan fungsi

densitas.

4. Grid based: pembentukan cluster berdasarkan pada struktur multiple level

granularity.

5. Model based: sebuah model dianggap sebagai hipotesa untuk

masing masing cluster dan model yang baik dipilih diantara model

(22)

commit to user

2.1.3 K-Means Clustering

Metode K-Means pertama kali diperkenalkan oleh MacQueen JB pada

tahun 1976. Metode ini adalah salah satu metode non hierarchi yang umum

digunakan. Metode ini termasuk dalam teknik penyekatan (partition) yang

membagi atau memisahkan objek ke k daerah bagian yang terpisah. Pada

K-Means, setiap objek harus masuk dalam kelompok tertentu, tetapi dalam satu

tahapan proses tertentu, objek yang sudah masuk dalam satu kelompok, pada satu

tahapan berikutnya objek akan berpindah ke kelompok lain.

Hasil cluster dengan dengan metode K-Means sangat bergantung pada

nilai pusat kelompok awal yang diberikan. Pemberian nilai awal yang berbeda

bisa menghasilkan kelompok yang berbeda. Ada beberapa cara memberi nilai

awal misalnya dengan mengambil sampel awal dari objek, lalu mencari nilai

pusatnya, memberi nilai awal secara random, menentukan nilai awalnya atau

menggunakan hasil dari kelompok hierarki dengan jumlah kelompok yang sesuai

(Santosa 2007).

K-Means adalah suatu metode penganalisaan data atau metode Data

Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan

merupakan salah satu metode yang melakukan pengelompokan data dengan

sistem partisi. Metode K-Means berusaha mengelompokkan data yang ada ke

dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai

karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang

berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain,

metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam

suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya

(Agusta, 2011).

Menurut Nuningsih (2010), algoritma K-Means memerlukan 3 komponen,

yaitu:

1. Jumlah Cluster K

K-Means merupakan bagian dari metode non-hirarki sehingga dalam

metode ini jumlah k harus ditentukan terlebih dahulu. Jumlah cluster k dapat

(23)

commit to user

9

tidak terdapat aturan khusus dalam menentukan jumlah cluster k, terkadang

jumlah cluster yang diiinginkan tergantung pada subyektif seseorang.

2. Cluster Awal

Cluster awal yang dipilih berkaitan dengan penentuan pusat cluster awal

(centroid awal). Dalam hal ini, terdapat beberapa pendapat dalam memilih cluster

awal untuk metode K-Means sebagai berikut:

a. Berdasarkan Hartigan (1975), pemilihan cluster awal dapat ditentukan

berdasarkan interval dari jumlah setiap observasi

b. Berdasarkan Rencher (2002), pemilihan cluster awal dapat ditentukan

melalui pendekatan salah satu metode hirarki.

c. Berdasarkan Teknomo (2007), pemilihan cluster awal dapat secara

acak dari semua observasi.

Oleh karena adanya pemilihan cluster awal yang berbeda ini maka

kemungkinan besar solusi cluster yang dihasilkan akan berbeda pula.

3. Ukuran Jarak

Metode k-means dimulai dengan pembentukan prototipe cluster di awal

kemudian secara iteratif prototipe cluster ini diperbaiki hingga konvergen (tidak

terjadi perubahan yang signifikan pada prototipe cluster). Perubahan ini diukur

dengan ukuran jarak Euclidean. Ukuran jarak ini digunakan untuk menempatkan

observasi ke dalam cluster berdasarkan centroid terdekat.

Menurut Sarwono (2011), Algoritma K-Means adalah sebagai berikut:

1. Menentukan k sebagai jumlah cluster yang ingin dibentuk.

2. Membangkitkan nilai random untuk pusat cluster awal (centroid)

sebanyak k

3. Menghitung jarak setiap data input terhadap masing-masing centroid

menggunakan rumus jarak Eucledian (Eucledian Distance) hingga

ditemukan jarak yang paling dekat dari setiap data dengan centroid.

Berikut adalah persamaan Eucledian Distance:

(24)

commit to user

dimana:

xi : data kriteria

µj : centroid pada cluster ke-j

4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid

(jarak terkecil).

5. Memperbaharui nilai centroid. Nilai centroid baru diperoleh dari rata-rata

cluster yang bersangkutan dengan menggunakan rumus:

... (2)

dimana:

µj (t+1) : centroid baru pada iterasi ke (t+1),

Nsj : banyak data pada cluster Sj

6. Melakukan perulangan dari langkah 2 hingga 5 hingga anggota tiap cluster

tidak ada yang berubah.

7. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster (µj) pada iterasi

terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi

data. Ilustrasi dari perubahan cluster/kelompok data ditunjukkan pada

(25)

commit to user

11

Gambar 2.1 Diagram alir algoritma k-means (Andayani, 2007)

(26)

commit to user

Berikut ini adalah ilustrasi penggunaan metode K means untuk

menentukan cluster dari 4 buah objek dengan 2 atribut, seperti ditunjukkan dalam

Tabel 2.1. Clustering akan dilakukan untuk membentuk 2 cluster jenis obat

berdasarkan atributnya (Andayani, 2007). Langkah langkah metode K means

adalah sebagai berikut :

a) Pengesetan nilai awal titik tengah. Misalkan obat A dan Obat B masing-masing

menjadi titik tengah (centroid) dari cluster yang akan dibentuk. Tentukan

koordinat kedua centroid tersebut, yaitu c1=(1,1) dan c2=(2,1).

Tabel 2.1 Daftar objek yang akan diolah dalam clustering

Objek Atribut1(x): indeks berat Atribut2(y): pH

Obat A 1 1

menunjukkan objek sedangkan baris pertama menunjukkan jarak ke centroid

pertama, baris kedua menunjukkan jarak ke centroid kedua.

Iterasi-0

1) Matriks jarak setelah iterasi ke-0 adalah sebagai berikut:

D =

A B C D

2) Clustering objek: Memasukkan setiap objek ke dalam cluster (grup)

berdasarkan jarak minimumnya. Jadi obat A dimasukkan ke grup 1, dan

obat B, C, dan D dimasukkan ke grup 2. Keanggotaan objek ke dalam grup

dinyatakan dengan matrik, elemen dari matriks bernilai 1 jika sebuah

(27)

commit to user

13

G =

A B C D

Iterasi-1

1) Menentukan centroid: Berdasarkan anggota masing-masing grup,

selanjutnya ditentukan centroid baru. Grup 1 hanya berisi 1 objek,

sehingga centroidnya tetap c1=(1,1). Grup 2 mempunyai 3 anggota,

sehingga centroidnya ditentukan berdasarkan rata-rata koordinat ketiga

anggota tersebut: c2= =

2) Menghitung jarak objek ke centroid: selanjutnya, jarak antara centroid

baru dengan seluruh objek dalam grup dihitung kembali sehingga

diperoleh matriks jarak sebagai berikut:

D =

A B C D

3) Clustering objek: menentukan keanggotaan grup berdasarkan jaraknya.

Berdasarkan matriks jarak baru, maka obat B harus dipindah ke grup 1.

G1 =

A B C D

Iterasi-2

1) Menetukan centroid: menentukan centroid baru berdasarkan keanggotaan

grup yang baru. Grup 1 dan 2 masing-masing mempunyai 2 anggota,

sehingga centroidnya menjadi

c1= = dan c2= =

2) Menghitung jarak objek ke centroid: diperoleh matriks jarak sebagai

berikut:

D =

(28)

commit to user

3) Clustering objek: mengelompokkan tiap-tiap objek berdasarkan jarak

minimumnya, diperoleh:

G2 =

A B C D

Hasil pengelompokkan pada iterasi terakhir dibandingkan dengan hasil

sebelumnya, diperoleh G2=G1. Hasil ini menunjukkan bahwa tidak ada lagi

objek yang berpindah grup, dan metode telah stabil. Hasil akhir clustering

ditunjukkan dalam Tabel 2.2.

Tabel 2.2 Hasil clustering

Objek Atribut1(x): indeks berat Atribut2(y): pH Grup Hasil

Obat A 1 1 1

Obat B 2 1 1

Obat C 4 3 2

Obat D 5 4 2

2.1.3. 1 Jumlah Cluster Optimal

Jumlah cluster optimal ditentukan dengan validitas indeks cluster melalui

perbandingan nilai indeks pada berbagai validity measure. Perhitungan nilai

indeks dengan berbagai validity measure dilakukan dengan parameter yang telah

-3

Gambar 2.3 Partition coeficient (PC)

(29)

commit to user

15

Gambar 2.5 Partition index (SC)

Gambar 2.6 Separation index (S)

Gambar 2.7 Xie and beni index (XB)

Gambar 2.8 Dunn index (DI)

Hasil perhitungan validitas indeks menggunakan PC menunjukkan bahwa

indeks semakin menurun seiring pertambahan jumlah cluster. Indeks mengalami

penurunan signifikan pada c (jumlah cluster opimal) = 3 (Gambar 2.3). Hasil

perhitungan validitas indeks menggunakan CE menunjukkan bahwa indeks

semakin meningkat seiring pertambahan jumlah cluster dan mengalami perubahan

signifikan pada c = 3 (Gambar 2.4). Hasil perhitungan validitas indeks

menggunakan SC dan S menunjukkan bahwa indeks relatif semakin menurun

seiring pertambahan jumlah cluster (Gambar 2.5 dan Gambar 2.6). Sedangkan

(30)

commit to user

mencapai nilai minimum pada c = 3 (Gambar 2.7). Sedangkan nilai

mengalami perubahan signifikan dan mencapai nilai minimum pada lembah

pertama pada c = 3 (Gambar 2.8). Berdasarkan hasil perbandingan index dengan

berbagai validity measure yang telah dilakukan, jumlah cluster optimal berada

pada c = 3.

2.1.4 Beasiswa

Beasiswa adalah pemberian berupa bantuan keuangan yang diberikan

kepada perorangan yang bertujuan untuk digunakan demi keberlangsungan

pendidikan yang ditempuh (Putranto, 2011).

Pemberian beasiswa merupakan program kerja yang ada di setiap

universitas atau perguruan tinggi. Program beasiswa diadakan untuk meringankan

beban mahasiswa dalam menempuh masa studi kuliah khususnya dalam masalah

biaya. Pemberian beasiswa kepada mahasiswa dilakukan secara selektif sesuai

dengan jenis beasiswa yang diadakan.

Adapun jenis beasiswa yang diselenggarakan antara lain Beasiswa

Peningkatan Prestasi Akademik (PPA), Beasiswa Bantuan Belajar Mahasiswa

(BBM), Beasiswa yang diberikan pihak swasta, seperti beasiswa djarum, astra,

dan sebagainya.

Tujuan diselenggarakan beasiswa antara lain (Dikti, 2011):

1. Meningkatkan akses dan pemerataan kesempatan belajar di perguruan

tinggi bagi rakyat Indonesia.

2. Mengurangi jumlah mahasiswa yang putus kuliah, karena tidak mampu

membiayai pendidikan.

3. Meningkatkan prestasi dan motivasi mahasiswa, baik pada bidang

akademik/kurikuler, ko-kurikuler, maupun ekstrakurikuler.

Sasaran mahasiswa penerima beasiswa antara lain (Dikti, 2011):

1. Mahasiswa berprestasi (baik pada bidang akademik/kurikuler, ko-kurikuler

maupun ekstra kurikuler).

2. Mahasiswa dengan prestasi minimal yang orang tua/wali-nya tidak mampu

(31)

commit to user

17

Adapun urutan prioritas kriteria yang digunakan untuk penetapan

mahasiswa penerima beasiswa adalah tidak sama untuk setiap jenis beasiswa.

Sebagai contoh urutan prioritas kriteria penerima beasiswa PPA dan BBM adalah

berbeda .

Penentukan mahasiswa penerima beasiswa PPA sesuai dengan urutan

prioritas sebagai berikut (Dikti, 2011):

1. Mahasiswa yang mempunyai IPK paling tinggi.

2. Mahasiswa yang mempunyai SKS paling banyak (jumlah semester paling

sedikit)

3. Mahasiswa yang memiliki prestasi di kegiatan ko/ekstra kurikuler

(olahraga, teknologi, seni/budaya tingkat internasional/dunia,

regional/Asia/Asean dan nasional).

4. Mahasiswa yang (orang tuanya) paling tidak mampu.

Sedangkan penentukan mahasiswa penerima beasiswa BBM sesuai dengan

urutan prioritas sebagai berikut (Dikti, 2011):

1. Mahasiswa yang (orang tuanya) paling tidak mampu.

2. Mahasiswa yang memiliki prestasi di kegiatan ko/ekstra kurikuler

(olahraga, teknologi, seni/budaya tingkat internasional/dunia,

regional/Asia/Asean dan nasional).

3. Mahasiswa yang mempunyai IPK paling tinggi.

4. Mahasiswa yang mempunyai SKS paling banyak (jumlah semester paling

sedikit).

2.2 Penelitian Terkait

1. Aplikasi K-Means untuk Pengelompokkan Mahasiswa Berdasarkan

Nilai Body Mass Index (BMI) dan Ukuran Kerangka (Kusumadewi,

2008)

Penelitian tersebut membahas tentang penerapan metode K-Means

Clustering untuk mengelompokkan mahasiswa berdasarkan kriteria Body

Mass Index (BMI) dan ukuran kerangka. Kriteria tersebut didasarkan pada

(32)

commit to user

terlebih dahulu. Data kondisi fisik yang digunakan adalah tinggi badan,

berat badan dan lingkar lengan bawah. Diasumsikan data yang diambil

adalah data mahasiswa putra. Setelah data tersebut diperoleh kemudian

dilakukan perhitungan untuk mencari status gizi dan ukuran rangka dari

masing-masing data yang ada.

Setelah mendapatkan status gizi dan nilai rangka dari masing-masing

data maka langkah selanjutnya adalah melakukan proses klasifikasi data

menggunakan metode klasifikasi K-Means.

Kesimpulan dari hasil penelitian adalah bahwa algoritma klasifikasi

K-Means dapat digunakan untuk mengelompokkan mahasiswa berdasarkan

status gizi dan ukuran kerangka. Diperoleh 3 kelompok berdasarkan BMI

dan ukuran kerangka, yaitu BMI normal dan kerangka besar, BMI obesitas

sedang dan kerangka sedang, BMI obesitas berat dan kerangka kecil.

2. Clustering Data Non-numerik dengan Pendekatan Algoritma

K-Means dan Hamming Distance Studi Kasus Biro Jodoh (Nanjaya,

2005)

Penelitian tersebut membahas tentang penerapan algoritma k-means

pada suatu clustering data non-numerik (categorical), dengan dibantu

Hamming Distance sebagai alat untuk mengukur jarak dari masing-masing

atribut kategorikalnya. Metodologi yang digunakan dalam penelitian ini

meliputi beberapa tahapan. Modifikasi yang dilakukan adalah proses

modifikasi data dari non-numerik menjadi numerik. Dari penelitian tersebut

didapatkan bahwa clustering dapat dilakukan pada atribut-atribut

kategorikal yang ditransformasikan terlebih dahulu ke dalam bentuk

numerik. Selain itu, kesamaan (similarity) dan karakterisktik dari

masing-masing keanggotaan bisa diketahui.

3. Performance Evaluation of K-Means and Fuzzy C-Means Clustering

Algorithms for Statistical Distributions of Input Data Points(Santhanam,

2010)

Penelitian tersebut membahas tentang perbandingan performa antara

(33)

commit to user

19

Clustering. Kedua algoritma tersebut diimplementasikan dan dianalisis

kinerjanya berdasarkan pada kualitas hasil clustering. Perilaku kedua

algoritma tergantung pada jumlah titik data serta pada jumlah cluster. Input

data poin dihasilkan oleh dua cara, yaitu dengan menggunakan distribusi

normal dan lain dengan menerapkan distribusi seragam dengan Box-Muller

formula. Kinerja algoritma dianalisis selama eksekusi yang berbeda dari

program pada titik input data. Waktu eksekusi untuk masing-masing

algoritma juga dianalisis dan hasilnya dibandingkan. Hasil penelitian

menunjukkan bahwa kinerja dari algoritma K-Means lebih baik

dibandingkan dengan Fuzzy C-Means untuk distribusi normal dan seragam.

FCM menghasilkan hasil yang dekat dengan K-Means clustering, namun

membutuhkan waktu komputasi lebih lama dari K-means. Jadi untuk data

poin yang dihasilkan dengan menggunakan distribusi statistik, algoritma

K-Means tampaknya lebih unggul daripada Fuzzy C-K-Means.

2.3 Rencana Penelitian

Proses seleksi penerimaan beasiswa secara manual yaitu dengan

menginputkan satu persatu data mahasiswa ke dalam file excel kemudian

melakukan sorting data mahasiswa menimbulkan beberapa permasalahan, antara

lain membutuhkan waktu yang lama dan ketelitian yang tinggi.

Salah satu cara untuk membantu dalam proses seleksi penerimaan

beasiswa adalah dengan cara mengelompokkan mahasiswa berdasarkan

kriteria-kriteria yang telah ditentukan, antara lain IPK, jumlah tanggungan keluarga, dan

penghasilan total orang tua. Pengelompokan dilakukan dengan menerapkan

algoritma K-Means Clustering. Pengelompokan ini akan menunjukkan siapa saja

yang akan masuk ke dalam masing-masing kelompok.

Jumlah cluster yang digunakan pada kasus ini adalah tiga (3) berdasarkan

perhitungan validasi cluster optimal, yaitu mahasiswa yang direkomendasikan

menerima beasiswa, dipertimbangkan menerima beasiswa, dan tidak menerima

(34)

commit to user

BAB 3

METODOLOGI PENELITIAN

Penelitian ini akan dilaksanakan berdasarkan rancangan penelitian seperti

yang ditunjukkan pada Gambar 3.1

Gambar 3.1 Alur rancangan penelitian

3.1 Pengumpulan Data

3.1.1 Tempat dan Waktu Penelitian

Penelitian ini dilakukan di Fakultas Matematika dan Ilmu Pengetahuan

Alam Universitas Sebelas Maret Surakarta (FMIPA UNS). Data yang digunakan

adalah data mahasiswa Informatika FMIPA UNS, pendaftar beasiswa PPA dan

BBM tahun 2012.

3.1.2 Metode Pengumpulan Data

Pengumpulan data digunakan untuk mengumpulkan data-data dan

informasi-informasi yang diperlukan dalam pembuatan sistem pendukung

keputusan. Pengumpulan data pada penelitian ini menggunakan metode

pengumpulan data study literature dan telaah dokumen. Pengumpulan Data

Pemodelan Data

Proses Clustering

Klasifikasi Hasil

Clustering

Implementasi Sistem

(35)

commit to user

21

a. Study Literature

Study literature dilakukan dengan cara mencari bahan materi yang

berhubungan dengan permasalahan, perancangan, metode K-Means

Clustering, sistem pendukung keputusan dan beasiswa, guna

mempermudah proses implementasi sistem. Pencarian materi dilakukan

melalui pencarian di buku panduan dan internet.

b. Telaah Dokumen

Telaah dokumen adalah pengumpulan data dengan cara

mengumpulkan dan mempelajari dokumen-dokumen yang didapatkan

dari pihak Jurusan Informatika FMIPA UNS. Dari metode pengumpulan

data ini diperoleh 48 data mahasiswa.

3.2 Pemodelan Data

Proses clustering menggunakan data kriteria IPK dan PO (penghasilan

total orang tua dibagi jumlah tanggungan keluarga). Oleh karena data IPK dan

data PO memiliki perbedaan nilai yang cukup jauh, maka kriteria PO di

kategorikan. Proses pengategorian adalah sebagai berikut:

1. Hitung mean (nilai rata-rata) dari seluruh data PO dengan rumus:

... (3)

Dengan:

: mean

: hasil penjumlahan nilai PO

n : jumlah data mahasiswa

2. Hitung standart deviasi dari seluruh data PO dengan rumus:

S= ... (4)

Dengan:

S : standart deviasi

x : nilai individu data PO mahasiswa

: nilai rata-rata/mean

(36)

commit to user

3. Membuat kategori PO:

Tabel 3.1 Pengategorian PO

Kategori Kualifikasi Kodifikasi

Kategori 4 S 4

Kategori 3 S < PO < 3

Kategori 2 2

Kategori 1 PO 1

3.2 Proses Clustering

Tahap ini akan diterapkan metode K-Means untuk mengelompokkan

data. Hasil pengelompokkan ini kemudian akan digunakan untuk pertimbangan

menentukan mahasiswa yang berhak menerima beasiswa. Adapun algorima

K-Means Clustering pada penerimaan beasiswa adalah sebagai berikut:

1. Jumlah cluster yang dibentuk sebagai nilai k adalah tiga (k = 3).

2. Membangkitkan nilai random untuk pusat cluster awal (centroid)

sebanyak 3 dari data yang telah diinputkan. Centroid kriteria 1 adalah IPK

dan centroid kriteria 2 adalah PO.

3. Menghitung jarak setiap data mahasiswa yang telah diinputkan terhadap

masing-masing centroid menggunakan rumus jarak Eucledian Distance

hingga ditemukan jarak paling dekat dari setiap data dengan centroid.

Berikut adalah persamaan Eucledian Distance:

d(xi , j) = ... (5)

dimana:

xi : data mahasiswa

µj : centroid pada cluster ke-j

xia : IPK mahasiswa

xib : penghasilan total orang tua dibagi jumlah tanggungan keluarga

µja : nilai kriteria 1 dari centroidcluster ke-j adalah nilai random data IPK

(37)

commit to user

23

4. Mengklasifikasikan setiap data mahasiswa berdasarkan kedekatannya

dengan centroid (jarak terkecil).

5. Memperbaharui nilai centroid. Nilai centroid baru diperoleh dari rata-rata

cluster yang bersangkutan dengan menggunakan rumus:

... (6)

dimana:

µj (t+1) : centroid baru pada iterasi ke (t+1),

Nsj : banyak data mahasiswa pada cluster Sj

6. Melakukan perulangan dari langkah 2 hingga 5 hingga anggota tiap cluster

tidak ada yang berubah.

7. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster (µj) pada iterasi

terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi

data mahasiswa.

3.4 Klasifikasi Hasil Clustering

Setelah proses clustering, tahap selanjutnya adalah proses klasifikasi. Di

sini akan ditentukan cluster mana yang lebih berhak untuk menerima beasiswa.

3.5 Implementasi Sistem

Tahap implementasi ini dimulai dengan analisis dan perancangan sistem

yang akan dibuat. Selanjutnya tahap implementasi sistem dengan tujuan

menghasilkan prototype program yang sesuai dengan hasil perancangan yang

telah ditentukan sebelumnya, yaitu penulisan kode program (coding)

menggunakan lingkungan bahasa pemrograman PHP. Data yang digunakan akan

disimpan dalam database. Debugging dilakukan untuk menguji aplikasi serta

(38)

commit to user

3.6 Pengujian Clustering

Pengujian dilakukan untuk mengetahui keakuratan yang dihasilkan dalam

penerapan metode K-Means Clustering sebagai model untuk menentukan

penerima beasiswa. Pengujian dilakukan terhadap presisi hasil cluster dengan data

testing yang digunakan.

Presisi adalah ukuran yang menunjukkan derajat kesesuaian antara hasil

uji individual yang diukur melalui penyebaran hasil individual dari rata-rata

secara berulang pada sampel-sampel yang diambil. Presisi dapat dihitung dengan:

... (7)

Dengan

ei : hasil data cluster yang berbeda

n : jumlah percobaan/testing

Percobaan/testing dilakukan sebanyak 40 kali. Nilai Error Presisi

tergantung pada ketetapan data pada cluster untuk setiap percobaan. Kemudian

(39)

commit to user

BAB 4

PEMBAHASAN

4.1 Pemodelan Data

Sejumlah 48 data mahasiswa kemudian dikategorikan dengan terlebih

dahulu menghitung mean dan standart deviasi PO (penghasilan total orang tua

dibagi jumlah tanggungan keluarga). Berikut adalah hasil perhitungannya:

Mean PO : 672870,141

Standart Deviasi PO : 484555,170

Pengategorian data PO berdasarkan Tabel 3.1 adalah sebagai berikut:

Kategori 4 : PO 188314,971

Kategori 3 : 188314,971 < PO < 672870,141

Kategori 2 : 672870,141 PO < 1157425,311

Kategori 1 : PO 1157425,311

4.2 Proses Clustering

Proses clustering dengan menggunakan metode K-Means akan dilakukan

terhadap 48 sampel data mahasiswa. Hasil clustering akan diperoleh kelompok

data mahasiswa yang akan digunakan untuk proses klasifikasi penentuan cluster

(kelompok data) yang direkomendasikan menerima beasiswa. Adapun

langkah-langkah proses clustering adalah sebagai berikut:

1. Mula-mula sistem akan mengambil pusat cluster (centroid) awal. Pusat

cluster (centroid) awal yang digunakan untuk memulai proses clustering

dengan metode K-Means diperoleh dengan pembangkitan secara random dari

data yang telah diinputkan. Karena pusat cluster (centroid) awal dibangkitkan

secara random, maka hasil centroid awal berubah setiap kali melakukan

percobaan proses clustering. Hal ini akan menyebabkan setiap dilakukan

proses clustering anggota cluster yang dihasilkan juga akan berbeda. Selain

itu, ada kemungkinan centroid awal yang dihasilkan pusat jauh berbeda

dengan cluster yang terbaik, sehingga kemungkinan akan terjadi proses iterasi

(40)

commit to user

contoh satu percobaan. Dari hasil pengambilan secara random, diperoleh

centroid untuk masing-masing cluster. Centroid kriteria 1 adalah IPK dan

centroid kriteria 2 adalah PO:

C1 = (3.45, 1)

C2 = (3.39, 2)

C3 = (3.88, 3)

2. Kemudian akan dihitung jarak dari setiap data yang ada terhadap setiap pusat

cluster awal. Jarak inilah yang akan menjadi penentu termasuk ke dalam

cluster mana data tersebut. Misalkan untuk menghitung jarak data mahasiswa

pertama (IPK 2,87; PO kategori 3) dan dengan pusat cluster pertama adalah :

d11 = = 2,084001

Jarak data mahasiswa pertama dengan pusat cluster kedua:

d12 = = 1,169767

Jarak data mahasiswa pertama dengan pusat cluster ketiga:

d13 = = 0,599219

Hasil perhitungan jarak awal pada iterasi-1 untuk contoh 25 data dapat dilihat

(41)

commit to user

27

Tabel 4.1 Hasil perhitungan jarak awal pada iterasi-1

NIM Centroid 1 Centroid 2 Centroid 3

M0508041 2,084001 1,169767 0,599219

M0509004 2,034984 1,075894 0,436765

M0509007 2,021744 1,049019 0,387103

M0509010 3,023435 2,039007 0,740207

M0509019 2,006854 1,01732 0,332661

M0509023 2,002792 1,008023 0,322456

M0509025 1,022702 0,193077 1,353801

M0509033 3,010879 2,019081 0,700953

M0509040 0,144286 1,007545 2,332238

M0509044 3,000213 2,00081 0,680015

M0509048 2,010552 1,025424 0,345138

M0509051 2,044509 1,078179 0,598014

M0509069 2,00758 1,011648 0,409851

M0509073 1,000638 0,056923 1,32217

M0509081 2,000737 1,000547 0,348352

M0510005 2,004599 1,012238 0,326221

M0510011 2,001379 1,001408 0,356539

M0510013 3,001224 2,002856 0,678595

M0510014 1,002157 0,086923 1,321506

M0510016 1,000016 0,026923 1,323515

M0510017 3,009134 2,011318 0,74782

M0510023 0,065714 1,003771 2,321473

M0510024 1,000638 0,056923 1,32217

M0510027 3,011744 2,020476 0,703526

M0510030 1,009167 0,156923 1,322603

3. Berdasarkan hasil perhitungan jarak pada Tabel 4.2, setiap data akan

menjadi anggota suatu cluster yang memiliki jarak terdekat (hasil nilai

terkecil) dari pusat clusternya. Misalkan untuk data mahasiswa pertama

diperoleh hasil jarak terdekat dengan pusat cluster ketiga, maka data

mahasiswa tersebut akan masuk menjadi anggota cluster ketiga. Perolehan

hasil cluster untuk contoh beberapa data dapat dilihat pada Tabel 4.2.

(42)

commit to user

Tabel 4.2. Hasil cluster iterasi-1

NIM Cluster 1 Cluster 2 Cluster 3

contoh: data mahasiswa M0508041 masuk pada cluster 3.

4. Hitung pusat cluster baru. Perhitugan pusat cluster baru ini dilakukan

dengan menghitung nilai rata-rata masing-masing kriteria dari seluruh

anggota yang menjadi anggota masing-masing cluster (dapat dilihat pada

Tabel 4.4). Misalkan untuk cluster pertama, ada 7 data. Sehingga pusat

cluster baru:

C11 =

C12 =

Untuk cluster kedua ada 13 data, sehingga pusat cluster baru:

C21 =

(43)

commit to user

29

Untuk cluster ketiga ada 28 data, sehingga pusat cluster baru:

C31 =

C32 = 3,321

5. Proses 2 sampai 4 akan terus berulang hingga posisi data sudah tidak

mengalami perubahan dan nilai pusat cluster sama. Dalam percobaan kali

ini, proses berhenti pada iterasi ke-2. Perbandingan antara centroid di dua

iterasi terakhir dapat dilihat pada Tabel 4.3. Pusat cluster lain dapat dilihat

di Lampiran C.

Tabel 4.3. Hasil dua centroid akhir

Keterangan:

Centroid Iterasi 1 Iterasi 2

c11 3,456 3,456

c12 1 1

Cluster 2

Centroid Iterasi 1 Iterasi 2

c21 3,477 3,477

c22 2 2

Cluster 3

Centroid Iterasi 1 Iterasi 2

c31 3,376 3,376

(44)

commit to user

4.3 Klasifikasi Hasil Clustering

Proses klasifikasi memerlukan adanya suatu aturan untuk menentukan

kelompok (cluster) mana yang berhak untuk menerima beasiswa. Dalam

penelitian ini, sistem akan mengelompokkan mahasiswa menjadi tiga (3) cluster

yaitu:

1. Cluster yang direkomendasikan menerima beasiswa

2. Cluster yang dipertimbangkan menerima beasiswa

3. Cluster yang tidak menerima beasiswa

Kemudian setiap cluster dibagi berdasarkan kriteria mana yang lebih

diprioritaskan (berdasarkan IPK atau PO(penghasilan orang tua dibagi jumlah

tanggungan keluarga)).

Iterasi pada percobaan ini berhenti pada iterasi ke-2. Hasil akhir clustering

yang diperoleh adalah:

1) Cluster pertama memiliki pusat cluster (3,456; 1)

2) Cluster kedua memiliki pusat cluster (3,477; 2)

3) Cluster ketiga memiliki pusat cluster (3,376; 3,321)

Hasil klasifikasi clustering dapat dilihat pada Tabel 4.4.

Tabel 4.4 Hasil klasifikasi

Hasil klasifikasi mahasiswa berdasarkan Tabel 4.6 untuk 25 data dapat

dilihat pada Tabel 4.5. Data selengkapnya dapat dilihat pada Lampiran D. Prioritas IPK

Menerima Dipertimbangkan Tidak Berhak

Cluster 2 Cluster 1 Cluster 3

3,477 3,456 3,376

Prioritas PO

Menerima Dipertimbangkan Tidak Berhak

Cluster 3 Cluster 2 Cluster 1

(45)

commit to user

31

Tabel 4.5 Hasil klasifikasi mahasiswa

NIM IPK PO Cluster Prioritas IPK Prioritas PO

Sistem penentuan penerima beasiswa ini akan mengelompokkan data

dengan kecenderungan cluster yang sama ke dalam satu cluster. Cluster center

yang dihasilkan oleh proses clustering digunakan sebagai variabel penentu

klasifikasi. Sistem ini tidak memberi keleluasaan bagi pengguna untuk

menentukan jumlah cluster dan penambahan kriteria yang digunakan dalam

proses clustering. Dalam kasus ini, jumlah cluster yang digunakan adalah tiga (3),

yaitu cluster yang direkomendasikan menerima beaiswa, dipertimbangkan

(46)

commit to user

didasarkan pada perhitungan validasi cluster optimal. Sedangkan kriteria pokok

yang digunakan dalam proses clustering adalah dua (2) kriteria yaitu IPK dan PO.

Penentuan cluster mana yang direkomendasikan menerima beasiswa didasarkan

pada kriteria mana yang lebih diprioritaskan, dan keputusan mahasiswa penerima

beasiswa sepenuhnya berada ditangan pengambil keputusan. Implementasi sistem

menggunakan metode metode K-Means Clustering menghasilkan prototype

sistem yang dapat dilihat pada Lampiran E.

4.4.1 Gambaran Umum Sistem

Sistem penentuan penerima beasiswa merupakan sistem berbasis web yang

diharapkan dapat membantu mendukung keputusan untuk menetukan siapa saja

mahasiswa yang berhak untuk menerima beasiswa. Dalam sistem ini data

mahasiswa akan diolah menjadi beberapa kelompok data dengan metode K-means

Clustering. Dari kelompok-kelompok tersebut kemudian diklasifikan menjadi

kelompok yang direkomendasikan menerima, dipertimbangkan menerima, dan

tidak menerima beasiswa. Selama ini, penentuan penerima beasiswa dilakukan

dengan cara manual dan seringkali menimbulkan beberapa permasalahan, antara

lain membutuhkan waktu yang lama dan ketelitian yang tinggi karena data

mahasiswa akan dibandingkan dengan kriteria beasiswa satu persatu.

Sistem penentuan penerima beasiswa ini dibangun dengan basis data

MySql. Sebelum diolah dengan metode K-means Clustering, data input disimpan

ke sebuah database. Kemudian data akan diolah oleh sistem dan hasilnya akan

disimpan ke dalam database dan ditampilkan pada user interface. Gambaran

umum sistem dapat dilihat pada Gambar 4.1.

Gambar 4.1 Gambaran Umum Sistem

(47)

commit to user

33

4.4.2 Perancangan Basis Data

Basis data yang digunakan dalam sistem ini dimodelkan dalam relational

database model. Database Management Sistem yang digunakan adalah MySQL

5.5.20. Data data yang digunakan dalam proses clustering penentuan penerima

beasiswa disimpan dalam database, yang terdiri dari tabel tb_mahasiswa,

tb_cmsd, tb_dokumentasi, dan tb_login.

Adapun penjelasan mengenai tabel-tabel pada database adalah sebagai

berikut:

1. Tabel tb_mahasiswa

Tabel 4.6 Tb_mahasiswa

Field Type Keterangan

Nim Varchar(10) Not Null, Primary Key

Ipk Float Not Null

Jml_tk Int(1) Not Null

Gaji_total Int(10) Not Null

Po Varchar(10) Not Null

Por Int(1) Not Null

2. Tabel tb_cmsd

Tabel 4.7 Tb_cmsd

Field Type Keterangan

Id Int(1) Not Null

Field Type Keterangan

Nim Varchar(9) Not Null, Primary Key

Ipk Float Not Null

Gaji Int(1) Not Null

Cluster Int(1) Not Null

Stat_ipk Varchar(10) Not Null

(48)

commit to user

4. Tabel tb_login

Tabel 4.9 Tb_login

Field Type Keterangan

Username Varchar(10) Not Null

Password Varchar(10) Not Null

4.5 Pengujian Clustering

Pengujian dilakukan untuk mengetahui keakuratan yang dihasilkan dalam

penerapan metode K-Means Clustering sebagai model untuk menentukan

penerima beasiswa. Pengujian dilakukan pada 48 data mahasiswa dengan

pengukuran presisi pada 40 kali percobaan. Data mahasiswa yang digunakan sama

tetapi dengan centroid awal berbeda akibat pembangkitan secara random. Dari 40

percobaan tersebut, diperoleh nilai minimum, maksimum, rata-rata, standart

deviasi, dan Error Presisi. Perhitungan Errror Presisi dihitung dari hasil

klasifikasi berdasarkan IPK dan berdasarkan PO.

Hasil perhitungan Errror Presisi berdasarkan klasifikasi IPK adalah

sebagai berikut:

Hasil perhitungan Errror Presisi berdasarkan klasifikasi PO adalah sebagai

berikut:

nilai Error Presisi pada hasil klasifikasi berdasarkan penghasilan orang tua adalah

0,076. Nilai Error Presisi rendah, sehingga menunjukkan bahwa nilai presisinya

tinggi. Nilai presisi yang tinggi menunjukkan ketetapan data pada setiap

percobaan dengan menggunakan 3 cluster juga tinggi. Untuk detail hasil

(49)

commit to user

BAB V

PENUTUP

5.1 Kesimpulan

Kesimpulan yang dapat diambil berdasarkan hasil pembahasan adalah:

1. Algortima K-Means Clustering dapat digunakan untuk mengelompokkan data

mahasiswa sebagai pendukung keputusan penentuan penerimaan beasiswa.

2. Data mahasiswa dikelompokkan menjadi tiga cluster (menerima,

dipertimbangkan, dan tidak berhak menerima beasiswa). Kemudian setiap

cluster diklasifikasikan berdasarkan kriteria mana yang lebih diprioritaskan

yaitu salah satu dari kriteria IPK dan penghasilan orang tua. Cluster dengan

nilai terbesar pada centroid akhir merupakan cluster yang direkomendasikan

menerima beasiswa, sedangkan cluster dengan nilai terkecil merupakan

cluster yang tidak berhak menerima beasiswa.

3. Pengujian clustering dilakukan sebanyak 40 kali percobaan untuk

mendapatkan nilai presisi hasil implementasi metode K-Means. Nilai Error

Presisi pada hasil klasifikasi berdasarkan ipk adalah 0,118 dan nilai Error

Presisi pada hasil klasifikasi berdasarkan penghasilan orang tua adalah 0,076.

Nilai Error Presisi yang rendah menunjukkan bahwa nilai presisinya tinggi.

Nilai presisi yang tinggi menunjukkan ketetapan data pada setiap percobaan

dengan menggunakan 3 cluster juga tinggi. Namun demikian, clustering data

mahasiswa berdasarkan klasifikasi IPK memiliki hasil yang tidak bagus

(dapat dilihat pada Lampiran D, IPK tinggi seharusnya lebih berpeluang

untuk menerima beasiswa), sehingga tidak dapat dipakai untuk mendukung

keputusan penerimaan beasiswa dengan prioritas kriteria IPK.

5.2 Saran

Saran yang dapat digunakan untuk pengembangan penelitian selanjutnya

yaitu melakukan clustering dengan menambahkan kriteria lain dari Dikti yang

tidak digunakan pada penelitian ini seperti jumlah sks dan prestasi ko/ekstra

Gambar

Gambar 2.2.
Gambar 2.1 Diagram alir algoritma k-means (Andayani, 2007)
Tabel 2.1 Daftar objek yang akan diolah dalam clustering
Gambar 2.4 Classification entropy (CE)
+7

Referensi

Dokumen terkait

Pada penelitian ini dilakukan clustering sendiri-sendiri untuk IPA/IPS dan dipaparkan perbandingan hasil clustering K-Means kriteria nilai akademik, nilai IQ, minat

Dari data pada Gambar 3 tersebut, langkah selanjutnya adalah melakukan proses menggunakan algoritma k-means sehingga akan didapatkan hasil nilai yang masuk dalam kriteria baik..

Pada Gambar 4.8 dapat dilihat bahwa hasil cluster 1 terbesar yaitu jalur masuk Beasiswa dengan persentase 47,5% mahasiswa yang berpotensi tinggi terkena drop out,

Hampir sama dengan tahap 4, yaitu menentukan anggota cluster dengan menghitung jarak minimum tiap object dengan centroid baru yang telah dihasilkan. K-means Algoritma merupakan

Tabel 4.4 Hasil perhitungan jarak data pada nilai k dengan masing-masing centroid setiap cluster

Pengukuran kinerja algoritma K-Means akan dilakukan terhadap penentuan centroid secara acak pada algoritma K-Means klasik, penentuan centroid dengan menggunakan

Empat data hotel beserta tarif inap dan paket makan pada suatu cluster yang memiliki jarak pusat cluster dengan nilai terpendek/ terkecil yang diberikan oleh wisatawan

Dimana data diolah dengan algoritma unsupervised learning yaitu K-Means Clustering dengan pehitungan euclidean distance dengan jarak nilai yang terdekat daripada centroid yang telah