Analisa Data Mahasiswa Baru Terhadap Program Studi Yang Dipilih Di Universitas Pembangunan Nasional “Veteran” Jawa Timur Menggunakan Teknik Data Mining.

(1)

Timur Menggunakan Teknik Data Mining

SKRIPSI

Disusun Oleh :

Citr a Ar um Sar i

1032010048

J URUSAN TEKNIK INDUSTRI

FAKULTAS TEKNOLOGI INDUSTRI

UNIVERSITAS PEMBANGUNAN NASIONAL “VETERAN”

J AWA TIMUR

(2)

PEMBANGUNAN NASIONAL “VETERAN” J AWA TIMUR

MENGGUNAKAN TEKNIK DATA MINING

Disusun oleh :

CITRA ARUM SARI 1032010048

Telah dipertahankan dihadapan dan diterima oleh Tim Penguji Skr ipsi J ur usan Teknik Industri Fakultas Teknologi Industr i

Univer sitas Pembangunan Nasional “Veteran” J awa Timur Pada Tanggal 20 J anuar i 2014

Tim Penguji : Pembimbing :

Univer sitas Pembangunan Nasional “Veteran” J awa Timur Sur abaya

(3)

PEMBANGUNAN NASIONAL “VETERAN” J AWA TIMUR

MENGGUNAKAN TEKNIK DATA MINING

Disusun oleh :

CITRA ARUM SARI 1032010048

Telah dipertahankan dihadapan dan diterima oleh Tim Penguji Skr ipsi J ur usan Teknik Industri Fakultas Teknologi Industr i

Univer sitas Pembangunan Nasional “Veteran” J awa Timur Pada Tanggal 20 J anuar i 2014

Tim Penguji : Pembimbing : NIP. 19591228 198803 2 001

Mengetahui

Ketua J ur usan Teknik Industri Fakultas Teknologi Industri

Univer sitas Pembangunan Nasional “Veteran” J awa Timur Sur abaya

(4)

sehingga penulis dapat menyelesaikan penyusunan Tugas Akhir ini.

Tugas Akhir ini disusun untuk memenuhi persyaratan kelulusan Program

Sarjana Strata-1 (S-1) di Jurusan Teknik Industri Fakultas Teknologi Industri

Universitas Pembangunan Nasional “Veteran” Jawa Timur dengan judul :

“ Analisa Dat a M ahasisw a Baru Terhadap Program St udi Yang Dipilih Di Universit as Pem bangunan Nasional “ Vet eran” Jaw a Timur M enggunakan Teknik Dat a M ining”

Penyelesaian penyusunan Tugas Akhir ini tentunya tidak terlepas dari

peran serta berbagai pihak yang telah memberikan bimbingan dan bantuan baik

secara langsung maupun tidak langsung. Oleh karena itu tidak berlebihan bila

pada kesempatan kali ini penulis mengucapkan terima kasih kepada :

1. Kedua orang tua yang telah memberikan banyak dukungan secara moril,

materil serta doa, sehingga penyelesaian laporan ini dapat segera

terselesaiakan.

2. Bapak Ir. Sutiyono, MT, selaku Dekan Fakultas Teknologi Industri

Universitas Pembangunan Nasional “Veteran” Jawa Timur.

3. Bapak Dr. Minto Waluyo, MM, selaku Ketua Jurusan Teknik Industri

Universitas Pembangunan Nasional “Veteran” Jawa Timur.

(5)

7. Ir. Iriani, MMT, selaku Dosen Penguji Skripsi.

8. Ir. Nisa Masruroh, MT, selaku Dosen Penguji Skripsi.

9. Ibu Ir. Erlina P., MT selaku Dosen Penguji Skripsi

10. Bapak Ir. Rusindiyanto, MT, selaku Dosen Penguji Skripsi.

11. Teman-teman angkatan 2010 khususnya asisten laboratorium Optimasi dan

Pemrograman Komputer yang telah memberikan semangat dalam

penyelesaian Tugas Akhir ini. Serta untuk Diska dan Intan yang bersedia

menemani dan selalu membantu ketika penulis mengalami kendala selama

perkuliahan hingga penyelesaian Tugas Akhir.

12. Pihak-pihak lain yang terkait baik secara langsung maupun tidak langsung

dalam penyelesaian Tugas Akhir ini yang tidak dapat disebutkan satu per

satu.

Penulis menyadari sepenuhnya bahwa penyusunan Tugas Akhir ini

terdapat kekurangan, maka dengan segala kerendahan hati penulis mengharapkan

saran dan kritik yang bersifat membangun.

Akhir kata semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak

yang membaca. Terima Kasih.

(6)

(7)

KATA PENGANTAR ... i

DAFTAR ISI ... iii

DAFTAR GAMBAR ... v

DAFTAR TABEL ... vi

DAFTAR LAMPIRAN ... vii

BAB I PENDAHULUAN 1.1 Latar Belakang ... 1

1.2 Perumusan Masalah ... 2

1.3 Batasan Masalah... 3

1.4 Asumsi ... 3

1.5 Tujuan Penelitian ... 4

1.6 Manfaat Penelitian... 4

1.7 Sistematika Penulisan ... 4

BAB II TINJ AUAN PUSTAKA 2.1 Data Mining ... 6

2.1.1 Tahapan Data Mining ... 9

2.1.2 Pengelompokkan Data Mining ... 12

2.2 Clustering ... 16

2.2.1 Metode Clustering ... 19

2.3 Algoritma K-Means ... 20

(8)

BAB III METODE PENELITIAN

3.1 Pengamatan Obyek ... 35

3.2 Identifikasi Variabel ... 35

3.3 Pengumpulan Data ... 36

3.4 Pengolahan Data... 36

3.5 Langkah-Langkah Penelitian dan Pemecahan Masalah ... 37

BAB IV HASIL PENELITIAN DAN PEMBAHASAN 4.1 Pengumpulan Data ... 41

4.2 Pengolahan Data... 44

4.3 Pembahasan ... 48

BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan ... 50

5.2 Saran ... 50

(9)

Gambar 2.2 Tahap-Tahap Data Mining ... 9

Gambar 2.3 Contoh Clustering ... 18

Gambar 2.4 Grafik Hasil Klasterisasi Nilai Kompetensi Kualifikasi Akademik Dan Perencanaan & Pelaksanaan Pembelajaran .. 23

Gambar 2.5 Cara Kerja Algoritma K-Means ... 25

Gambar 2.6 Hasil Uji Coba Penelitian ... 31

Gambar 2.7 Hasil Clustering Menggunakan Algoritma K-Means ... 33

(10)

Baru ... 29

Tabel 2.2 Hasil Kluster Kota Asal Mahasiswa Baru ... 29

Tabel 4.1 Pengumpulan Data Mahasiswa Baru Universitas Pembangunan Nasional “Veteran” Jawa Timur ... 42

Tabel 4.2 Jarak Setiap Data dengan Pusat Kluster Iterasi 1 ... 45

Tabel 4.3 Hasil Kluster Data Berdasar Jarak Minimum Iterasi 1 ... 45

Tabel 4.6 Jarak Setiap Data dengan Pusat Kluster Iterasi 3 ... 47

(11)

LAMPIRAN I.2 Hasil Pengolahan Data Mahasiswa Baru Universitas Pembangunan Nasional “Veteran” Jawa Timur Iterasi 1

LAMPIRAN II.1 Nilai Pusat Kluster Iterasi 2

LAMPIRAN II.2 Hasil Pengolahan Data Mahasiswa Baru Universitas

Pembangunan Nasional “Veteran” Jawa Timur Iterasi 2

LAMPIRAN III.1 Nilai Pusat Kluster Iterasi 2

(12)

(13)

KATA PENGANTAR ... i

DAFTAR ISI ... iii

DAFTAR GAMBAR... v

DAFTAR TABEL ... vi

DAFTAR LAMPIRAN ... vii

BAB I PENDAHULUAN 1.1 Latar Belakang ... 1

1.2 Perumusan Masalah ... 2

1.3 Batasan Masalah ... 3

1.4 Asumsi ... 3

1.5 Tujuan Penelitian ... 4

1.6 Manfaat Penelitian ... 4

1.7 Sistematika Penulisan ... 4

BAB II TINJ AUAN PUSTAKA 2.1 Data Mining ... 6

2.1.1 Tahapan Data Mining... 9

2.1.2 Pengelompokkan Data Mining ... 12

2.2 Clustering... 16

2.2.1 Metode Clustering... 19

2.3 Algoritma K-Means ... 20

(14)

3.1 Pengamatan Obyek... 35

3.2 Identifikasi Variabel ... 35

3.3 Pengumpulan Data ... 36

3.4 Pengolahan Data ... 36

3.5 Langkah-Langkah Penelitian dan Pemecahan Masalah ... 37

BAB IV HASIL PENELITIAN DAN PEMBAHASAN 4.1 Pengumpulan Data ... 41

4.2 Pengolahan Data ... 44

4.3 Pembahasan ... 50

BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan ... 54

5.2 Saran ... 54

(15)

Gambar 2.2 Tahap-Tahap Data Mining ... 9

Gambar 2.3 Contoh Clustering ... 18

Gambar 2.4 Grafik Hasil Klasterisasi Nilai Kompetensi Kualifikasi Akademik Dan Perencanaan & Pelaksanaan Pembelajaran . 23 Gambar 2.5 Cara Kerja Algoritma K-Means ... 25

Gambar 2.6 Hasil Uji Coba Penelitian ... 31

Gambar 2.7 Hasil Clustering Menggunakan Algoritma K-Means ... 33

(16)

Baru ... 29

Tabel 2.2 Hasil Kluster Kota Asal Mahasiswa Baru ... 29

Tabel 4.1 Pengumpulan Data Mahasiswa Baru Universitas Pembangunan Nasional “Veteran” Jawa Timur ... 42

Tabel 4.6 Jarak Setiap Data dengan Pusat Kluster Iterasi 3 ... 48

Tabel 4.7 Hasil Kluster Data Berdasar Jarak Minimum Iterasi 3... 49

(17)

Hasil Pengolahan Data Program Studi Universitas Pembangunan Nasional “Veteran” Jawa Timur Iterasi 1

LAMPIRAN II Nilai Pusat Kluster Iterasi 2

Hasil Pengolahan Data Program Studi Universitas

Pembangunan Nasional “Veteran” Jawa Timur Iterasi 2

LAMPIRAN III Nilai Pusat Kluster Iterasi 2

Hasil Pengolahan Data Program Studi Universitas

(18)

Abstr ak

Universitas Pembangunan Nasional “Veteran” Jawa Timur berlokasi di Surabaya merupakan Perguruan Tinggi Swasta di Indonesia yang memiliki 6 Fakultas dengan 19 Program Studi (Progdi) sarjana.

Banyaknya peminat dari setiap program studi di Universitas Pembangunan Nasional “Veteran” Jawa Timur dapat dipengaruhi oleh asal SMA, pendapatan orang tua dan asal kota. Berdasarkan hal tersebut, maka penelitian ini akan mengelompokkan program studi berdasarkan data mahasiswa yang ada dengan tujuan memberikan informasi kepada pihak Universitas untuk memprioritaskan program studi dengan sedikit peminat.

Untuk proses pencarian informasi dari data mahasiswa baru UPN “Veteran” Jawa Timur digunakan teknik data mining, sedangkan clustering

K-Means digunakan untuk mengelompokkan program studi dalam beberapa kelas

berdasarkan kemiripan data.

Berdasarkan hasil clustering dengan metode algoritma K-Means telah terdapat 3 kluster, dimana kluster 1 merupakan program studi dengan sedikit peminat sebanyak 10 program studi, kluster 2 banyak peminat sebanyak 5 program studi dan kluster 3 cukup peminat sebanyak 4 program studi.

(19)

Abstr act

Universitas Pembangunan Nasional "Veteran" East Java is located in East Java, Surabaya is Indonesia's Private University which has 6 faculties with 19 courses.

The number of applicants from each courses at the Universitas Pembangunan Nasional "Veteran" East Java can be affected by SMA origin, parental income and home town. Based on this, the study will be categorize courses based on existing student data with the purpose of providing information to the University to prioritize programs with little interest.

For information search process of the new student data UPN "Veteran" East Java is used data mining techniques, while the K-Means clustering is used to group the courses into classes based on similar data.

Based on the results of the clustering method K-Means algorithm has been there 3 clusters, where cluster 1 is a courses with little interest in as many as 10 courses, cluster 2 of enthusiasts as much as 5 courses and cluster 3 is quite interested as much as 4 courses.

(20)

BAB I

PENDAHULUAN

1.1 Latar Belakang

Universitas Pembangunan Nasional “Veteran” Jawa Timur, disingkat UPN

“Veteran” Jatim atau UPN VJT berlokasi di Surabaya merupakan Perguruan

Tinggi Swasta di Indonesia yang berdiri sejak 5 Juli 1959. UPN “Veteran” Jawa

Timur hingga tahun 2013, memiliki 6 Fakultas dengan 19 Program Studi (Progdi)

sarjana, yaitu Fakultas Ekonomi Bisnis dengan 3 Program Studi, yaitu Progdi

Ilmu Ekonomi dan Pembangunan, Progdi Akuntansi dan Progdi Manajemen,

Fakultas Petanian dengan 2 Program Studi, yaitu Progdi Agroteknologi dan

Progdi Agribisnis, Fakultas Teknologi Industri dengan 5 Program Studi, yaitu

Progdi Teknik Kimia, Progdi Teknik Industri, Progdi Teknologi Pangan, Progdi

Teknik Informatika dan Progdi Sistem Informasi, Fakultas Ilmu Sosial dan Ilmu

Politik dengan 4 Program Studi, yaitu Progdi Administrasi Negara, Progdi

Administrasi Bisnis, Progdi Ilmu Komunikasi dan Progdi Hubungan

Internasional, Fakultas Teknik Sipil dan Perencanaan dengan 4 Program Studi,

yaitu Progdi Teknik Sipil, Progdi Teknik Arsitektur, Progdi Teknik Lingkungan

dan Progdi Desain Komunikasi Visual, serta Fakultas Hukum dengan 1 Program

Studi yaitu Progdi Ilmu Hukum.

Jumlah mahasiswa baru di Universitas Pembangunan Nasional “Veteran”

Jawa Timur mengalami pertumbuhan dan perkembangan yang cukup signifikan.

(21)

dimana ada yang banyak peminat dan kurang peminat. Besarnya peminat dari

setiap program studi dapat dipengaruhi oleh asal kota, pendapatan orang tua, asal

wilayah dan lain – lain. Berdasarkan hal tersebut, maka dalam penelitian ini akan

mengelompokkan program studi berdasarkan data mahasiswa yang ada dengan

tujuan memberikan informasi kepada pihak Universitas untuk memprioritaskan

program studi yang memiliki sedikit peminat.

Untuk metode yang akan digunakan dalam penelitian ini adalah teknik

data mining. Data mining berperan sebagai pencarian informasi yang berharga

dari basis data yang sangat besar. Data mining adalah suatu proses dalam

menemukan berbagai model, ringkasan data dan nilai – nilai yang berharga dari

sekumpulan data. Pada penelitian ini, metode data mining digunakan untuk proses

pencarian informasi dari data mahasiswa baru semester 1 UPN “Veteran” Jawa

Timur. Selain data mining juga menggunakan teknik clustering K-Means, dimana

clustering K-Means digunakan untuk mengelompokkan program studi

berdasarkan jarak minimum setiap data ke kluster.

Dengan demikian, diharapkan dapat memberikan informasi yang

bermanfaat bagi pihak Universitas dalam melakukan promosi mengenai program

studi sarjana yang ada di Universitas Pembangunan Nasional “Veteran” Jawa

Timur ini.

1.2 Perumusan Masalah

Berdasarkan latar belakang diatas, maka dapat dirumuskan suatu

(22)

Bagaimana hasil pengelompokkan program studi sarjana berdasarkan data

mahasiswa baru menggunakan clustering K-Means?

1.3 Batasan Masalah

Agar penulisan dapat berjalan dengan baik dan sesuai dengan alurnya

maka perlu diberikan batasan-batasan masalah sebagai berikut :

1. Data yang digunakan adalah data mahasiswa program studi sarjana UPN

“Veteran” Jatim, yaitu data mahasiswa semester 1 meliputi: program studi,

kota asal, pendapatan orang tua dan jenis SMA.

2. Menggunakan algoritma K-Means untuk pengelompokan data.

3. Pengerjaan dengan software matlab untuk membantu proses klasterisasi

dan analisis data.

1.4 Asumsi

Sedangkan beberapa asumsi yang digunakan dalam penelitian ini adalah

sebagai berikut :

1. Data tidak berubah selama penelitian.

2. Data yang digunakan merupakan data yang siap diolah dengan clustering

(23)

1.5 Tujuan Penelitian

Adapun tujuan penelitian dalam penyusunan tugas akhir ini adalah untuk

mengetahui hasil kelompok program studi sarjana yang perlu mendapat prioritas

utama dari pihak Universitas.

1.6 Manfaat Penelitian

Manfaat yang dapat diambil dari penelitian ini adalah :

1. Diharapkan dapat menjadi referensi untuk penggunaan Algoritma

K-Means bagi praktisi atau peneliti lain untuk diterapkan pada kasus

penelitian yang lain.

2. Dengan menggunakan data mining dengan clustering K-Means,

diharapkan dapat membantu pihak Universitas untuk mengetahui

kelompok program studi yang perlu diprioritaskan di Universitas

Pembangunan Nasional “Veteran” Jawa Timur.

1.7 Sistematika Penulisan

Adapun sistematika penulisan dari tugas akhir ini adalah sebagai berikut :

BAB I PENDAHULUAN

Bab ini berisi latar belakang, perumusan masalah, batasan

masalah, asumsi yang digunakan, tujuan penelitian, manfaat

(24)

BAB II TINJ AUAN PUSTAKA

Pada bab ini akan menguraikan mengenai landasan-landasan

teori atau literatur yang digunakan untuk menyelesaikan

laporan penelitian ini dan digunakan sebagai landasan peneliti

untuk menjalankan penelitian.

Bab ini berisi langkah-langkah dalam melakukan penelitian

yaitu hal-hal yang dilakukan untuk mencapai tujuan dari

penelitian atau urutan kerja menyeluruh selama pelaksanaan

penelitian.

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

Bab ini berisi pengolahan dari data yang telah dikumpulkan,

langkah-langkah pemecahan masalah dan metode analisis serta

pembahasan penelitian.

BAB V KESIMPULAN DAN SARAN

Bab ini berisi kesimpulan dan saran dari hasil penelitian yang

telah dilakukan yang didapatkan dari tujuan dan permasalahan

yang ada.

DAFTAR PUSTAKA

(25)

BAB II

TINJ AUAN PUSTAKA

2.1 Data Mining

Istilah data mining memiliki beberapa padanan seperti knowledge

discovery atau pattern recognition. Istilah knowledge discovery atau penemuan

pengetahuan digunakan kerena tujuan utama dari data mining memang untuk

mendapatkan pengetahuan yang masih tersembunyi di dalam bongkahan data.

Istilah pattern recognition atau pengenalan pola pun tepat digunakan kerena

pengetahuan yang hendak digali memang berbentuk pola-pola yang mungkin juga

masih perlu digali dari dalam bongkahan data yang tengah dihadapi. (Susanto,

2010 dalam tesis Budiman, 2012)

Data Mining sebagai salah satu cabang ilmu yang relatif baru mempunyai

potensi pengembangan yang sangat besar dan diprediksi akan menjadi salah satu

yang paling revolusioner pada dekade ini (Larose, 2006 dalam tesis Budiman,

2012). Data Mining sendiri merupakan sebuah proses ekstraksi informasi untuk

menemukan pola (pattern recognition) yang penting pada tumpukan data dalam

database sehingga menjadi pengetahuan (knowledge discovery). Fungsi-fungsi

dalam data mining antara lain: fungsi deskripsi, fungsi estimasi, fungsi Prediksi,

fungsi Klasifikasi, fungsi Clustering dan fungsi asosiasi (Larose, 2005 dalam tesis

Budiman, 2012).

Data mining adalah serangkaian proses untuk menggali nilai tambah dari

(26)

manual (Moertini, 2002). Secara umum data mining memiliki beberapa kajian.

Seperti yang dapat dilihat pada Gambar 2.1, data mining merupakan pusat dari

beberapa kajian. Diantaranya adalah estimasi, seleksi variabel, clustering,

visualisasi, market basket analysis dan klasifikasi. Semua kajian tersebut

termasuk ke dalam data mining.

Gambar 2.1 Kajian Umum Data Mining

(Sumber : Santosa, 2007)

Data mining merupakan bidang dari beberapa bidang keilmuan yang

menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database

dan visualisasi untuk penanganan permasalahan pengambilan informasi dari

database yang besar (Larose, 2005). Data mining adalah analisis otomatis dari data

yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau

kecenderungan yang penting yang biasanya tidak disadari keberadaannya

(Moertini, 2002). Hal-hal penting yang terkait dengan data mining adalah (Luthfi

(27)

1. Data mining merupakan suatu proses otomatis terhadap data yang sudah

ada.

2. Data yang akan diproses berupa data yang sangat besar.

3. Tujuan data mining adalah mendapatkan hubungan atau pola yang

mungkin memberikan indikasi yang bermanfaat.

Hubungan yang dicari dalam data mining dapat berupa hubungan antara

dua atau lebih objek dalam satu dimensi yang sama. Misalnya dalam dimensi

produk dapat melihat keterkaitan pembelian suatu produk dengan produk yang

lain. Selain itu, hubungan juga dapat dilihat antara dua atau lebih atribut dan dua

atau lebih objek (Ponniah, 2001). Masalah-masalah yang sesuai untuk

diselesaikan dengan teknik data mining dapat dicirikan dengan (Piatetsky &

Shapiro, 2006):

1. Memerlukan keputusan yang bersifat knowledge-based.

2. Mempunyai lingkungan yang berubah.

3. Metode yang ada sekarang bersifat sub-optimal.

4. Tersedia data yang bisa diakses, cukup dan relevan.

5. Memberikan keuntungan yang tinggi jika keputusan yang diambil tepat.

Kata mining mempunyai arti yaitu usaha untuk mendapatkan sedikit

barang berharga dari sejumlah besar material dasar. Data mining memiliki akar

yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelegent),

machine learning, statistik dan database. Beberapa metode yang sering

disebut-sebut dalam literatur data mining antara lain clustering, classification, association

(28)

Data mining sering digunakan untuk membangun model prediksi/ inferensi

yang bertujuan untuk memprediksi tren masa depan atau perilaku berdasarkan

analisis data terstruktur. Dalam konteks ini, prediksi adalah pembangunan dan

penggunaan model untuk menilai kelas dari contoh tanpa label, atau untuk menilai

jangkauan nilai atau contoh yang cenderung memiliki nilai atribut. Klasifikasi dan

regresi adalah dua bagian utama dari masalah prediksi, dimana klasifikasi

digunakan untuk memprediksi nilai diskrit atau nominal sedangkan regresi

digunakan untuk memprediksi nilai terus-menerus atau nilai yang ditentukan

(Larose, 2005).

2.1.1 Tahapan Data Mining

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi

beberapa tahap yang diilustrasikan di Gambar 2.2. Tahap-tahap tersebut bersifat

interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.

(29)

Tahap-tahap data mining ada 7, yaitu :

1. Pembersihan data (data cleaning)

Pembersihan data merupakan proses menghilangkan noise dan data yang

tidak konsisten atau data tidak relevan. Pada umumnya data yang

diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen,

memiliki isian-isian yang tidak sempurna seperti data yang hilang, data

yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga

atribut-atribut data yang tidak relevan dengan hipotesa data mining yang

dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang.

Pembersihan data juga akan mempengaruhi performasi dari teknik data

mining karena data yang ditangani akan berkurang jumlah dan

kompleksitasnya.

2. Integrasi data (data integration)

Integrasi data merupakan penggabungan data dari berbagai database ke

dalam satu database baru. Tidak jarang data yang diperlukan untuk data

mining tidak hanya berasal dari satu database tetapi juga berasal dari

beberapa database atau file teks. Integrasi data dilakukan pada

atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut

nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu

dilakukan secara cermat karena kesalahan pada integrasi data bisa

menghasilkan hasil yang menyimpang dan bahkan menyesatkan

(30)

jenis produk ternyata menggabungkan produk dari kategori yang berbeda

maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada.

3. Seleksi Data (Data Selection)

Data yang ada pada database sering kali tidak semuanya dipakai, oleh

karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari

database. Sebagai contoh, sebuah kasus yang meneliti faktor

kecenderungan orang membeli dalam kasus market basket analysis, tidak

perlu mengambil nama pelanggan, cukup dengan id pelanggan saja.

4. Transformasi data (Data Transformation)

Data diubah atau digabung ke dalam format yang sesuai untuk diproses

dalam data mining. Beberapa metode data mining membutuhkan format

data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa

metode standar seperti analisis asosiasi dan clustering hanya bisa

menerima input data kategorikal. Karenanya data berupa angka numerik

yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini

sering disebut transformasi data.

5. Proses mining,

Merupakan suatu proses utama saat metode diterapkan untuk menemukan

pengetahuan berharga dan tersembunyi dari data.

6. Evaluasi pola (pattern evaluation),

Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang

ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola

(31)

hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh

tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti

menjadikannya umpan balik untuk memperbaiki proses data mining,

mencoba metode data mining lain yang lebih sesuai, atau menerima hasil

ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

7. Presentasi pengetahuan (knowledge presentation),

Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang

digunakan untuk memperoleh pengetahuan yang diperoleh pengguna.

Tahap terakhir dari proses data mining adalah bagaimana

memformulasikan keputusan atau aksi dari hasil analisis yang didapat.

Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami

data mining. Karenanya presentasi hasil data mining dalam bentuk

pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang

diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi

juga bisa membantu mengkomunikasikan hasil data mining (Han, 2006

dalam skripsi Masykur, 2010).

2.1.2 Pengelompokkan Data Mining

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang

dapat dilakukan, yaitu (Larose, 2005):

1. Deskripsi

Terkadang penelitian analisis secara sederhana ingin mencoba mencari

cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam

(32)

menemukan keterangan atau fakta bahwa siapa yang tidak cukup

profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi

dari pola dan kecenderungan sering memberikan kemungkinan penjelasan

untuk suatu pola atau kecenderungan.

2. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi

lebih ke arah numerik daripada ke arah kategori. Model dibangun

menggunakan record lengkap yang menyediakan nilai dari variabel target

sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi

nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai

contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah

sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan

level sodium darah. Hubungan antara tekanan darah sistolik dan nilai

variabel prediksi dalam proses pembelajaran akan menghasilkan model

estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus

baru lainnya.

3. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa

dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi

dalam bisnis dan penelitian adalah :

a. Prediksi harga beras dalam tiga bulan yang akan datang.

b. Prediksi presentase kenaikan kecelakaan lalu lintas tahun depan jika batas

(33)

Beberapa metode dan teknik yang digunakan dalam klasifikasi dan

estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

4. Klasifikasi

Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,

penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu

pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Contoh

lain klasifikasi dalam bisnis dan penelitian adalah :

a. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang

curang atau bukan.

b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan

suatu kredit yang baik atau buruk.

c. Mendiagnosis penyakit seorang pasien untuk mendapatkan kategori

penyakit apa.

5. Pengklusteran

Pengklusteran merupakan pengelompokan record, pengamatan, atau

memperhatikan dan membentuk kelas objek-objek yang memiliki

kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu

dengan yang lainnya dan memiliki ketidakmiripan dengan record-record

dalam cluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak

adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba

untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari

variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk

(34)

kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan

record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan

dengan record dalam kelompok lain akan bernilai minimal. Contoh

pengklusteran dalam bisnis dan penelitian adalah:

a. Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan

kemiripan perilaku dari gen dalam jumlah besar.

b. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari

suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang

besar.

c. Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap

perilaku finansial dalam baik dan mencurigakan.

6. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul

dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis

keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah :

a. Menemukan barang dalam supermarket yang dibeli secara bersamaan dan

barang yang tidak pernah dibeli secara bersamaan.

b. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang

diharapkan untuk memberikan respons positif terhadap penawaran

(35)

2.2 Clustering

Clustering adalah studi formal metode dan algoritma untuk partisi atau

pengelompokan. Analisis clustering tidak menggunakan pelabelan kategori

sebelumnya. Clustering bersifat unsupervised learning atau tidak mempunyai

tahap pelatihan data, berbeda dengan klasifikasi (Jain, 2009 dalam tesis Budiman,

2012).

Clustering adalah alat penemuan mengungkapkan hubungan dan struktur

di dalam data yang sebelumnya tidak jelas menjadi pengetahuan yang bermanfaat

ketika ditemukan.

Tujuan utama dari metode clustering adalah pengelompokan sejumlah

data/ obyek ke dalam cluster (group) sehingga dalam setiap cluster akan berisi

data yang semirip mungkin. Clustering adalah metode yang berusaha untuk

menempatkan obyek yang mirip (jaraknya dekat) dalam satu cluster dan membuat

jarak antar cluster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat

mirip satu sama lain dan berbeda dengan obyek dalam cluster-cluster yang lain.

Clustering digunakan untuk menganalisis pengelompokkan berbeda

terhadap data, mirip dengan klasifikasi, namun pengelompokkan belum

didefinisikan sebelum dijalankannya tool data mining. Clustering membagi item

menjadi kelompok-kelompok berdasarkan yang ditemukan tool data mining.

Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas

dan meminimumkan kesamaan antar cluster. Clustering dapat dilakukan pada data

yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi

(36)

Clustering adalah sebuah proses pengelompokan data ke dalam beberapa

kelas berdasarkan kemiripan data. Tujuannya adalah untuk menemukan cluster

yang berkualitas dalam waktu yang layak. Clustering merupakan suatu alat untuk

analisa data, yang memecahkan permasalahan penggolongan. Clustering dalam

data mining berguna untuk menemukan pola distribusi di dalam sebuah data set

yang berguna untuk proses analisa data. Kesamaan objek biasanya diperoleh dari

kedekatan nilai – nilai atribut yang menjelaskan objek – objek data, sedangkan

objek – objek data biasanya dipresentasikan sebagai sebuah titik dalam ruang

multidimensi.

Terdapat dua pendekatan dalam metode dalam metode ini diantaranya

adalah Hierarchical dan Partitioning. Clustering dengan dengan pendekatan

hirarki atau sering disebut dengan hierarchical clustering merupakan

pengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana

data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak

pada hirarki yang berjauhan. Sedangkan, clustering dengan pendekatan partisi

atau sering disebut dengan partition – based clustering merupakan

pengelompokkan data dengan memilah – milah data yang dianalisa ke dalam

cluster – cluster yang ada.

Baskoro (2010) dalam skripsi Nango Dwi (2012) menyatakan bahwa

Clustering atau clusterisasi adalah salah satu alat bantu pada data mining yang

bertujuan mengelompokkan obyek-obyek ke dalam cluster-cluster. Cluster adalah

sekelompok atau sekumpulan obyek-obyek data yang similar satu sama lain

(37)

cluster. Obyek akan dikelompokkan ke dalam satu atau lebih cluster sehingga

obyek-obyek yang berada dalam satu cluster akan mempunyai kesamaan yang

tinggi antara satu dengan lainnya. Obyek-obyek dikelompokkan berdasarkan

prinsip memaksimalkan kesamaan obyek pada cluster yang sama dan

memaksimalkan ketidaksamaan pada cluster yang berbeda. Kesamaan obyek

biasanya diperoleh dari nilai-nilai atribut yang menjelaskan obyek data,

sedangkan obyek-obyek data biasanya direpresentasikan sebagai sebuah titik

dalam ruang multidimensi.

Dengan menggunakan clusterisasi, kita dapat mengidentifikasi daerah

yang padat, menemukan pola-pola distribusi secara keseluruhan, dan menemukan

keterkaitan yang menarik antara atribut-atribut data. Dalam data mining, usaha

difokuskan pada metode-metode penemuan untuk cluster pada basis data

berukuran besar secara efektif dan efisien. Beberapa kebutuhan clusterisasi dalam

data mining meliputi skalabilitas, kemampuan untuk menangani tipe 12 atribut

yang berbeda, mampu menangani dimensionalitas yang tinggi, menangani data

yang mempunyai noise, dan dapat diterjemahkan dengan mudah.

Gambar 2.3 Contoh Clustering (Baskoro 2010)

Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan

(38)

berusaha meminimalisasikan variasi di dalam suatu cluster dan

memaksimalisasikan variasi antar cluster.

2.2.1 Metode Clustering

Menurut Baskoro (2010) dalam skripsi Nango Dwi (2012), secara garis

besar, terdapat beberapa metode clusterisasi data. Pemilihan metode clusterisasi

bergantung pada tipe data dan tujuan clusterisasi itu sendiri. Metode-metode

beserta algoritma yang termasuk didalamnya meliputi :

a. Partitioning Method

Membangun berbagai partisi dan kemudian mengevaluasi partisi tersebut

dengan beberapa kriteria, yang termasuk metode ini meliputi algoritma

K-Means, K-Medoid, PROCLUS, CLARA, CLARANS, dan PAM.

b. Hierarchical Methods

Membuat suatu penguraian secara hierarkikal dari himpunan data dengan

menggunakan beberapa kriteria. Metode ini terdiri atas dua macam, yaitu

Agglomerative yang menggunakan strategi bottom-up dan Disisive yang

menggunakan strategi top-down. Metode ini meliputi algoritma BIRCH,

AGNES, DIANA, CURE, dan CHAMELEON.

c. Density-based Methods

Metode ini berdasarkan konektivitas dan fungsi densitas. Metode ini

meliputi algoritma DBSCAN, OPTICS, dan DENCLU.

d. Grid-based Methods

Metode ini berdasarkan suatu struktur granularitas multi-level. Metode

(39)

e. Model-based Methods

Suatu model dihipotesakan untuk masing-masing cluster dan ide untuk

mencari best fit dari model tersebut untuk masing-masing yang lain.

Metode klusterisasi ini meliputi pendekatan statitik, yaitu algoritma

COBWEB dan jaringan syaraf tiruan, yaitu SOM.

2.3 Algoritma K-Means

Menurut Widyawati (2010) dalam skripsi Nango Dwi (2012), algoritma

k-means merupakan algoritma yang membutuhkan parameter input sebanyak k dan

membagi sekumpulan n objek kedalam k cluster sehingga tingkat kemiripan antar

anggota dalam satu cluster tinggi sedangkan tingkat kemiripan dengan anggota

pada cluster lain sangat rendah. Kemiripan anggota terhadap cluster diukur

dengan kedekatan objek terhadap nilai mean pada cluster atau dapat disebut

sebagai centroid cluster atau pusat massa.

Berikut rumus pengukuran jarak menurut Santosa (2007) dalam skripsi

Nango Dwi (2012) :

d(x,y) = ||x-y||2 = ∑ ( − )

Adapun rumus perhitungan jarak lainnya didefinisikan sebagai berikut :

d(x,y) = ( − ) + ( − )

Keterangan :

d = titik dokumen

x = data record

(40)

Jarak yang terpendek antara centroid dengan dokumen menentukan posisi

cluster suatu dokumen. Misalnya dokumen A mempunyai jarak yang paling

pendek ke centroid 1 dibanding ke yang lain, maka dokumen A masuk ke group 1.

Hitung kembali posisi centroid baru untuk tiap-tiap centroid (Ci..j) dengan

mengambil rata – rata dokumen yang masuk pada cluster awal (Gi..j ). Iterasi

dilakukan terus hingga posisi group tidak berubah. Berikut rumus dari penentuan

centroid :

C (i) =

| | ∑ ∈ ̅

Adapun rumus iterasi lainnya didefinisikan sebagai berikut :

C(i) =

K-Means merupakan algoritma clustering yang bersifat partitional yaitu

membagi himpunan objek data ke dalam sub himpunan (cluster) yang tidak

overlap, sehingga setiap objek data berada tepat dalam satu cluster. Strategi

partitional-clustering yang paling sering digunakan adalah berdasarkan kriteria

square error. Secara umum, tujuan kriteria square error adalah untuk

memperoleh partisi (jumlah cluster tetap) yang meminimalkan total square error.

SSE (Sum Squared of Error) menyatakan total kesalahan kuadarat yang terjadi

bila n data i n x ,..., x dikelompokkan kedalam k cluster dengan pusat tiap cluster

(41)

dikelompokkan ke dalam cluster-cluster tersebut. Semakin kecil nilai SSE,

semakin bagus hasil clustering-nya. Adapun rumus SSE adalah sebagai berikut :

SSE = (Ci)2 + (Ci)2 + (C..)2 + (C..)2

Keterangan :

Ci = nilai centroid

Untuk lebih memahami mengenai algoritma K-Means dapat dilihat pada

contoh berikut :

Guru sebagai tenaga profesional dapat berfungsi untuk meningkatkan

martabat dan peran guru sebagai agen pembelajaran danberfungsi untuk

meningkatkan mutu pendidikan nasional. Dengan terlaksananya sertifikasi guru,

diharapkan akan berdampak pada meningkatnya mutu pembelajaran dan mutu

pendidikan secara berkelanjutan.

Untuk mendapatkan informasi dan pengetahuan tentang profil kompetensi

guru diperlukan adanya suatu metode penggalian data (data mining) dan

klasifikasi yang tepat dengan jalan mengolah dan menggali variabel hasil

penilaian portofolio dan aspek lain dari profil guru. Dimana tujuan dari studi

kasus ini adalah :

a. Memberikan gambaran dan analisa kelebihan dan kekurangan kompetensi

guru dengan pemilihan data yang variatif.

b. Bagaimana memanfaatkan data berupa angka-angka hasil penilaian

portofolio menjadi sebuah informasi dan pengetahuan tentang kompetensi

(42)

c. Menerapkan proses data mining untuk pengolahan nilai portofolio guru

dengan metode K-mean clustering untuk mengelompokan kompetensi

yang relatif homogen.

Gambar 2.4 Grafik Hasil Klasterisasi Nilai Kompetensi Kualifikasi Akademik Dan Perencanaan & Pelaksanaan Pembelajaran

Pada gambar adalah hasil klasterisasi nilai kompetensi kualifikasi

akademik dan perencanaan & Pelaksanaan Pembelajaran. Terbangun 2 kelompok

dan bisa disimpulkan bahwa :

1. Kompetensi guru di Kab. Gresik dalam membuat RPP tergolong bagus

dan merata dari berbagai kualifikasi akademik.

2. Tanda (*) adalah kelompok guru-guru yang perlu mendapat perhatian

berkaitan dengan kualifikasi akademik yang dibawah rata-rata.

2.3.1 Tahapan Algoritma K-Means

Widyawati (2010) dalam skripsi Nango Dwi (2012), menyatakan proses

algoritma K-Means adalah sebagai berikut :

a. Pilih secara acak objek sebanyak k, objek – objek tersebut akan

(43)

b. Untuk setiap objek dimasukan kedalam cluster yang tingkat kemiripan

objek terhadap cluster tersebut tinggi. Tingkat kemiripan ditentukan

dengan jarak objek terhadap mean atau centroid cluster tersebut.

c. Hitung nilai centroid yang baru pada masing-masing cluster.

d. Proses tersebut diulang hingga anggota pada kumpulan cluster tersebut

tidak berubah.

Sedangkan menurut Adiningsih (2007) dalam skripsi Nango Dwi (2012)

tahap penyelesaian algoritma K-Means adalah sebagai berikut :

a. Menentukan K buah titik yang merepresentasikan obyek pada setiap

cluster (centroid awal).

b. Menetapkan setiap obyek pada cluster dengan posisi centroid terdekat.

c. Jika semua obyek sudah dikelompokkan maka dilakukan perhitungan

ulang dalam menentukan centroid yang baru.

d. Ulangi langkah ke-2 dan ke-3 sampai centroid tidak berubah.

Menurut Kurniawan dkk (2010) dalam skripsi Nango Dwi (2012),

(44)

Gambar 2.5 Cara Kerja Algoritma K-Means (Kurniawan dkk 2010)

Berikut penjelasan dari gambar, dengan algoritma K-means dilakukan cara

berikut hingga ditemukan hasil iterasi yang stabil :

a. Menentukan data centroid, pada sistem ini, ditentukan bahwa centroid

pertama adalah n data pertama dari data-data yang akan di-cluster.

b. Menghitung jarak antara centroid dengan masing-masing data.

c. Mengelompokkan data berdasarkan jarak minimum.

d. Jika penempatan data sudah sama dengan sebelumnya, maka stop. Jika

(45)

2.3.2 Euclidean Distance

Euclidean distance merupakan salah satu metode penghitungan jarak yang

paling sederhana. Jika terdapat n buah variabel maka perhitungan jarak

menggunakan metode Euclidean dinyatakan sebagai berikut:

Dimana x dan y merupakan dua objek yang dihitung jaraknya, x1, x2, ... ,

xn dan y1, y2, ... , yn merupakan atribut-atribut sebanyak n buah dari objek x dan y.

2.3.3 Beberapa Per masalah yang Ter kait dengan K-Means

Beberapa permasalahan yang sering muncul pada saat menggunakan

metode K-Means untuk melakukan pengelompokkan data adalah :

1. Ditemukannya beberapa model clustering yang berbeda.

2. Pemilihan jumlah clustering yang paling tepat.

3. Kegagalan untuk converge.

4. Pendeteksian outliers.

5. Bentuk masing – masing cluster.

6. Masalah overlapping.

Hal – hal diatas perlu diperhatikan pada saat penggunaan K-Means.

Permasalah pertama umumnya disebabkan oleh perbedaan proses inisialisasi

anggota masing – masing cluster. Proses inisialisasi yang sering digunakan adalah

(46)

2.3.4 Kelemahan dan Kelebihan Algoritma K-Means

Dalam penggunaan algoritma K-Means memiliki beberapa kelemahan dan

kelebihan, yaitu :

A. Kelebihan K-Means :

1. Selalu konvergen atau mampu melakukan klusterisasi.

2. Tidak membutuhkan operasi matematis yang rumit, bisa dibilang

operasinya sederhana.

3. Beban komputasi relatif lebih ringan, sehingga klusterisasi bisa dilakukan

dengan cepat walaupun relatif tergantung pada banyak jumlah data dan

jumlah cluster yang ingin dicapai.

B. Kekurangan K-Means

K-means memiliki banyak kelemahan, antara lain:

1. Jumlah cluster sebanyak K, harus ditentukan sebelum dilakukan

perhitungan.

2. Nilai centroids yang diberikan di awal bisa mempengaruhi hasil

klusterisasi apabila nilainya berbeda (sensitif terhadap nilai centroids

awal).

3. Solusi cluster yang dihasilkan hanya bersifat local optima, sehingga kita

tidak tahu apakah itu sudah merupakan konfigurasi optimal atau belum.

4. Tergantung pada mean ( rata – rata).

5. Algoritma K-Means hanya bisa digunakan untuk data yang atributnya

(47)

6. Tidak pernah mengetahui real cluster dengan menggunakan data yang

sama, namun jika dimasukkan dengan cara yang berbeda mungkin dapat

memproduksi cluster yang berbeda jika jumlah datanya sedikit.

7. Tidak tahu kontribusi dari atribut dalam proses pengelompokan karena

dianggap bahwa setiap atribut memiliki bobot yang sama.

Salah satu cara untuk mengatasi kelemahan itu adalah dengan

menggunakan K-means clustering namun hanya jika tersedia banyak data.

2.4 Penelitian Terdahulu

Berikut adalah tiga penelitian lain mengenai algoritma K-Means yang

terkait dengan penelitian ini adalah :

a. Analisa Pr ofil Data Mahasiswa Baru Univer sitas Stikubank

(UNISBANK) Semarang Tahun 2005-2010 Dengan Teknik Data

Mining

Universitas Stikubank (Unisbank) merupakan salah satu perguruan tinggi

yang sudah cukup lama berkembang dengan jumlah mahasiswa baru yang

diterima setiap tahun cukup banyak. Namun demikian ternyata data mengenai

mahasiswa baru belum banyak dimanfaatkan untuk kepentingan yang saling

berkait, diantaranya adalah mengenai objek dan wilayah tujuan promosi.

Dengan adanya teknik data mining, salah satunya adalah metode

klustering dengan K-means, diharapkan data mahasiswa baru dapat diolah

(48)

satu dasar dalam pengambilan keputusan, yaitu menentukan wilayah promosi

yang tepat.

Berikut adalah tabel hasil kluster program studi berdasarkan jumlah

mahasiswa baru :

Tabel 2.1 Hasil Kluster Program Studi Berdasarkan Jumlah Mahasiswa Baru

Berikut juga ditunjukkan tabel hasil kluster kota asal mahasiswa baru :

Tabel 2.2 Hasil Kluster Kota Asal Mahasiswa Baru

Dari sejumlah 173 kota asal mahasiswa baru, setelah melalui proses

klustering diperoleh tiga buah kluster dengan jumlah mahasiswa terbanyak dan

(49)

penerimaan mahasiswa baru dan promosi dalam menentukan kota tujuan promosi.

(J ur nal : Wahyudi, Eko Nur.Dkk. 2011.)

b. Penggunaan Metode Pengklasteran Untuk Menentukan Bidang Tugas

Akhir Mahasiswa Teknik Infor matika PENS Berdasar kan Nilai

Tugas Akhir merupakan salah satu kewajiban mahasiswa, khususnya di

PENS-ITS, yang harus dikerjakan sebagai syarat kelulusan. Namun tidak jarang

mahasiswa mengalami kesulitan dalam penyelesaian tugas akhir tersebut. Salah

satu penyebabnya adalah faktor kemampuan mahasiswa dalam bidang Tugas Akhir

yang dikerjakannya.

Penelitian ini membahas penggunaan metode clustering dan inner product

untuk menentukan bidang Tugas Akhir mahasiswa Teknik Informatika PENS-ITS

berdasarkan nilai yang didapat mulai dari semester pertama sampai dengan

semester sebeum penentuan judul TA. Tiap bidang disusun oleh mata kuliah-mata

kuliah tertentu. Nilai mata kuliah-mata kuliah tersebutlah yang digunakan sebagai

atribut data dalam sistem ini.

Metode clustering yang digunakan adalah Single Linkage Hierarchical,

Centroid Linkage Hierarchical, dan K-Means. Metode-metode clustering tersebut

digunakan untuk melakukan training data sehingga terbentuk cluster-cluster.

Cluster-cluster yang terbentuk kemudian dilabelkan dengan Inner Product. Inner

Product dilakukan dengan mengalikan centroid tiap cluster dengan nilai minimum

(dari data training) untuk atribut centroid (mata kuliah) yang tidak mempengaruhi

bidang TA dan mengalikan dengan nilai maximum (dari data training) untuk

(50)

diproses. Hasil Inner Product yang paling besar menunjukkan bahwa cluster

tersebut memiliki label bidang TA yang sedang diproses.

Pengujian dilakukan dengan data baru (data uji) yang memiliki atribut

(mata kuliah) yang sama dengan data training. Data uji tersebut dihitung jaraknya

menggunakan Euclidean Distance dengan masing-masing cluster yang telah

berlabel (bidang TA). Jarak yang terdekat menujukkan data tersebut merupakan

anggota cluster yang dimaksud yang berarti data baru tersebut termasuk ke bidang

yang diwakili cluster yang berjarak paling dekat tersebut. Dan berikut adalah hasil

uji coba penelitian dengan metode yang berbeda :

Gambar 2.6 Hasil Uji Coba Penelitian

Hasil percobaan menunjukkan bahwa metode centroid linkage memiliki

nilai variance (Vw/ Vb) paling kecil yang menandakan bahwa metode tersebut

(51)

K-Means pada kasus ini. (J urnal : Entin Martiana S.Kom, M.Kom, Nur Rosyid

Mubtada’i S. Kom, Edi Pur nomo.2009.)

c. Implementasi Algoritma K-Means Clustering Untuk Menentukan

Strategi Marketing President University

President University merupakan salah satu Universitas swasta yang cukup

terkenal di Indonesia. President University berlokasi di Kawasan Industri

Jababeka yang didalamnya beroperasi lebih dari 1000 perusahaan nasional dan

internasional. President University tumbuh sangat pesat setiap tahunnya.

Mahasiswa President University sangat banyak yang berasal dari berbagai daerah

di Indonesia. Tidak hanya berasal dari Indonesia, mahasiswa President University

pun banyak yang berasal dari luar Indonseia, seperti Vietnam, China, Korea dan

beberapa negara lainnya.

Oleh karena mahasiswa President University berasal dari berbagai daerah

bahkan hingga berbagai negara, maka dibutuhkan strategi khusus oleh bagian

marketing dalam melakukan pemasaran untuk mencari calon mahasiswa agar

promosi yang dilakukan lebih efektif dan effisien. Untuk dapat melakukan

promosi promosi yang lebih efektif dan effisien, maka dalam penelitian ini

dilakukan dengan cara mengolahan data-data yang telah didapatkan dari

mahasiswa yang telah lulus seperti nama mahasiswa, kota asal, jurusan yang

diambil dan yang terkahir adalah nilai IPK. Data-data yang telah didapatkan tadi

kemudian diolah untuk mengetahui pola dari data-data tersebut sehingga kita

dapat mengambil informasi-informasi yang tersembunyi dari data-data tersebut.

(52)

penelitian ini analisa data mining dilakukan dengan menggunakan metode

K-Means clustering. Dengan menggunakan metode ini, data – data yang telah

didapatkan dapat dikelompokan kedalam beberapa cluster berdasarkan kemiripan

dari data-data tersebut, sehingga data-data yang memiliki karakteristik yang sama

dikelompokan dalam satu cluster dan yang memliki karakteristik yang berbeda

dikelompokan dalam cluster yang lain yang memiliki karakteristik yang sama.

Berdasarkan hasil pengelompokan data menggunakan metode k-means

clustering, di dapatkan hasil clustering hingga iterasi ke-7, dimana titik pusat

tidak lagi berubah dan tidak ada data yang berpindah antar cluster. Hasil dari

clustering tersebut seperti pada tabel berikut :

Gambar 2.7 Hasil Clustering Menggunakan Algoritma K-Means

Dari hasil cluster 1, terlihat bahwa karakteristik mahasiswa pada cluster 1

didominasi oleh mahasiswa yang berasal dari jurusan Information Technology dan

Marketing. Sedangkan, berdasarkan kota asal didominasi oleh mahasiswa yang

(53)

disimpulkan bahwa rata-rata mahasiswa pada cluster 1 yang berasal dari wilayah

kota asal DKI Jakarta dan Jawa Barat mengambil jurusan Infromation Technology

dan Marketing.

Kemudian, dari hasil cluster 2 di atas dapat dilihat bahwa karakteristik

mahasiswa pada cluster 2 didominasi oleh mahasiswa yang berasal dari jurusan

Accounting dan International Business. Sedangkan, berdasarkan kota asal

didominasi oleh mahasiswa yang berasal dari wilayah kota asal DKI Jakarta dan

Jawa Barat, sehingga dapat disimpulkan bahwa rata-rata mahasiswa pada cluster 2

yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat mengambil

jurusan Infromation Technology dan Marketing.

Sedangkan, dari hasil cluster 3 di atas dapat dilihat bahwa karakteristik

mahasiswa pada cluster 3 didominasi oleh mahasiswa yang berasal dari jurusan

Public Relation, Accounting dan International Business. Sedangkan, berdasarkan

kota asal didominasi oleh mahasiswa yang berasal dari wilayah kota asal

Sulawesi, Jawa Timur dan Sumatera Selatan, sehingga dapat disimpulkan bahwa

rata-rata mahasiswa pada cluster 3 yang berasal dari wilayah kota asal Sulawesi,

Jawa Timur dan Sumatera Selatan mengambil jurusan Public Relation,

(54)

BAB III

METODE PENELITIAN

Perencanaan penelitian yang baik dan sistematis akan memudahkan

meningkatkan efektifitas penelitian dalam mencapai tujuan secara efisien.

Langkah-langkah dalam penelitian ini dapat dijelaskan secara urut sebagai

berikut:

3.1 Pengamatan Obyek

Pengamatan obyek ini dilakukan di Universitas Pembangunan Nasional

“Veteran” Jawa Timur. Waktu penelitian dilaksanakan pada bulan September

hingga data yang dibutuhkan tercukupi.

3.2 Identifikasi Variabel

Variabel adalah faktor yang mempunyai besaran dan variasi nilai. Variabel

itu sendiri terbagi menjadi dua yaitu variabel bebas dan variabel terikat.

a. Variabel Bebas

Variabel bebas merupakan variabel yang menjadi sebab timbulnya atau

berubahnya variabel dependen (terikat). Sehingga variabel independen dapat

dikatakan sebagai variabel yang mempengaruhi. Adapun variabel bebas dalam

penelitian ini adalah :

1. Program Studi

(55)

3. Jenis SMA

4. Pendapatan Orang Tua

b. Variabel Terikat

Variabel terikat adalah variabel yang berubahnya ditentukan oleh variabel

bebas. Adapun variabel terikat dalam penelitian ini adalah kelompok program

studi di Universitas Pembangunan Nasional “Veteran” Jawa Timur.

3.3 Pengumpulan Data

Data yang diperlukan disini adalah data-data yang dapat digunakan

sebagai variabel input yang diperlukan dalam pengolahan data nantinya yaitu data

sekunder.

Data sekunder diperoleh melalui Biro Admik UPN “Veteran” Jawa Timur.

Data yang didapat berupa program studi, asal kota, pendapatan orang tua dan jenis

SMA.

3.4 Pengolahan Data

Setelah data terkumpul langkah selanjutnya adalah melakukan pengolahan

data, sehingga diperoleh hasil yang dapat dipergunakan untuk memecahkan

masalah. Pengolahan data akan dilakukan dengan metode kualitatif dengan

menggunakan algoritma k-means untuk pengelompokkan data dan

(56)

3.5 Langkah-Langkah Penelitian dan Pemecahan Masalah

Berikut adalah flowchart langkah – langkah penelitian dan pemecahan

masalah :

Rumusan Masalah

Tujuan Penelitian

Identifikasi Variabel

Variabel Bebas Variabel Terikat

Pengumpulan Data :

Program Studi, Asal Kota, Pendapatan Orang Tua dan Jenis SMA

Menentukan Jumlah Kluster K

Hitung Nilai Centroid

A Mulai

(57)

Ya

Tidak

Gambar 3.1 Langkah-langkah Penelitian dan Pemecahan Masalah

Adapun tahapan penelitian yang akan dilakukan dalam proses penelitian

ini adalah sebagai berikut :

1. Studi Pustaka

Dengan mengumpulkan dan mempelajari literatur yang berkaitan dengan

konsep Data Mining clustering, yang menggunakan algoritma K-Means. Sumber

literatur berupa buku teks, paper, jurnal, karya ilmiah, dan situs-situs penunjang.

A

Menghitung jarak antara setiap record data dengan centroid awal

Mengelompokkan data record data dengan centroid awal

Analisa dan Pembahasan

Kesimpulan dan Saran

(58)

2. Studi Lapangan

Dengan mengumpulkan data dan informasi yang dibutuhkan dalam

penelitian ini. Data dan informasi didapat dari Biro Admik UPN Veteran Jawa

Timur. Setelah dilakukan studi pustaka dan studi lapangan, maka membuat suatu

perumusan masalah.

3. Tujuan Penelitian

Membuat tujuan berdasarkan penelitian yang akan dilakukan.

4. Identifikasi Variabel

Melakukan identifikasi variabel berdasarkan penelitian yang dilakukan,

yaitu program studi, asal kota, pendapatan orang tua dan jenis SMA.

5. Pengumpulan Data

Setelah melakukan identifikasi variabel, maka dilakukan pengumpulan

data mahasiswa baru yang meliputi: program studi, kota asal, pendapatan orang

tua dan jenis SMA.

6. Clustering Menggunakan Algoritma K-Means

Pada tahap ini terdapat beberapa proses sebagai berikut :

a. Tentukan k sebagai jumlah cluster yang ingin dibentuk.

b. Bangkitkan k centroids (titik pusat cluster) awal secara random.

c. Hitung masing-masing jarak setiap data ke masing-masing centroids.

d. Setiap data memilih centroids yang terdekat.

e. Tentukan posisi centroids baru dengan cara menghitung nilai rata-rata dari

(59)

f. Kembali ke langkah 3 jika posisi centroids baru dengan centroids lama

tidak sama.

7. Analisis dan Pembahasan

Tahapan untuk menganalisa hasil yang sudah diperoleh pada proses

clustering.

8. Kesimpulan dan Saran

Setelah pengolahan dan analisa data, maka langkah selanjutnya adalah

menarik kesimpulan, kemudian diberikan juga saran sebagai rekomendasi yang

dapat memberikan manfaat bagi peneliti maupun pihak UPN Veteran Jawa Timur.

(60)

BAB IV

HASIL PENELITIAN DAN PEMBAHASAN

Pada bab ini akan dijelaskan secara rinci mengenai pengumpulan data-data

yang diperlukan dalam penelitian dan juga proses pengolahan data hingga

diperoleh hasil yang diinginkan sesuai kerangka kerja yang telah ditetapkan. Bab

ini juga berisikan mengenai analisa dan pembahasan dari hasil pengolahan data

yang telah dilakukan sebelumnya.

4.1 Pengumpulan Data

Data yang digunakan untuk pengolahan data nantinya yaitu data sekunder

yang diperoleh melalui Biro Admik UPN “Veteran” Jawa Timur, yang berupa

data program studi, pendapatan orang tua, asal kota dan jenis SMA. Berikut

merupakan hasil pengumpulan data mahasiswa baru semester 1 yang telah

(61)

Tabel 4.1 Pengumpulan Data Mahasiswa Baru Universitas Pembangunan Nasional “Veteran” Jawa Timur

Sumber : Data Sekunder Biro Admik Universitas Pembangunan Nasional “Veteran” Jawa Timur

Berdasarkan tabel di atas, untuk program studi hanya dilakukan

pengkodean. Untuk keterangan dapat dilihat sebagai berikiut :

11 : Ekonomi Pembangunan

(62)

32 : Teknik Industri

33 : Teknik Pangan

34 : Teknik Informatika

35 : Sistem Informasi

41 : Ilmu Admin Negara

42 : Ilmu Admin Niaga

43 : Ilmu Komunikasi

44 : Hubungan Internasional

51 : Teknik Arsitektur

52 : Teknik Lingkungan

53 : Teknik Sipil

54 : Desain Komunikasi Visual

71 : Ilmu Hukum

Untuk memudahkan dalam mengetahui jumlah asal kota mahasiswa dari

setiap program studi, maka dari kota yang ada akan dikelompokkan menjadi

beberapa wilayah sebagai berikut :

Wilayah I : yaitu Indonesia bagian Timur yang mencakup pulau Jawa, Sumatra,

serta Kalimantan.

Wilayah II : yaitu Indonesia bagian Tengah yang mencakup Sulawesi, Kepulauan

Sunda Kecil.

Wilayah III : yaitu Indonesia bagian Barat yang mencakup Maluku, Papua.

Untuk pendapatan orang tua mahasiswa dari setiap program studi juga

(63)

Pendapatan Orang Tua I = 1 jt – 2,5 jt

Pendapatan Orang Tua II = 2,6jt – 5 jt

Pendapatan Orang Tua 3 = < 5jt

Berdasarkan tabel 4.1, dapat dilihat bahwa telah terjadi ketidakseimbangan

peminat antara program studi satu dengan yang lain dimana ada program studi

yang memiliki banyak peminat dan sedikit peminat. Selain itu, ketidakseimbangan

peminat juga tidak terjadi pada program studi saja, melainkan dari jenis SMA dan

asal kota mahasiswa.

4.2 Pengolahan Data

Dari hasil pengumpulan data tersebut, maka dilakukan suatu pengolahan

data dimana data yang ada akan dikelompokkan ke dalam beberapa cluster dengan

menggunakan Algoritma K-Means dengan bantuan software Matlab. Berikut akan

dijelaskan mengenai langkah – langkah pengolahan data dari penelitian yang

dilakukan :

1. Menentukan jumlah cluster yang akan dibuat. Dalam penelitian ini jumlah

cluster yang akan dibuat yaitu sebanyak 3.

2. Menentukan nilai pusat cluster. Dalam penelitian ini nilai pusat awal

ditentukan secara random dan didapat nilai pusat dari setiap cluster. Untuk

nilai pusat cluster awal dapat dilihat pada lampiran I.1.

3. Menghitung jarak antara centroid dengan masing-masing data. Dalam

(64)

dekat antara satu data dengan satu cluster tertentu akan menentukan suatu

data masuk dalam cluster mana, hasil dapat dilihat pada tabel 4.2 berikut :

Tabel 4.2 Jarak Setiap Data dengan Pusat Kluster Iterasi 1

Jarak 1 Jarak 2 Jarak 3

4. Memasukkan data ke dalam setiap kluster. Setelah menghitung jarak setiap

data, langkah selanjutnya adalah mengelompokkan data berdasarkan hasil

minimum jarak. Hasil kluster data dapat dilihat pada tabel 4.3. Untuk hasil

pengolahan data lebih jelasnya dapat dilihat pada lampiran I.2.

Tabel 4.3 Hasil Kluster Data Berdasar Jarak Minimum Iterasi 1

Kluster Program Studi Keterangan

1

Ekonomi Pembangunan

Mahasiswa yang berasal dari SMA 489 mahasiswa, SMK 188 mahasiswa, pendapatan orang tua I 245 mahasiswa, pendapatan orang tua

II 235 mahasiswa, pendapatan orang tua III 197 mahasiswa, Wilayah I 651 mahasiswa, Wilayah II

(65)

5. Menghitung pusat cluster baru. Dengan diketahuinya anggota cluster,

kemudian dilakukan perhitungan kembali pusat cluster baru dengan

keanggotaan cluster yang sekarang. Pusat cluster adalah rata-rata dari

semua obyek dalam masing-masing cluster. Untuk hasil pusat kluster

iterasi 2 dapat dilihat pada lampiran II.1

6. Menghitung jarak dari masing-masing data. Dari hasil perhitungan

menggunakan pusat cluster iterasi 2 maka diperoleh jarak sebagaiberikut:

Tabel 4.4 Jarak Setiap Data dengan Pusat Kluster Iterasi 2

Jarak 1 Jarak 2 Jarak 3

Kluster Program Studi Keterangan

2

Manajemen _{Mahasiswa yang berasal dari SMA 1047}

mahasiswa, SMK 364 mahasiswa, pendapatan orang tua I 302 mahasiswa, pendapatan orang tua

II 523 mahasiswa, pendapatan orang tua III 586 mahasiswa, Wilayah I 1381 mahasiswa, Wilayah

II 17 mahasiswa, wilayah III 13 mahasiswa. Akuntansi

Teknik Industri Teknik Informatika Ilmu Komunikasi

3

Teknik Kimia Mahasiswa yang berasal dari SMA 408

mahasiswa, SMK 55 mahasiswa, pendapatan orang tua I 149 mahasiswa, pendapatan orang tua

II 221 mahasiswa, pendapatan orang tua III 93 mahasiswa, Wilayah I 450 mahasiswa, Wilayah II

9 mahasiswa, wilayah III 4 mahasiswa. Ilmu Admin Niaga