• Tidak ada hasil yang ditemukan

SISTEM INFORMASI GEOGRAFIS PEMETAAN PERSEBARAN ALUMNI DENGAN ANALISA CLUSTERING

N/A
N/A
Protected

Academic year: 2021

Membagikan "SISTEM INFORMASI GEOGRAFIS PEMETAAN PERSEBARAN ALUMNI DENGAN ANALISA CLUSTERING"

Copied!
93
0
0

Teks penuh

(1)

TESIS

SISTEM INFORMASI GEOGRAFIS PEMETAAN

PERSEBARAN ALUMNI DENGAN ANALISA

CLUSTERING

I KADEK DWI GANDIKA SUPARTHA

FAKULTAS TEKNIK

UNIVERSITAS UDAYANA

DENPASAR

2018

(2)

SISTEM INFORMASI GEOGRAFIS PEMETAAN

PERSEBARAN ALUMNI DENGAN ANALISA

CLUSTERING

MPUL DALAM

I KADEK DWI GANDIKA SUPARTHA 1091761003

PROGRAM MAGISTER

PROGRAM STUDI TEKNIK ELEKTRO

FAKULTAS TEKNIK

UNIVERSITAS UDAYANA

DENPASAR

(3)

SISTEM INFORMASI GEOGRAFIS PEMETAAN

PERSEBARAN ALUMNI DENGAN ANALISA CLUSTERING

Tesis untuk Memperoleh Gelar Magister

pada Program Magister, Program Studi Teknik Elektro, Program Pascasarjana Universitas Udayana

I KADEK DWI GANDIKA SUPARTHA 1091761003

PROGRAM MAGISTER

PROGRAM STUDI TEKNIK ELEKTRO

FAKULTAS TEKNIK

UNIVERSITAS UDAYANA

DENPASAR

(4)

TESIS INI TELAH DISETUJUI PADA TANGGAL 30 AGUSTUS 2018

Pembimbing I, Pembimbing II,

Dr. Ir. Made Sudarma, M.A.Sc Dr. Dewa Made Wiharta, ST,.MT NIP. 196512311993031189 NIP. 197009221997021001

Mengetahui

Koordinator Program Studi Magister Teknik Elektro Fakultas Teknik

Universitas Udayana,

Dekan

Fakultas Teknik Universitas Udayana

Ir. Linawati.M.Eng,Sc, Ph.D Prof. Ir. Ngakan Putu Gede Suardana,MT,Ph.D NIP. 196608241991032001 NIP. 196409171989031002

(5)

LEMBAR PENETAPAN PANITIA PENGUJI TESIS

Tesis Ini Telah Diuji pada Tanggal 30 Agustus 2018

Panitia Penguji Tesis Berdasarkan SK Rektor

Universitas Udayana, Nomor : 4525/UN14.2.5/EP/2018 tanggal 24 Agustus 2018

Ketua : Dr. Ir. Made Sudarma, M.A.Sc. Anggota :

1. Dr. Dewa Made Wiharta, ST,.MT. 2. Nyoman Pramaita, ST., MT., Ph.D. 3. Ir. Linawati, M.Eng.Sc,Ph.D. 4. Dr. Nyoman Gunantara, ST., MT.

(6)

Nama : I Kadek Dwi Gandika Supartha

Nim : 1091761003

Program Studi : Magister Teknik Elektro

Judul : Sistem Informasi Geografis Pemetaan Persebaran Alumni dengan Analisa Clustering

Dengan ini menyatakan bahwa karya ilmiah tesis ini bebas plagiat. Apabila dikemudian hari terbukti terdapat plagiat dalam karya ilmiah ini, maka saya bersedia menerima sanksi sesuai peraturan Mendiknas RI No. 17 Tahun 2010 dan Peraturan Perundang-undang yang berlaku.

Denpasar, 30 Agustus 2018 Yang membuat pernyataan

Materai 6000

(7)

UCAPAN TERIMA KASIH

Puji syukur kita panjatkan kehadirat Tuhan Yang Maha Esa atas segala rahmat dan hidayah-Nya penulis dapat menyelesaikan tesis dengan judul Sistem Informasi Geografis Pemetaan Persebaran Alumni dengan Analisa Clustering. Pada kesempatan ini perkenankanlah penulis mengucapkan terima kasih yang sebesar-besarnya kepada Dr. Ir. Made Sudarma, M.A.Sc sebagai pembimbing I yang dengan penuh perhatian telah memberikan dorongan, semangat, bimbingan, dan saran selama penulis mengikuti Program Magister, khususnya dalam penyelesaian Tesis ini. Terima kasih sebesar-besarnya pula penulis sampaikan kepada Dr. Dewa Made Wiharta, ST,.MT sebagai Pembimbing II yang dengan penuh perhatian dan kesabaran telah memberikan bimbingan dan saran kepada penulis.

Ucapan yang sama juga ditujukan kepada Rektor Universitas Udayana Prof. Dr.dr. A.A. Raka Sudewi, Sp.S (K) atas kesempatan dan fasilitas yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister di Universitas Udayana. Ucapan terima kasih ini juga ditujukan kepada Dekan Fakultas Teknik Universitas Udayana yang dijabat oleh Prof. Ir. Ngakan Putu Gede Suardana,MT,Ph.D atas kesempatan yang diberikan kepada penulis untuk menjadi mahasiswa Program Magister pada Fakultas Teknik Universitas Udayana. Pada kesempatan ini, penulis juga menyampaikan rasa terima kasih kepada Ir. Linawati.M.Eng,Sc, Ph.D, selaku Ketua Program Studi Magister Teknik Elektro. Ungkapan terima kasih penulis sampaikan pula kepada para penguji tesis, yaitu Nyoman Pramaita, ST., MT., Ph.D, Ir. Linawati.M.Eng,Sc, Ph.D., Dr. Nyoman

(8)

Orang tuaku tercinta Alm I Made Arga Suparta dan Ni Made Suadnyani yang tiada hentinya memberikan doa, semangat, dan pengorbanan yang sangat besar. Saudaraku I Gede Adnya Puspa Supartha dan Ni Komang Ayu Fitri Pratiwi yang selalu menjadi motivasi selama pengerjaan tesis. Komang Sri Antari yang selalu dengan sabar memberikan semangat dan dukungannya dari awal sampai tesis ini selesai. Teman-teman seperjuangan Magister Sistem Komputer dan Informasi atas semangat dan dukungannya. Semua pihak yang telah membantu dalam penyusunan laporan ini yang tidak dapat kami sebutkan satu per satu.

Penulis menyadari bahwa penulisan tesis yang telah dibuat masih jauh dari kesempurnaan. Oleh karena itu, penulis sangat mengharapkan kritik dan saran yang membangun dari pembaca.

Denpasar, Agustus 2018

(9)

SISTEM INFORMASI GEOGRAFIS PEMETAAN PERSEBARAN ALUMNI DENGAN ANALISA CLUSTERING

ABSTRAK

STMIK STIKOM Indonesia (STIKI Indonesia) merupakan salah satu perguruan tinggi yang berlokasi di Denpasar Bali dan telah memiliki data alumni yang cukup banyak, tetapi data tersebut kurang dimaksimalkan karena tidak diolah lebih lanjut untuk menjadi informasi yang lebih berguna dan pada saat ini STIKI Indonesia kurang mengetahui informasi persebaran alumni secara spesifik di dunia kerja karena belum adanya sistem yang bisa melakukan hal tersebut. Untuk mengatasi permasalah tersebut diatas dapat memanfaatkan teknologi Sistem Informasi Geografis (SIG) dan data mining. Dimana SIG memiliki kemampuan untuk menyajikan informasi dalam bentuk grafis dengan menggunakan peta sebagai antar muka, sehingga persebaran alumni dapat diketahui secara spesifik dan data mining adalah proses untuk mengekstraksi atau mendeteksi pola-pola yang tersembunyi dari sebuah database besar. Clustering dilakukan pada data alumni dengan atribut bidang pekerjaan, Indeks Prestasi Komulatif (IPK), lama study dan lama pengerjaan tugas akhir. Metode yang digunakan yaitu Fuzzy C-Means (FCM) dan untuk pengukuran validitas cluster menggunakan Modified Partition

Coefficient (MPC) (untuk mengukur cluster yang mengalami overlap) dan Classification Entropy (CE) (untuk mengukur tingkat kekaburan/fuzziness dari

partisi cluster. Berdasarkan indeks validitas CE dan MPC pada clustering alumni dengan dua atribut, jumlah cluster yang paling optimal adalah 2 cluster dan yang memiliki karakteristik terbaik adalah adalah cluster ke 1 dimana memiliki anggota sebanyak 367 orang (69,77% dari jumlah keseluruhan alumni). Pada clustering alumni dengan tiga atribut, jumlah cluster yang paling optimal adalah 2 cluster dan

cluster yang memiliki karakteristik terbaik adalah cluster ke 1 yang memiliki

anggota sebanyak 403 orang (76,62% dari jumlah keseluruhan alumni). Pada

clustering alumni dengan empat atribut, jumlah cluster yang paling optimal adalah

2 cluster dan cluster yang memiliki karakteristik terbaik adalah cluster ke 2 yang jumlah anggotanya 357 (67,87% dari jumlah keseluruhan alumni). Dari hasil tersebut dilihat bahwa alumni STIKI Indonesia yang memiliki karakteristik ideal jumlahnya cukup banyak dibanding dengan total keseluruhan alumni. Pada pengujian menggunakan metode black box testing pada Sistem Informasi Geografis Pemetaan Persebaran Alumni dengan Analisa Clustering didapatkan hasil bahwa semua modul dalam sistem telah berfungsi dengan baik dan dapat menampilkan informasi sesuai dengan yang dirancang.

(10)

x SISTEM INFORMASI GEOGRAFIS PEMETAAN PERSEBARAN

ALUMNI DENGAN ANALISA CLUSTERING ABSTRACT

STMIK STIKOM Indonesia (STIKI Indonesia) is one of the universities located in Denpasar Bali and has a lot of alumni data, but the data is not maximized because it is not processed further to become more useful information and at this time STIKI Indonesia lacks knowledge information on alumni distribution because there is no system that can do this. To overcome these problems above can utilize the technology of Geographic Information Systems (GIS) and data mining. GIS has the ability to present information in graphical form by using maps as interfaces, so that the distribution of alumni can be specifically identified and data mining is the process of extracting or detecting hidden patterns from a large database. Clustering is performed on data of alumni with the attributes field of work, cumulative grade point (GPA), long long study and final project. The method used is Fuzzy C-Means (FCM) and for cluster validity measurement using Modified Partition Coefficient (MPC) (to measure clusters that experience overlap) and Classification Entropy (CE) (to measure the level of blur / fuzziness of the cluster partition. Based on the validity index of CE and MPC on alumni clustering with two attributes, the most optimal number of clusters is 2 clusters and the best characteristic is the cluster 1 with 367 members (69,77% of the total alumni). In alumni clustering with three attributes, the most optimal number of clusters is 2 clusters and clusters that have the best characteristics is cluster 1 which has 403 members (76,62% of the total alumni). In alumni clustering with four attributes, the most optimal number of clusters is 2 clusters and clusters that have the best characteristics are cluster 2 with 357 members (67,87% of the total alumni). From these results it was seen that the STIKI Indonesia alumni who had ideal characteristics were quite large compared to the total alumni. In the test using the black box testing method in the Geographic Information System for Alumni Distribution Mapping with Clustering Analysis, the results show that all modules in the system are functioning properly and can display information in accordance with the design.

(11)

xi DAFTAR ISI

SAMPUL DALAM ... ii

LEMBAR PENGESAHAN ... iv

LEMBAR PENETAPAN PANITIA PENGUJI TESIS ... v

SURAT PERNYATAAN BEBAS PLAGIAT... vi

UCAPAN TERIMA KASIH ... vii

ABSTRAK ... ix

ABSTRACT ... x

DAFTAR ISI ... xi

DAFTAR TABEL ... xiii

DAFTAR GAMBAR ... xiv

DAFTAR LAMPIRAN ... xvi

BAB I PENDAHULUAN ... 1 1.1 Latar Belakang ... 1 1.2 Rumusan Masalah ... 4 1.3 Tujuan Penulisan ... 4 1.4 Manfaat ... 4 1.5 Ruang Lingkup... 5 1.6 Keaslian Penelitian... 5

BAB II DASAR TEORI ... 7

2.1 State of The Art ... 7

2.2 Data Mining ... 11

2.2.1 Tugas Data Mining ... 12

2.2.2 CRISP-DM ... 14

2.3 Himpunan Fuzzy ... 16

2.4 Clustering ... 17

2.4.1 Hard Clustering dan Fuzzy Clustering ... 18

2.4.2 Metode Fuzzy C-Means Clustering ... 18

2.5 Ukuran Validitas Cluster ... 20

(12)

xii

2.7 Pengujian Perangkat Lunak ... 25

BAB III METODE PENELITIAN... 28

3.1 Tempat dan Waktu Penelitian ... 28

3.2 Data ... 28

3.2.1 Sumber Data ... 28

3.2.2 Jenis Data ... 28

3.2.3 Teknik Pengumpulan Data ... 28

3.3 Gambaran Umum Penelitian ... 29

3.3.1 Pengumpulan Data ... 31

3.3.2 Data Preprosesing ... 31

3.3.3 Data Mining ... 34

3.3.4 Pemetaan dengan Google Maps ... 36

3.4 Jadwal Pelaksanaan Kegiatan ... 39

BAB IV ANALISA DATA DAN PEMBAHASAN ... 40

4.1 Implementasi Clustering dengan Algoritma Fuzzy C-Means ... 40

4.2 Implementasi Sistem Informasi Geografis Alumni ... 41

4.3 Hasil uji coba ... 46

4.3.1 Clustering Data Alumni dengan Dua Atribut ... 46

4.3.2 Analisis Cluster dengan Dua Atribut ... 52

4.3.3 Clustering Data Alumni dengan Tiga Atribut ... 54

4.3.4 Analisis Cluster dengan Tiga Atribut ... 59

4.3.5 Clustering Data Alumni dengan Empat Atribut ... 60

4.3.6 Analisis Cluster dengan Empat Atribut ... 64

4.3.7 Pengujian Black Box Testing ... 66

BAB V SIMPULAN DAN SARAN ... 71

5.1 Simpulan ... 71

5.2 Saran ... 71

DAFTAR PUSTAKA ... 73

(13)

xiii DAFTAR TABEL

Tabel 3.1 Atribut Sebelum Seleksi Data ... 32

Tabel 3.2 Seleksi Data... 32

Tabel 3.3 Konversi Atribut Bidang Kerja ... 34

Tabel 4.1. Koordinat Titik Pusat Cluster (Jumlah Cluster = 2) ... 47

Tabel 4.2. Koordinat Titik Pusat Cluster (Jumlah Cluster = 3) ... 48

Tabel 4.3. Koordinat Titik Pusat Cluster (Jumlah Cluster = 4) ... 50

Tabel 4.4. Koordinat Titik Pusat Cluster (Jumlah Cluster = 5) ... 51

Tabel 4.5. Koordinat Titik Pusat Cluster (Jumlah Cluster = 6) ... 52

Tabel 4.6. Indek MPC dan CE pada Algoritma FCM ... 53

Tabel 4.7 Nilai Titik Pusat Cluster ... 53

Tabel 4.8. Koordinat Titik Pusat Cluster (Jumlah Cluster = 2) ... 55

Tabel 4.9. Koordinat Titik Pusat Cluster (Jumlah Cluster = 3) ... 56

Tabel 4.10. Koordinat Titik Pusat Cluster (Jumlah Cluster = 4) ... 57

Tabel 4.11. Koordinat Titik Pusat Cluster (Jumlah Cluster = 5) ... 59

Tabel 4.12. Indek MPC dan CE pada Algoritma FCM ... 59

Tabel 4.13. Koordinat Titik Pusat Cluster (Jumlah Cluster = 2) ... 61

Tabel 4.14. Koordinat Titik Pusat Cluster (Jumlah Cluster = 3) ... 62

Tabel 4.15. Koordinat Titik Pusat Cluster (Jumlah Cluster = 4) ... 63

Tabel 4.16. Koordinat Titik Pusat Cluster (Jumlah Cluster = 5) ... 64

Tabel 4.17. Indek MPC dan CE pada Algoritma FCM ... 65

(14)

xiv DAFTAR GAMBAR

Gambar 1.1 Diagram Fish Bone Keaslian Penelitian... 6

Gambar 2.1 Proses KDD ... 11

Sumber: Fayyad dkk, 1996 ... 11

Gambar 2.2 Tahapan dalam Proses Knowledge Discovery in Database ... 12

Sumber: Tan dkk, 2006 ... 12

Gambar 2.3 Empat Tugas Inti Data Mining ... 13

Sumber: Tan dkk, 2006 ... 13

Gambar 2.4 Siklus Hidup CRISP-DM ... 14

Sumber: Chapman, 2000 ... 14

Gambar 2.5. Contoh Proses Clustering ... 17

Sumber: Jansen, 2007 ... 17

Gambar 2.6. Hard dan Fuzzy Clustering ... 18

Sumber: Jansen, 2007 ... 18

Gambar 2.7 Sub Sistem SIG ... 23

Sumber: Prahasta 2005 ... 23

Gambar 2.8 Komponen Sistem Informasi Geografis ... 24

Sumber: Ekadinata,2008 ... 24

Gambar 2.9 Kategori Sistem Informasi Geografis ... 25

Sumber: Riyanto, 2010 ... 25

Gambar 3.1 Gambaran Umum penelitian ... 30

Gambar 3.2 Clustering Fuzzy C Means ... 35

Gambar 3.3 Rancangan Tampilan Utama ... 37

Gamber 3.4 Rancangan Form Manipulasi Data Alumni ... 37

Gambar 3.5 Rancangan Tabel ... 39

Gambar 4.1 Form Clustering Data Alumni ... 40

Gambar 4.2 Halaman Utama Sistem Informasi Geografis Alumni ... 41

Gambar 4.3 Halaman Pengelolaan Data Provinsi ... 42

Sistem Informasi Geografis Alumni ... 42

Gambar 4.4 Halaman Pengelolaan Data Kabupaten ... 42

Sistem Informasi Geografis Alumni ... 42

Gambar 4.5 Halaman Pengelolaan Data Kecamatan ... 43

Sistem Informasi Geografis Alumni ... 43

Gambar 4.6 Halaman Pengelolaan Data Cluster... 43

Gambar 4.7 Halaman Manipulasi Data Alumni ... 44

Sistem Informasi Geografis Alumni ... 44

Gambar 4.8 Halaman Lokasi Alumni ... 45

Sistem Informasi Geografis Alumni ... 45

(15)

xv

Sistem Informasi Geografis Alumni ... 45

Gambar 4.10. Hasil Clustering Menggunakan FCM 2 Atribut dengan 2 Cluster 47 Gambar 4.11. Hasil Clustering Menggunakan FCM 2 Atribut dengan 3 Cluster 48 Gambar 4.12. Hasil Clustering Menggunakan FCM 2 Atribut dengan 4 Cluster 49 Gambar 4.13. Hasil Clustering Menggunakan FCM 2 Atribut dengan 5 Cluster 50 Gambar 4.14. Hasil Clustering Menggunakan FCM 2 Atribut dengan 6 Cluster 51 Gambar 4.15. Hasil Clustering Menggunakan FCM 3 Atribut dengan 2 Cluster 55 Gambar 4.16. Hasil Clustering Menggunakan FCM 3 Atribut dengan 3 Cluster 56 Gambar 4.17. Hasil Clustering Menggunakan FCM 3 Atribut dengan 4 Cluster 57 Gambar 4.18. Hasil Clustering Menggunakan FCM 3 Atribut dengan 5 Cluster 58 Gambar 4.19. Hasil Clustering Menggunakan FCM 4 Atribut dengan 2 Cluster 61 Gambar 4.20. Hasil Clustering Menggunakan FCM 4 Atribut dengan 3 Cluster 62 Gambar 4.21. Hasil Clustering Menggunakan FCM 4 Atribut dengan 4 Cluster 63 Gambar 4.22. Hasil Clustering Menggunakan FCM 4 Atribut dengan 5 Cluster 64 Gambar 4.23. Pengujian Tampilan Awal ... 66

Gambar 4.24. Pengujian Fasilitas Pencarian ... 67

Gambar 4.25. Pengujian Menampilkan Data Alumni ... 68

(16)
(17)

1 BAB I PENDAHULUAN

1.1 Latar Belakang

STMIK STIKOM Indonesia (STIKI Indonesia) merupakan salah satu perguruan tinggi yang berlokasi di Denpasar Bali dan beroperasi menerima mahasiswa baru sejak tahun 2008, sampai saat ini memiliki mahasiswa kurang lebih sebanyak 5.000 orang. Tahun 2012 untuk pertama kalinya STIKI Indonesia meluluskan mahasiswa angkatan pertama dan STIKI Indonesia telah memiliki alumni kurang lebih 700 orang. Mahasiswa yang telah lulus dari STIKI Indonesia ditampung dalam sebuah organisasi dengan nama Ikatan Alumni STIKI Indonesia (IKA-STIKI). IKA-STIKI dikelola oleh bagian alumni dan pusat karir yang berada dibawah bagian kemahasiswaan. Bagian ini memiliki tugas utama untuk mengelola data alumni dan menjaga hubungan baik antara STIKI Indonesia dengan semua alumninya.

IKA-STIKI Indonesia secara berkala melakukan pendataan alumni yang dilakukan dengan cara tracer study, dengan tujuan untuk mengetahui persebaran alumni di dunia kerja dan data alumni seperti lama study, dan Indeks Prestasi Komulatif (IPK) diperoleh dari bagian akademik. Data alumni yang sudah terkumpul cukup banyak tapi kurang dimaksimalkan dan diolah menjadi sebuah informasi yang mungkin akan berguna bagi STIKI Indonesia. Kondisi seperti ini biasanya disebut dengan istilah “rich of data but poor of information”. Pada saat ini STIKI Indonesia kurang mengetahui informasi persebaran alumni secara spesifik di dunia kerja karena belum adanya sistem yang bisa melakukan hal tersebut. Untuk mengatasi permasalah tersebut diatas dapat memanfaatkan teknologi Sistem Informasi Geografis (SIG) dan data mining. Dimana SIG memiliki kemampuan untuk menyajikan informasi dalam bentuk grafis dengan menggunakan peta sebagai antar muka (Handoko 2012), sehingga persebaran alumni dapat diketahui secara spesifik. Data mining dapat dimanfaatkan untuk memperoleh informasi yang tersembunyi dari kumpulan data almuni.

(18)

Menurut Berry dan Linoff (2004) data mining adalah proses untuk mengekstraksi atau mendeteksi pola-pola yang tersembunyi dari sebuah database besar. Salah satu metode yang diterapkan dalam data mining adalah clustering. Menurut Jain (1999), teknik clustering pada data mining digunakan untuk mengelompokkan objek-objek yang memiliki kemiripan dalam kelas atau segmen yang sama, sementara objek-objek yang terletak pada kelas yang berbeda akan menunjukkan karakteristik yang berbeda juga. Dengan menggunakan teknik

clustering pada database yang besar maka akan menghemat waktu, tenaga dan juga

dapat memberikan hasil yang lebih maksimal.

Pada penelitian ini akan melakukan clustering terhadap data alumni dan hasilnya ditampilkan dalam bentuk Sistem Informasi Geografis (SIG) berbasis web. Atribut yang akan digunakan dalam melakukan clustering yaitu: bidang pekerjaan, Indeks Prestasi Komulatif (IPK), lama study dan lama pengerjaan tugas akhir. Hasil penelitian ini diharapkan dapat dimanfaatkan oleh STIKI Indonesia dalam membantu proses pengambilan kebijakan seperti peninjauan kurikulum atau perbaikan silabus.

Pada tahun 2012 Slamet Handoko melakukan penelitian tentang clustering data alumni Politeknik Negeri Semarang (IKA POLINES) dengan metode K-Means dan hasilnya disajikan dalam bentuk peta digital berbasis web. Mekanisme pengelompokan atau clustering didasarkan pada empat atribut yaitu: jenis perusahaan, klasifikasi jabatan, bidang kerja dan kompetensi prodi. Sedangkan letak geografis alumni akan digunakan sebagai fitering data pada saat pengguna memilih lokasi pemetaan alumni di suatu wilayah. Dalam penelitian ini cluster dibagi menjadi tiga yaitu:

1. Alumni dengan bidang kerja sesuai dengan kompetensi,

2. Alumni dengan bidang kerja kurang sesuai dengan kompetensi dan 3. Alumni dengan bidang kerja tidak sesuai dengan kompetensi.

Berdasarkan data yang diperoleh, hasil menunjukkan 51 alumni bekerja sesuai dengan kompetensinya, sedangkan 23 alumni dengan pekerjaan kurang sesuai dan 26 alumni tidak sesuai dengan kompetensinya. Hasil dari penelitian ini digunakan untuk membantu pengambilan keputusan apakah perlu mengadakan

(19)

3

perubahan kurikulum atau tidak. Dalam penelitian ini hasil clustering tidak mengalami proses validasi sehingga hasil cluster belum tentu merupakan cluster yang paling baik.

Secara umum ada tiga metode yang bisa digunakan dalam analisis

clustering yaitu: (1) menggunakan metode statistik, (2) metode kompleks dan (3)

kecerdasan buatan. Metode yang akan digunakan dalam melakukan cluster data alumni adalah metode fuzzy clustering (metode kompleks) , yaitu dengan algoritma

Fuzzy C-Means Clustering (FCM). Pengelompokan dengan logika fuzzy terus

berkembang karena pada umumnya data tidak bisa dipisahkan secara tegas ke dalam kelompok, tetapi memiliki kecenderungan yang dinyatakan dengan derajat keanggotaan, yang bernilai antara 0 dan 1 terhadap pengelompokannya (Hoppner 2014). FCM memiliki tingkat akurasi yang tinggi dan waktu komputasi yang cepat (Hammouda, 2000), juga dapat memberikan hasil yang halus dan cukup efektif untuk meningkatkan homogenitas tiap cluster yang dihasilkan (Shihab, 2000). Algoritma FCM merupakan algoritma supervised clustering (jumlah cluster ditentukan).

Tahun 2016 Paulus Mudjihartono melakukan clustering terdahap data alumni dengan pendekatan metode optimasi dengan nama Abandoned and Reborn

Particle Swarm Optimization (AR-PSO) dengan tujuan untuk meminimalisasi hasil cluster yang tidak diinginkan. Data yang digunakan yaitu data alumni Jurusan Ilmu

komputer yang berisikan data program kursus yang diikuti dan jangka waktu pengerjaan tugas akhir. Pada pengujian hasilnya dibandingkan metode K-Means, DBSCN dan Agglomerative kemudian hasil clustering dievaluasi yaitu the

closeness, the separation dan the purity. Hasil menunjukkan bahwa metode

AR-PSO setara dengan metode K-Means dan mengungguli dua metode lainnya. Berdasarkan penelitian tersebut maka dalam penelitian ini diusulkan untuk melakukan proses validasi terhadap hasil clustering yang telah dilakukan sebelumnya. Untuk memvalidasi apakah partisi fuzzy yang diterapkan dalam proses

clustering sesuai dengan data, digunakan indeks pengukuran validitas cluster (Wu

dan Yang, 2005), metode yang akan digunakan untuk menguji validitas cluster pada penelitian ini adalah indeks Modified Partition Coefficient (MPC) (untuk mengukur

(20)

cluster yang mengalami overlap) dan Classification Entropy (CE) (untuk mengukur

tingkat kekaburan/fuzziness dari partisi cluster.

Sasaran dari penelitian ini adalah melakukan analisa clustering terhadap data alumni STIKI Indonesia dengan menggunakan metode Fuzzy C-Means (FCM) dan melakukan validasi terhadap hasilnya, selain itu juga melakukan pemetaan persebaran data alumni dengan memanfaatkan teknologi Sistem Informasi Geografis (SIG).

1.2 Rumusan Masalah

Berdasarkan latar belakang permasalahan di atas maka dapat dirumuskan sejumlah permasalahan utama yang menjadi fokus dari penelitian ini yaitu:

1. Bagaimanakah mengukur tingkat validitas FCM dalam melakukan clustering terhadap data alumni?

2. Bagaimana kinerja Sistem Informasi Geografis pemetaan persebaran alumni dengan analisis clustering ?

1.3 Tujuan Penulisan

Sejumlah tujuan yang ingin dicapai dalam penelitian ini antara lain:

1. Mengetahui hasil validasi algoritma Fuzzy C-Means dalam proses clustering. 2. Untuk mengetahui kinerja Sistem Informasi Geografis berbabasis web untuk

pemetaan sebaran alumni dengan analisa clustering

1.4 Manfaat 1. Manfaat Praktis

Penelitian ini dapat digunakan sebagai acuan oleh STMIK STIKOM Indonesia (STIKI) untuk mengetahui profil alumni dan persebarannya di dunia kerja yang dapat digunakan sebagai pertimbangan dalam pengambilan kebijakan. 2. Manfaat Akademis

Pembuatan Tesis ini dapat membantu peneliti mengerti konsep penggunaan

(21)

5

1.5 Ruang Lingkup

1. Data alumni yang digunakan yaitu data alumni STMIK STIKOM Indonesia (STIKI Indonesia) yang diperoleh dari bagian alumni dan pusat karir. Data yang digunakan yaitu dari tahun 2012 sampai 2016 yang berjumlah 700 data. 2. Dalam penelitian ini tidak membahas tentang mekanisme pengambilan data alumni, data yang diperoleh langsung dari bagian Alumni dan Pusat Karir STIKI Indonesia dalam format file excel yang siap untuk diolah.

3. Aplikasi yang digunakan dalam proses clustering adalah Matlab sedangkan untuk pemetaannya menggunakan google map dan google mapAPI

1.6 Keaslian Penelitian

Penelitian tentang clustering data alumni telah banyak dilakukan sebelumnya. Penelitian tersebut diantaranya Sistem Informasi Geografis Berbasis

Web untuk Pemetaan Sebaran Alumni Menggunakan Metode K-Means, Analisis

Profil Akademik Alumni Dengan Menggunakan Metode Klasterisasi K-Means Pada STIKOM Uyelindo Kupang, Clustering Lulusan Mahasiswa Matematika FMIPA UNTAN Pontianak Menggunakan Algoritma Fuzzy C-Means, Clustering

Analysis on Alumni Data Using Abandoned and Reborn Particle Swarm Optimization. Pada Gambar 1.1 berikut menunjukkan keaslian penelitian ini.

Beberapa penelitian mengenai clustering data alumni sudah pernah dilakukan dengan menggunakan parameter-parameter yang terlihat pada gambar fishbone. Pada penelitian ini mencoba menerapkan metode yang sudah pernah dilakukan sebelumnya tetapi dengan parameter yang berbeda dan diaplikasikan pada data alumni STIKI Indonesia.

(22)

6 Sistem Informasi Geografis Sebaran Alumni dengan Analisis Clustering Metode Clustering Sumber Data Penyajian Data Variabel Cluster Validity K-Means

Abandoned and Reborn Particle Swarm Optimization Fuzzy C Means (FCM) Analisis Cluster Analisis

Cluster & GIS

Modified Partition Coefficient (MPC) dan Classification Entropy (CE).

Politeknik Negeri Semarang STIKI Indonesia Sum of the Squared Errors (SSE) FMIPA UNTAN Pontianak Jenis perusahaan,

Klasifikasi jabatan, bidang kerja dan kompetensi prodi

NEM, IPK, Masa studi, Masa Skripsi dan prodi

IPK dan Lama Studi Bidang pekerjaan,(IPK),

Lama Study, Lama Pengerjaan Tugas Akhir

(23)

7 BAB II DASAR TEORI

2.1 State of The Art

State of The Art merupakan pencapaian tertinggi dari sebuah proses

pengembangan sebuah penelitian. Berikut adalah beberapa penelitian tentang

clustering.

Pada tahun 2012, Slamet Handoko melakukan penelitian dengan judul “Sistem Informasi Geografis Berbasis Web untuk Pemetaan Sebaran Alumni Menggunakan Metode K-Means”. Penelitian ini melakukan clustering data alumni Politeknik Negeri Semarang (IKA POLINES) dengan metode K-Means dan hasilnya disajikan dalam bentuk peta digital berbasis web. Mekanisme pengelompokan atau clustering didasarkan pada empat variabel yaitu: jenis perusahaan, klasifikasi jabatan, bidang kerja dan kompetensi program studi. Sedangkan letak geofrafis alumni akan digunakan sebagai filtering data pada saat pengguna memilih lokasi pemetaan alumni di suatu wilayah. Dalam penelitian ini

cluster dibagi menjadi tiga yaitu : 1.Alumni dengan bidang kerja sesuai dengan

kompetensi, cluster 2.Alumni dengan bidang kerja kurang sesuai dengan kompetensi dan cluster 3.Alumni dengan bidang kerja tidak sesuai dengan kompetensi. Berdasarkan data yang diperoleh, hasil menunjukkan 51 alumni bekerja sesuai dengan kompetensinya, sedangkan 23 alumni dengan pekerjaan kurang sesuai dan 26 alumni tidak sesuai dengan kompetensinya. Hasil dari penelitian ini digunakan untuk membantu pengambilan keputusan apakah perlu mengadakan perubahan kurikulum atau tidak.

Pada tahun 2014, Dewi Anggraini, melakukan penelitian dengan judul “Analisis Profil Akademik Alumni Dengan Menggunakan Metode Klasterisasi

K-Means Pada STIKOM Uyelindo Kupang”. Pada penelitian ini melakukan

clustering data alumni dengan tujuan untuk mengetahui karakteristik profil alumni

pada STIKOM Uyelindo Kupang dengan menggunakan metote K-Means. Atribut yang digunakan dalam proses clustering yaitu NEM, Indeks Prestasi Komulatif (IPK), masa studi, masa skripsi dan program studi. Karakteristik alumni tiga prodi

(24)

(Teknik Informatika S1/D3 dan Sistem Infromasi S1) dan dengan nilai K = 3 diperoleh kelompok data yang cukup menunjukkan adanya pola tegas dari profil alumni yang dapat memberikan gambaran umum dan pertimbangan tentang pengembangan kebijakan perguruan tinggi.

Pada tahun 2013, Cary Lineker Simbolon dkk, menghasilkan penelitian dengan judul “Clustering Lulusan Mahasiswa Matematika FMIPA UNTAN Pontianak Menggunakan Algoritma Fuzzy C-Means”. Pada penelitian ini menggunakan Fuzzy C-Means untuk melakukan clustering lulusan jurusan Matematika FMIPA Universitas Tangjungpura (UNTAN) dengan menggunakan variabel IPK dan Lama studi. Berdasarkan clustering yang dilakukan diperoleh 4

cluster. Dari hasil keempat cluster tersebut diketahui bahwa pada cluster 4 memiliki

anggota lulusan yang paling banyak dengan 33 lulusan. Cluster 4 terdiri dari lulusan dengan kisaran lama studi 5,91 tahun. Hal ini menunjukkan bahwa masih banyak mahasiswa jurusan Matematika di Fakultas MIPA Untan Pontianak yang menempuh lama studi lebih dari 10 semester atau 5 tahun. Hasil ini diharapkan dapat dijadikan sebagai bahan pertimbangan jurusan dalam meningkatkan IPK mahasiswa untuk menyelesaikan masa studinya dengan cepat.

Pada tahun 2016, Paulus Mudjihartono dkk menghasilkan sebuah penelitian dengan judul “Clustering Analysis on Alumni Data Using Abandoned and Reborn

particle Swarm Optimization”. Pada penelitian ini melakukan clustering terhadap

data alumni dengan menggunakan optimasi metode dengan nama Abandoned and

Reborn Particle Swarm Optimization (AR-PSO) berdasarkan metode Particle Swarm. Menggunakan dataset alumni Ilmu Komputer (ILKOM) yang berisikan

satu kolom id, 22 kolom kursus dan satu kolom untuk jangka waktu pengerjaan tugas akhir dalam bulan dan dikategorikan menjadi tiga yaitu lama, medium dan pendek. Data ini terdiri dari 435 baris yang sudah siap untuk diclustering. Pada pengujian metode ini dibandingkan dengan metode K-Means, DBSCAN,

Agglomerative, hasil menunjukkan bahwa metode yang digunakan setara dengan K-Means dan mengungguli 2 Metode lainnya.

Pada tahun 2011, Bahar menghasilkan sebuah penelitian dengan judul “Penentuan Jurusan Sekolah Menengah Atas Dengan Algoritma Fuzzy C

(25)

9

Means”. Pada penelitian ini melakukan penjurusan di SMA berdasarkan Nilai mata

pelajaran inti dengan menggunakan metode Fuzzy C Means. Penelitian ini juga menguji tingkat akurasi algoritma Fuzzy C-Means dalam penentuan jurusan pada Sekolah Menengah Atas. Dari 81 sampeldata siswa yang diuji dalam penelitian ini menunjukkan bahwa algoritma Fuzzy C Means memiliki tingkat akurasi yang lebih tinggi (rata-rata 78,39%) jika dibandingkan dengan metode penentuan jurusan secara manual yang selama ini dilakukan (hanya memiliki tingkat akurasi rata-rata 56,17%)

Pada tahun 2010, Sumanto menghasilkan sebuah penelitian dengan judul “Penerapan Fuzzy C-Means dalam pemilihan Peminatan Tugas Akhir Mahasiswa” Pada penelitian ini menggunakan Fuzzy C-Means untuk melakukan pemilihan peminatan tugas akhir yang sesuai untuk mahasiswa. Proses penentuan peminatan Tugas Akhir dimulai dari pemilihan peminatan Tugas Akhir, disesuaikan dengan persyaratan kelulusan matakuliah yang berhubungan dengan peminatan Tugas Akhir yang dipilih oleh mahasiswa tersebut, sampai dengan pengujian hasil dari Tugas Akhir mahasiswa. Dari hasil penelitian dapat disimpulkan bahwa Fuzzy C-Means dalam penentuan pemilihan peminatan tugas akhir mempunyai keakuratan 80%.

Pada tahun 2006, Andina Budiarti dkk menghasilkan sebuah penelitian dengan judul “Studi Karakteristik Kelulusan Peserta Didik dengan Teknik

Clustering”. Pada penelitian ini teknik clustering diterapkan pada domain

akademik dengan menggunakan algoritma Expectation Maxization (EM) yang ada di WEKA. Sebagai data uji coba digunakan data peserta didik Program Magister Teknologi Infromasi Universitas Indonesia (MTI-UI). Untuk mempermudah interpretasi dari hasil clustering digunakan teknik association rules. Dari hasil percobaan yang dilakukan, jalur lulus alternatif, Proyek Akhir terbukti mempercepat kelulusan mahasiswa. Karakteristik kelompok mahasiswa yang mengambil masing-masing jalur juga dapat diidentifikasi, informasi ini merupakan temuan yang sangat berguna bagi pihak penyelenggara pendidikan.

Pada tahun 2010, Paul R.Burger dkk menghasilkan sebuah penelitian dengan judul “GIS Spatial Analysis of University Of Nebraska at Kearney

(26)

Alumni Cohorts, 1930-2004” Pada penelitian ini memiliki tujuan untuk memanfaatkan teknologi Sistem Informasi Geografis (SIG) dan analisis spasial pada data alumni Universitas Nebraska at Kearney (UNK) dari tahun 1930 - 2004 untuk mengamati pola perubahan ditribusi persebaran kelompok alumni setiap 5 tahun. Mean centers, location quotitensts dan analisis cluster digunakan untuk menilai sejauh mana kelompok alumni UNK telah bermigrasi selama periode 75 tahun dan proporsi persebaran alumni UNK setiap wilayah dibandingkan dengan lulusan perguruan tinggi secara keseluruhan. Kemudian pola spasial dibandingkan dengan tren migrasi diseluruh Amerika Serikat pada periode yang sama.

Penelitian kesembilan pada tahun 2015, Ariyady Kurniawan Muchsin, Made Sudarma menghasilkan sebuah penelitian dengan judul “Penerapan Fuzzy

C-Means Untuk Penentuan Besar Uang Kuliah Tunggal Mahasiswa Baru”.

Pada penelitian ini menggunakan metode Fuzzy C-Means (FCM) untuk mentukan besar uang kuliah tunggal mahasiswa baru di Universitas Udayana, dan menggunakan Index Xie dan Beni untuk mentukan cluster optimum dalam proses penentuan golongan Uang Kuliah Tunggal (UKT) sehingga dapat memenuhi nilai keadilan bagi calon mahasiswa baru. Dalam penelitian ini ada 7 atribut yang digunakan dalam proses cluster diantaranya yaitu :

1. Nilai jual objek pajak (NJOP) tanah (Rp).

2. Rata-rata rekening air perbulan (RP) dalam 3 bulan terakhir. 3. Rata-rata rekening listrik perbulan (Rp) dalam 3 bulan terakhir. 4. Nilai total saat ini dari mobil dalam keluarga (Rp).

5. Nilai total saat ini dari sepeda motor dalam keluarga (Rp). 6. Jumlah tanggungan orang tua berdasarkan KK (orang).

7. Total penghasilan keluarga (Ayah + Ibu + pendapatan lainnya) (Rp).

Dari 7 point yang menggambarkan kondisi perekonomian keluarga calon mahasiswa baru dan dengan teknik clustering FCM dan Index Xie Beni data tersebut dapat diolah menjadi golongan UKT sehingga dapat membantu pihak Universitas untuk memenuhi rasa keadilan dalam menentukan golongan UKT bagi calon mahasiswa baru.

(27)

11

Berdasarkan studi literatur diatas maka diusulkan penelitian dengan judul Sistem Informasi Geografis Pemetaan Persebaran Alumni dengan Analisis

Clustering. Rangkuman dari penelitian yang sudah pernah dilakukan sebelumnya

dapat dilihat pada Lampiran 1.

2.2 Data Mining

Data mining merupakan proses pencarian pola-pola yang menarik dan

tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran besar yang tersimpan dalam suatu basis data, data warehouse, atau tempat penyimpanan data lainnya (Tan dkk, 2006). Menurut Sumanthi dan Sivandham (2009), data mining juga didefinisikan sebagai bagian dari proses penggalian pengetahuan dalam

database yang sering disebut dengan istilah Knowledge Discovery in Database

(KDD). KDD merupakan suatu area yang mengintegrasikan berbagai metode, yang meliputi statistik, basis data, kecerdasan buatan (Artificial Intelligence), machine

learning, pengenalan pola (Pattern Recognition), pemodelan yang menangani

ketidakpastian, visualisasi data, optimasi, Sistem Informasi Manajemen (SIM), dan sistem berbasis pengetahuan (knowledge based-system). Sebagai bagian dari proses yang ada di dalam KDD, maka data mining didahului dengan proses pemilihan data, pembersihan data, pre-processing, dan transformasi data (Sumanthi dan Sivandham, 2009). Proses KDD dapat dilihat pada Gambar 2.1 dibawah ini.

Gambar 2.1 Proses KDD Sumber: Fayyad dkk, 1996

(28)

Ada tiga tahap penting dalam KDD, yaitu (Tan dkk, 2006) :

1. Data preprocessing

Proses ini bertujuan untuk mentransformasikan data input ke dalam format yang sesuai untuk kemudian dianalisa. Dalam tahap ini dilakukan proses penggabungan data dari berbagai sumber, pembersihan data untuk menghilangkan noise data dan data ganda, serta memilih atribut data yang diperlukan bagi proses data mining.

2. Data mining

Proses ini bertujuan untuk medapatkan pola-pola dan informasi yang tersembunyi di dalam basis data. Ada beberapa teknik yang dapat digunakan dalam data mining untuk mendapatkan pola-pola dan informasi tersembunyi, yaitu classification,

neural network, decision tree, genetic algorithm, clustering, OLAP (Online Analitycal Processing), dan association rules.

3. Postprocessing

Proses ini bertujuan untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan oleh pihak yang berkepentingan. Contoh dari proses ini adalah proses visualisasi, yaitu proses untuk menganalisa dan mengeksplorasi data dan hasil dari proses data mining dari berbagai sudut pandang. Tiga tahapan dalam proses KDD dapat dilihat pada Gambar 2.2 di bawah ini.

Data

Preprocessing Data Mining Postprocessing

Information Feature selection Dimensionality reduction Normalization Data subseting Filtering patterns Visualizations Pattern interpretation

Gambar 2.2 Tahapan dalam Proses Knowledge Discovery in Database Sumber: Tan dkk, 2006

2.2.1 Tugas Data Mining

Tugas data mining secara garis besar dibagi menjadi dua kategori utama, yaitu (Tan dkk, 2006) :

(29)

13

Tujuan utama dari tugas ini adalah untuk memprediksikan nilai dari atribut tertentu berdasarkan nilai dari atribut lainnya. Atribut yang diprediksi dikenal sebagai target atau dependent variable, sedangkan atribut yang digunakan untuk membuat prediksi disebut penjelas atau independent variable.

2. Tugas deskriptif.

Tujuan utama dari tugas ini adalah untuk memperoleh pola (correlation,

trend, cluster, trajectory, anomaly) untuk menyimpulkan hubungan di dalam data.

Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada teknik

postprocessing untuk melakukan validasi dan menjelaskan hasil proses data mining.

Inti dari tugas data mining adalah pemodelan prediktif, analisa asosiasi, analisa cluster, dan deteksi terhadap anomali. Empat tugas inti dari data mining dapat dilihat pada Gambar 2.3 di bawahi ni.

Gambar 2.3 Empat Tugas Inti Data Mining Sumber: Tan dkk, 2006

Pemodelan prediktif mengacu pada proses membangun model untuk variabel target sebagai fungsi dari variabel penjelas. Ada dua tipe dari pemodelan prediktif, yaitu klasifikasi (classification) yang digunakan untuk variabel target yang diskret, dan regresi (regression) yang digunakan untuk variable target yang kontinyu. Analisa asosiasi digunakan untuk menemukan pola yang mendeskripsikan fitur-fitur data yang saling berhubungan. Pola-pola ini biasanya digambarkan dalam bentuk aturan implikasi. Analisa cluster merupakan proses untuk mencari kelompok-kelompok data, sedemikian sehingga data yang berada

Data Pemodelan Prediktif Analisa Asosiasi Analisa Cluster Deteksi Terhadap Anomali

(30)

dalam satu kelompok memiliki kemiripan dibandingkan data yang terletak pada kelompok lain. Deteksi anomaly merupakan proses identifikasi data yang memiliki perbedaan karakteristik yang signifikan dengan data yang lain atau yang dikenal dengan istilah outlier (Tan dkk, 2006).

2.2.2 CRISP-DM

CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang dapat diaplikasikan di berbagai sektor industri. Gambar 2.4 menjelaskan tentang siklus hidup pengembangan data mining yang telah ditetapkan dalam CRISP-DM.

Gambar 2.4 Siklus Hidup CRISP-DM Sumber: Chapman, 2000

Berikut ini adalah enam tahap siklus hidup pengembangan data mining (Chapman, 2000) :

1. Business Understanding

Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian masalah

(31)

15

dalam data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut.

2. Data Understanding

Tahap ini dimulai dengan pengumpulan data yang kemudian akan dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi.

3. Data Preparation

Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap ini dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel, record, dan atribut-atribut data, termasuh proses pembersihan dan transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan (modeling).

4. Modeling

Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik pemodelan yang membutuhan format data khusus. Sehingga pada tahap ini masih memungkinan kembali ke tahap sebelumnya.

5. Evaluation

Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas baik jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase awal (Business

Understanding). Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis

yang belum dipertimbangkan. Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining.

(32)

Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau mengimplementasikan proses data mining yang berulang dalam perusahaan. Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.

2.3 Himpunan Fuzzy

Teori himpunan fuzzy merupakan titik penting perkembangan konsep ketidakpastian. Teori himpunan fuzzy diperkenalkan oleh Lotfi A. Zadeh pada tahun 1965 (Klir dan Yuan, 1995). Dengan diperkenalkannya teori himpunan fuzzy, maka anggapan bahwa teori probabilitas sebagai satu-satunya alat untuk memecahkan masalah yang mengandung unsur ketidakpastian, mengalami perkembangan. Teori himpunan fuzzy merupakan salah satu alat untuk memecahkan masalah ketidakpastian. Himpunan nonfuzzy (crisp set) A didefinisikan oleh anggota-anggota himpunan tersebut. Jika a  A, maka nilai yang berhubungan dengan a adalah 1. Namun, jika a  A, maka nilai yang berhubungan dengan a adalah 0. Notasi A = {x | P(x)} menunjukkan bahwa anggota A adalah x dengan P(x) benar. Jika XA merupakan fungsi karakteristik dari A, maka dapat dikatakan bahwa P(x) benar, jika dan hanya jika XA(x) = 1. Himpunan fuzzy didasarkan pada gagasan untuk memperluas jangkauan karakteristik sedemikian hingga fungsi tersebut akan mencakup bilangan riil pada interval [0,1].

Himpunan fuzzy merupakan himpunan dengan batas-batas keanggotaan yang tidak dapat ditentukan dengan dipenuhi atau tidak dipenuhinya suatu syarat keanggotaan. Keanggotaan himpunan fuzzy ditentukan oleh derajat keanggotaan yang menentukan tingkat kesesuaian setiap anggota dengan fungsi keanggotaan yang telah ditentukan dalam himpunan fuzzy. Misalkan A adalah himpunan fuzzy dan x adalah objek tertentu. Dalil “x adalah anggota A” tidak dapat dikatakan bernilai benar atau salah, seperti yang dinyatakan dalam logika dua nilai. Dalil ini dapat dikatakan bernilai benar hanya untuk derajat tertentu, yaitu derajat dimana x

(33)

17

betul-betul anggota A. Pada umumnya, nilai kebenaran suatu dalil dinyatakan dengan bilangan riil dalam interval [0,1]. Nilai ini juga mewakili derajat keanggotaan dalam himpunan fuzzy. Notasi fungsi keanggotaan dari himpunan

fuzzy A yang dilambangkan dengan μA , adalah sebagai berikut :

𝜇𝐴 ∶ 𝑋 → [0,1]...(2.1) Dalam hal ini, setiap fungsi keanggotaan memetakan elemen-elemen himpunan semesta X ke bilangan riil dalam interval [0,1] .

2.4 Clustering

Pengelompokan (clustering) merupakan teknik yang sudah cukup dikenal dan banyak digunakan untuk mengelompokkan data/objek ke dalam kelompok data (cluster) sehingga setiap cluster memiliki data yang mirip dan berbeda dengan data yang berada dalam cluster lain. Jika diberikan himpunan data yang berjumlah terhingga, yaitu X, maka permasalahan clustering dalam X adalah mencari beberapa pusat cluster yang dapat memberikan ciri kepada masing-masing cluster dalam X. Gambar 2.5 menunjukkan contoh sederhana dari proses clustering, dimana 3 cluster di dalam data dapat teridentifikasi dengan mudah. Kriteria kemiripan yang digunakan dalam kasus ini adalah jarak (dalam kasus ini jarak geometris). Proses ini disebut distance-based clustering. Cara lain untuk melakukan clustering adalah

conceptual clustering. Dalam conceptual clustering, objek dikelompokkan

berdasarkan kecocokannya menurut konsep deskriptif. Gambar 2.5 memperlihatkan contoh proses clustering.

Gambar 2.5. Contoh Proses Clustering Sumber: Jansen, 2007

(34)

2.4.1 Hard Clustering dan Fuzzy Clustering

Metode pengelompokan klasik (hard clustering) berdasarkan pada teori himpunan klasik, yang menentukan bahwa sebuah objek dapat menjadi anggota atau bukan anggota dari suatu cluster. Fuzzy clustering memperbolehkan suatu objek untuk menjadi anggota dari beberapa cluster sekaligus dengan derajat keanggotaan yang berbeda-beda. Derajat keanggotaan berada di antara rentang 0 dan 1. Jadi, dataset X dapat dipartisi menjadi c fuzzy subset. Di dalam situasi riil,

fuzzy clustering memiliki hasil yang lebih natural dibandingkan dengan hard clustering. Iilustrasi perbedaan antara hard clustering dan fuzzy clustering

ditunjukkan melalui Gambar 2.6 berikut ini.

Gambar 2.6. Hard dan Fuzzy Clustering Sumber: Jansen, 2007

2.4.2 Metode Fuzzy C-Means Clustering

Metode Fuzzy C-Means Clustering pertama kali dikenalkan oleh Jim Bezdek pada tahun 1981 (Jain dkk, 1999). Fuzzy C-Means adalah salah satu teknik pengelompokkan data yang mana keberadaan tiap titik data dalam suatu kelompok (cluster) ditentukan oleh derajat keanggotan. Metode Fuzzy C-Means termasuk metode supervised clustering dimana jumlah pusat cluster ditentukan di dalam proses clustering. Algoritma dari fuzzy c-means adalah sebagai berikut (Yan, 1994): 1. Input data yang akan dikelompokkan, yaitu X, berupa matrix berukuran n x m (n=jumlah sampel data, m=atribut setiap data). Xij data sampel ke-i (i=1,2,…n), atribut ke-j (j=1,2,..m).

(35)

19

2. Tentukan jumlah cluster (c), pangkat untuk matriks partisi (w), maksimum iterasi (MaxIter), error terkecil yang diharapkan (ξ), fungsi objektif awal (Po=0), dan iterasi awal (t=1).

3. Bangkitkan bilangan random ηik, i=1,2,…n; k=1,2,…c sebagai elemen matrik partisi awal U.

4. Hitung pusat cluster ke-k: 𝑉𝑘𝑗 , dengan k=1,2,…,c; dan j=1,2,…,m,

menggunakan persamaan berikut (Yan, 1994) : 𝑉𝑘𝑗 = ∑ ((𝜇𝑖𝑘)𝑤.𝑋𝑖𝑗) 𝑛 𝑖=1 ∑𝑛 (𝜇𝑖𝑘)𝑤 𝑖=1 ...(2.2) dengan :

Vkj adalah pusat cluster ke-k untuk atribut ke-j

ηik adalah derajat keanggotaan untuk data sampel ke-i pada cluster ke-k

xij adalah data ke-i, atribut ke-j

5. Hitung fungsi objektif pada iterasi ke-t menggunakan persamaan berikut (Yan, 1994) : 𝑃𝑡 = ∑ ∑𝑐 ([∑𝑚𝑗=1(𝑋𝑖𝑗 − 𝑉𝑘𝑗)2] (𝜇𝑖𝑘)𝑤) 𝑘=1 𝑛 𝑖=1 ...(2.3) dengan:

Vkj adalah pusat cluster ke-k untuk atribut ke-j

ηik adalah derajat keanggotaan untuk data sampel ke-i pada cluster ke-k

xij adalah data ke-i, atribut ke-j

Pt adalah fungsi objektif pada iterasi ke-t

6. Hitung perubahan matriks partisi menggunakan persamaan berikut (Yan, 1994):

𝜇𝑖𝑘 = [∑ (𝑋𝑖𝑗−𝑉𝑘𝑗) 2 𝑚 𝑗=1 ] −1 𝑤−1 ∑ [∑ (𝑋𝑖𝑗−𝑉𝑘𝑗) 2 𝑚 𝑗=1 ] −1 𝑤−1 𝑐 𝑘=1 ...(2.4) Dengan I = 1,2,…,n; dan k=1,2,…c. Dimana :

Vkj adalah pusat cluster ke-k untuk atribut ke-j

ηik adalah derajat keanggotaan untuk data sampel ke-i pada cluster ke-k

(36)

7. Cek Kondisi berhenti:

Jika : (|Pt-Pt-1|<ε) atau (t>Maxlter) maka berhenti. Jika tidak: t=t+1, ulangi langkah ke-4.

2.5 Ukuran Validitas Cluster

Sejak konsep himpunan fuzzy diperkenalkan oleh Zadeh pada tahun 1965, konsep fuzzy clustering banyak dikembangkan dan diterapkan. Dalam konsep fuzzy

clustering, suatu data dapat menjadi anggota dari beberapa cluster sekaligus

menurut derajat keanggotaannya (Wu dan Yang, 2005). Proses clustering dalam algoritma fuzzy clustering selalu mencari solusi terbaik untuk parameter yang telah didefinisikan. Namun solusi terbaik ini belum tentu dapat menentukan deskripsi terbaik dari struktur data. Dalam hal ini jumlah cluster yang ditentukan atau bentuk

cluster mungkin tidak sesuai dengan data. Untuk menentukan jumlah cluster yang

paling optimal dan dapat memvalidasi apakah partisi fuzzy yang diterapkan dalam proses clustering sesuai dengan data, digunakan indeks pengukuran validitas

cluster. Berikut ini adalah beberapa metode pengukuran validitas cluster yang

umumnya digunakan untuk algoritma fuzzy clustering (Wu dan Yang, 2005): 1. Partition Coefficient

Partition Coefficient (PC) merupakan metode yang mengukur jumlah cluster

yang mengalami overlap. Indeks PC mengukur validitas cluster dengan rumus sebagai berikut : 𝑃𝐶(𝑐) = 1 𝑁∑ ∑ (𝜇𝑖𝑗 2) 𝑁 𝑗=1 𝑐 𝑖=1 ...(2.8) dimana : c = jumlah cluster N = jumlah data

μij = derajat keanggotaan data ke-j pada cluster ke-i

PC(c) = nilai indeks PC pada cluster ke-c

Nilai PC berada dalam batas 1

𝑐 ≤ 𝑃𝐶(𝑐) ≤ 1. Pada umumnya jumlah cluster yang

(37)

21

2. Modified Partition Coefficient

Partition Coefficient cenderung mengalami perubahan yang monoton

terhadap beragam nilai c (jumlah cluster). Modifikasi dari indeks PC (Modified

Partition Coefficient/MPC) dapat mengurangi perubahan yang monoton tersebut.

dan didefinisikan dengan rumus berikut: 𝑀𝑃𝐶(𝑐) = 1 − 𝑐

𝑐−1(1 − 𝑃𝐶(𝑐)) …...(2.9)

dimana :

c = jumlah cluster

MPC(c) = nilai indeks MPC pada cluster ke-c

Nilai MPC berada dalam batas 0 ≤ PC(c) ≤ 1. Pada umumnya jumlah cluster yang optimal ditentukan dari nilai MPC yang paling besar.

3. Classification Entropy

Classification Entropy (CE) merupakan metode yang mengukur tingkat

kekaburan (fuzzyness) dari partisi cluster. Indeks CE mengukur validitas cluster dengan rumus sebagai berikut :

𝐶𝐸(𝑐) = −1 𝑁∑ ∑ 𝜇𝑖𝑗 𝑙𝑜𝑔 (𝜇𝑖𝑗) 𝑁 𝑗=1 𝑐 𝑖=1 ...(2.10) dimana : c = jumlah cluster N = jumlah data

μij = derajat keanggotaan data ke-j pada cluster ke-i

CE(c) = nilai indeks CE pada cluster ke-c

Nilai CE berada dalam batas 0 ≤ CE(c) ≤ log2c. Pada umumnya jumlah cluster yang optimal ditentukan dari nilai PE yang paling kecil.

2.6 Sistem Informasi Geografis

Sistem Informasi Geospasial atau juga dikenal sebagai Sistem Informasi Geografis (SIG) mulai dikenal pada awal tahun 1980-an. SIG adalah suatu sistem untuk memperoleh, menyimpan, menganalisis dan mengelola data spasial beserta data atribut terkait yang secara keruangan direferensikan pada bumi. Dangermond

(38)

mendefinisikan SIG sebagai kumpulan data yang terorganisir dari perangkat keras komputer, perangkat lunak, data geografi dan personil yang didesain untuk memperoleh, menyimpan, memperbaiki, memanipulasi, menganalisis dan menampilkan semua bentuk informasi yang bereferensi geografi. Sedangkan pengertian lain dari SIG adalah serangkaian prosedur baik dengan komputer maupun manual yang digunakan untuk menyimpan dan memanipulasi data bereferensi geografis atau data geospasial. Pengertian SIG dapat beragam tetapi mempunyai satu kesamaan, yaitu bahwa SIG adalah suatu sistem yang berkaitan dengan informasi geografis. Dalam arti yang lebih sempit, SIG merupakan suatu sistem berbasis komputer yang digunakan untuk menyimpan dan menganalisis objek-objek dan fenomena-fenomena dengan lokasi geografis merupakan karakteristik yang penting untuk dianalisis.

SIG dapat diuraikan menjadi beberapa subsistem sebagai berikut (Prahasta, 2005):

a. Data Input

Sub-sistem ini bertugas untuk mengumpulkan, mempersiapkan, dan menyimpan data spasial dan atributnya dari berbagai sumber. Sub-sistem ini pula yang bertanggung jawab dalam mengonversikan atau mentransformasikan format-format data aslinya ke dalam format yang dapat digunakan oleh perangkat SIG yang bersangkutan.

b. Data Output

Sub-sistem ini bertugas untuk menampilkan atau menghasilkan keluaran (termasuk mengekspornya ke format yang dikehendaki) seluruh atau sebagian basis data (spasial) baik dalam bentuk softcopy maupun hardcopy seperti halnya tabel, grafik, report, peta, dan lain sebagainya.

c. Data Management

Sub-sistem ini mengorganisasikan baik data spasial maupun tabel-tabel atribut terkait ke dalam sebuah sistem basis data sedemikian rupa hingga mudah dipanggil kembali atau di-retrieve, di-update, dan di-edit.

(39)

23

Sub-sistem ini menentukan informasi-informasi yang dapat dihasilkan oleh SIG. Selain itu sub-sistem ini juga melakukan manipulasi (evaluasi dan penggunaan fungsi-fungsi dan operator matematis & logika) dan pemodelan data untuk menghasilkan informasi yang diharapkan.Gambar 2.7 menunjukkan sub sistem dari Sistem Informasi Geografis (SIG), dari gambar tersebut dapat dilihat ada bagian input, proses dan output.

Gambar 2.7 Sub Sistem SIG Sumber: Prahasta 2005

Komponen-komponen dalam SIG (Sistem Informasi Geografis) terdiri dari: a. Perangkat Keras Komputer

SIG membutuhkan komputer untuk penyimpanan dan pemrosesan data. Ukuran dari sistem komputerisasi bergantung pada tipe SIG itu sendiri.

Hardware yang digunakan dalam SIG memiliki spesifikasi yang lebih tinggi

dibandingkan dengan sistem informasi lainnya. b. Perangkat Lunak Komputer

Sebuah software SIG haruslah menyediakan fungsi dan tool yang mampu melakukan penyimpanan data, analisis, dan menampilkan informasi geografis. Sebagai inti dari sistem SIG adalah software dari SIG itu sendiri yang menyediakan fungsi-fungsi untuk penyimpanan, pengaturan, link, queri, dan analisis data geografi.

(40)

SIG dapat mengumpulkan dan menyimpan data dan informasi yang diperlukan baik secara langsung maupun tidak langsung. Data yang dapat diolah dalam SIG merupakan fakta-fakta di permukaan bumi yang memiliki referensi keruangan baik referensi secara relatif maupun referensi secara absolut, dan disajikan dalam sebuah peta.

d. Sumberdaya Manusia

Sumberdaya manusia yang terlatih merupakan sebagai komponen terakhir dari SIG. Peranannya adalah sebagai pengoperasi perangkat keras dan perangkat lunak, serta menangani data geografis dengan kedua perangkat tersebut. Sumberdaya manusia juga merupakan sebagai sistem analis yangmenerjemahkan permasalahan riil di permukaan bumi dengan bahasa SIG, sehingga permasalahan dapat diidentifikasi dan dicari solusinya. Untuk selengkapnya dapat dilihat komponen SIG pada Gambar 2.8 di bawah ini.

Gambar 2.8 Komponen Sistem Informasi Geografis Sumber: Ekadinata,2008

Data yang diolah pada SIG adalah data geospasial, yang terdiri dari data spasial dan data non spasial. Pada diagram di atas data non spasial tidak digambarkan karena sebagian besar data yang akan ditangani dalam SIG merupakan data spasial yaitu sebuah data yang berorientasi geografis, memiliki sistem koordinat tertentu sebagai dasar referensinya dan mempunyai dua bagian penting yang membuatnya berbeda dari data lain yaitu informasi lokasi (spasial) dan informasi deskriptif (atribut). Data spasial dapat diperoleh dari berbagai sumber

(41)

25

seperti peta analog (seperti peta topografi, peta tanah, dan sebagainya), data sistem penginderaan jauh (citra satelit dan foto udara), data hasil pengukuran lapangan dan data GPS. Sedangkan data non spasial adalah data selain data spasial yaitu data yang berupa teks atau angka. Data non spasial ini akan menerangkan data spasial atau sebagai dasar untuk menggambarkan data spasial. Data non spasial ini nantinya dapat dibentuk data spasial.

Menurut Muehler dan McKee dalam bukunya “OpenGIS Guide”, terdapat dua layanan utama dalam SIG yaitu layanan data geografis (geodata service) dan layanan pemrosesan data geografis (geoprocessing service). Berdasarkan teknologi dan implementasinya, sistem informasi geografis dapat dikategorikan dalam tiga aplikasi yaitu SIG berbasis desktop (desktop GIS), SIG berbasis web (web GIS), dan SIG berbasis mobile (mobile GIS). Meskipun demikian, ketiganya saling berhubungan satu sama lain (Riyanto, 2010). Pada Gambar 2.9 di bawah ini dapat dilihat ketegori sistem informasi geografis secara lengkap.

Gambar 2.9 Kategori Sistem Informasi Geografis Sumber: Riyanto, 2010

2.7 Pengujian Perangkat Lunak

Pengujian perangkat lunak adalah elemen kritis dari jaminan kualitas perangkatlunak dan merepresentasikan kajian pokok dari spesifikasi, desain, dan pengkodean. Sejumlah aturan yang berfungsi sebagai sasaran pengujian pada perangkat lunak adalah (Sukamto, 2009) :

1. Pengujian adalah proses eksekusi suatu program dengan maksud menemukan kesalahan.

(42)

2. Test case yang baik adalah test case yang memiliki probabilitas tinggi untuk menemukan kesalahan yang belum pernah ditemukan sebelumnya.

3. Pengujian yang sukses adalah pengujian yang mengungkap semua kesalahan yang belum pernah ditemukan sebelumnya.

Karakteristik umum dari pengujian perangkat lunak adalah sebagai berikut (Sukamto, 2009) :

1. Pengujian dimulai pada level modul dan bekerja keluar kearah integrasi pada sistem berbasiskan komputer

2. Teknik pengujian yang berbeda sesuai dengan poin-poin yang berbeda pada waktunya.

3. Pengujian diadakan oleh software developer dan untuk proyek yang besar oleh

group testing yang independent.

4. Testing dan Debugging adalah aktivitas yang berbeda tetapi debugging harus diakomodasikan pada setiap strategi testing

Metode pengujian perangkat lunak ada 3 jenis, yaitu (Sukamto, 2009) : 1. White Box/Glass Box - pengujian operasi

2. Black Box - untuk menguji sistem

3. Use case - untuk membuat input dalam perancangan black box dan pengujian

statebased

Pengujian menggunakan sekumpulan aktifitas validasi, dengan pendekatan

black box testing. Menurut Shalahuddin dan Rosa (2011), black box testing adalah

menguji perangkat lunak dari segi spesifikasi fungsional tanpa menguji desain dan kode program. Pengujian dimaksudkan untuk mengetahui apakah fungsi-fungsi, masukan, dan keluaran dari perangkat lunak sesuai dengan spesifikasi yang dibutuhkan. Pengujian kotak hitam dilakukan dengan membuat kasus uji yang bersifat mencoba semua fungsi dengan memakai perangkat lunak apakah sesuaidengan spesifikasi yang dibutuhkan. Kasus uji yang dibuat untuk melakukan pengujian black box testing harus dibuat dengan kasus benar dan kasus salah.

Menurut Pressman (2010), black box testing juga disebut pengujian tingkah laku,

(43)

27

memungkinkan memperoleh serangkaian kondisi masukan yang sepenuhnya menggunakan semua persyaratan fungsional untuk suatu program. Beberapa jenis kesalahan yang dapat diidentifikasi adalah fungsi tidak benar atau hilang, kesalahan antar muka, kesalahan pada struktur data (pengaksesan basis data), kesalahan performasi, kesalahan inisialisasi dan akhir program.

(44)

BAB III

METODE PENELITIAN

3.1 Tempat dan Waktu Penelitian

Tempat penelitian tentang sistem informasi geografis pemetaan alumni dengan analisa clustering ini bertempat di STMIK STIKOM Indonesia (STIKI Indonesia) Jalan Tukad Pakerisan No. 97 Denpasar. Penelitian ini dilakukan mulai dari bulan Februari 2017.

3.2 Data

Dalam penelitian ini menggunakan data yang mendukung pelaksanaan dari proses penelitian yang dilakukan. Adapun hal-hal yang menyangkut data tersebut adalah sumber data, jenis data dan teknik pengumpulan data.

3.2.1 Sumber Data

Data yang digunakan dalam analisis penelitian ini bersumber dari data sekunder. Data sekunder diperoleh literatur dengan referensi buku, jurnal, tesis, hasil browsing di internet dan dari STIKI Indonesia yang menunjang analisa selama penelitian berlangsung.

3.2.2 Jenis Data

Jenis data yang digunakan dalam penelitian ini merupakan data kuantitatif. Data kuantitatif merupakan data angka yang diperoleh langsung dari pihak STIKI Indonesia.

3.2.3 Teknik Pengumpulan Data

Dalam penulisan proposal tesis ini, pengumpulan data yang diperoleh didasarkan pada metode-metode sebagai berikut:

1. Metode Observasi

Merupakan metode pengumpulan data dengan menghubungi pihak yang menyediakan data alumni yang akan digunakan dalam penelitian dalam hal ini yaitu STMIK STIKOM Indonesia (STIKI Indonesia). Observasi dilakukan untuk

(45)

29

mengetahui pengumpulan dan cara pemrosesan data alumni yang selama ini dilakukan di STIKI Indonesia.

2. Metode Kepustakaan

Metode pengumpulan data yang dilakukan dengan membaca buku-buku literatur yang berkaitan dengan materi yang dipergunakan dalam penelitian.

3.3 Gambaran Umum Penelitian

Gambaran umum penelitian dapat dilihat pada Gambar 3.1 di bawah ini: Berdasarkan Gambar 3.1 di bawah dapat dijelaskan bahwa gambaran umum penelitian secara garis besar dibagi menjadi 3 tahapan yaitu pengumpulan data, data

preprosesing dan tahapan data mining.

Gambaran umum penelitian dimulai dari proses pengumpulan data yaitu mengumpulkan data alumni dari STIKI Indonesia. Tahapan selanjutnya yaitu data

preprossesing, tahapaan ini memiliki tujuan untuk mempersiapkan data sebelum

masuk ketahapan data mining, terdapat tiga proses yaitu seleksi data, data cleaning dan transformasi data.

(46)

Mulai Seleksi Data Data Cleaning Transformasi data Clustering dengan FCM Validasi Cluster Pemetaan dengan Google Map Analisis Cluster Selesai Pengumpulan data Data Preprosesing Data Mining

Gambar 3.1 Gambaran Umum penelitian

Setelah tahapan data proprosesing masuk ketahapan data mining, pada tahapan ini terdapat tiga proses yaitu clustering dengan FCM, validasi cluster dan analisis cluster. Tahapan terakhir yaitu pemetaan dengan google map, pada tahapan

(47)

31

ini akan dibuat Sistem Informasi Geograsi (SIG) berbasis web dengan memanfaatkan google map.

3.3.1 Pengumpulan Data

Pada tahapan ini yang dilakukan yaitu mengumpulkan data yang akan digunakan dalam penelitian ini. Data tersebut berjenis data sekunder yaitu data alumni STIKI Indonesia. Atribut data alumni yang akan digunakan dalam penelitian ini selengkapnya terdiri dari: Nomor Induk Mahasiswa (NIM), nama mahasiswa, jenis kelamin, alamat, no telepon, program studi, angkatan, tahun lulus, Indeks Prestasi Kumulatif (IPK), lama studi (dalam semester), lama pengerjaan tugas akhir (dalam semester), tempat bekerja, alamat tempat bekerja, kesesuaian bidang kerja.

3.3.2 Data Preprosesing

Dalam tahapan ini terdapat tiga langkah yaitu seleksi data, data cleaning dan transformasi data. Tujuan dari tahapan ini adalah untuk mengubah data mentah menjadi data yang berkualitas, seperti memperbaiki data yang incomplete (tidak lengkap), noisy (data berisi kesalahan nilai) dan data tidak konsisten.

1. Seleksi Data

Pada tahapan seleksi data yang akan dilakukan yaitu melakukan seleksi atribut yang akan digunakan. Tentunya tidak semua atribut dimasukkan dalam set data yang digunakan dalam proses data mining karena hanya yang berperan sebagai

referensi identifikasi yang akan dipilih. Dari semua atribut yang disebutkan diatas

maka yang akan digunakan dalam proses data mining adalah atribut NIM, Nama mahasiswa, Kesesuaian bidang kerja, Indeks Prestasi Kumulatif (IPK), Lama masa studi, Lama pengerjaan Tugas Akhir (TA). Tabel 3.1 menunjukkan data yang belum mengalami seleksi data dan Tabel 3.2 menunjukkan data yang telah mengalami seleksi data.

(48)

Tabel 3.1 Atribut Sebelum Seleksi Data No Atribut 1 NIM 2 Nama 3 Alamat 4 Jenis kelamin 5 Golongan darah 6 Tempat lahir 7 Tanggal lahir 8 No Hp 9 Program Study 10 Angkatan 11 Tahun lulus 12 IPK 13 Lama Study 14 Lama pengerjaan TA 15 Kesesuaian bidang kerja 16 Tempat bekerja

17 Alamat tempat bekerja Tabel 3.2 Seleksi Data

NO NIM IPK Lama Studi Pengerjaan TA Bidang Kerja

1 08101011 2.99 10 3 Kurang Sesuai 2 08101014 3.14 10 4 Tidak Sesuai 3 08101018 3.46 10 10 Tidak Sesuai 4 08101023 3.26 10 11 Kurang Sesuai 5 08101024 2.59 10 11 Sesuai 6 08101026 3.1 8 6 Kurang Sesuai

Gambar

Gambar 1.1 Diagram Fish Bone Keaslian Penelitian
Gambar 2.1 Proses KDD   Sumber: Fayyad dkk, 1996
Gambar 2.4 Siklus Hidup CRISP-DM  Sumber: Chapman, 2000
Gambar 2.7 Sub Sistem SIG  Sumber: Prahasta 2005
+7

Referensi

Dokumen terkait

Konflik antar tokoh di dalam cerpen Hakim Sarmin terjadi ketika Hakim Sarmin beradu pada konflik antara batinnya sendiri dan masyarakat atas keputusan yang harus diambil

 Dari tabel di atas, luas area dapat dihitung dengan menggunakan 3 macam metode:.  Dengan menggunakan metode

Pemerintah Daerah Kabupaten Wakatobi berdasarkan Keputusan Menteri Penda y agunaan Aparatur Negara dan Reformasi Birokrasi Republik Indonesia Nomor 754 Tahun 2021

Proyek Perubahan Iklim, Hutan dan Lahan Gambut di Indonesia (CCFPI) adalah merupakan kegiatan yang didukung oleh Canadian International Development Agency (CIDA) dan dilaksanakan

Berdasarkan analisa penilaian variabel adapun kecamatan yang terpilih sebagai kawasan yang paling potensial sebagai kawasan agroindustri subsektor tanaman pangan dan

Langkah yang dilakukan adalah memasyarakatkan Dolalak dengan sosialisasi dari pemerintah dengan memperbaiki sistem koordinasi, dengan cara mempertahankan dan meningkatkan

Menyatakan dengan sesungguhnya, bahwa saya bersedia secara sukarela untuk berpartisipasi dalam kegiatan penelitian dengan judul “Pengaruh Propolis.. Sebagai Obat Kumur

negatif apabila tidak segera ditangani, seperti lalu lintas yang semakin padat, tingkat polusi yang semakin tinggi, kondisi lalu lintas yang tidak nyaman, dan