ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID
TESIS
ADYA ZIZWAN PUTRA
147038003
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Magister Teknik Informatika
ADYA ZIZWAN PUTRA
147038003
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
PERSETUJUAN
Judul Tesis : Analisis Kinerja Metode Gabungan Genetic Algorithm dan
K-Means Clustering dalam Penentuan Nilai Centroid
Kategori : Tesis
Nama Mahasiswa : Adya Zizwan Putra
Nomor Induk Mahasiswa : 147038003
Program Studi : Magister (S2) Teknik Informatika
Fakultas : Ilmu Komputer dan Teknologi Informasi
Universitas Sumatera Utara
Komisi Pembimbing :
Pembimbing 2, Pembimbing 1,
Dr. Erna Budhiarti Nababan, M.IT Prof. Dr. Muhammad Zarlis, M.Sc
Diketahui/disetujui oleh
Program Studi S2 Teknik Informatika
Ketua,
Prof. Dr. Muhammad Zarlis, M.Sc
PERNYATAAN
ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan
dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 24 Juli 2017
Adya Zizwan Putra
PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di
bawah ini :
Nama : Adya Zizwan Putra
NIM : 147038003
Program Studi : Magister (S2) Teknik Informatika
Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty
Free Right) atas tesis saya yang berjudul :
ANALISIS KINERJA METODE GABUNGAN GENETIC ALGORITHM
DAN K-MEANS CLUSTERING DALAM PENENTUAN NILAI
CENTROID
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non Eksklusif
ini, Universitas Sumatera Utara berhak menyimpan mengalih media, memformat,
mengelola dalam bentuk database, merawat dan memplubikasikan tesis saya tanpa
meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan
sebagai pemegang dan/ atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 24 Juli 2017
Adya Zizwan Putra
Telah diuji pada
Tanggal : 24 Juli 2017
______________________________________________________________________ __
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Muhammad Zarlis
Anggota : 1. Dr. Erna Budhiarti Nababan
2. Prof. Dr. Saib Suwilo
3. Dr. Syahril Efendi
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap (berikut gelar) : Adya Zizwan Putra, S.Kom
Tempat dan Tanggal Lahir : Medan, 3 Mei 1991
Alamat Rumah : Jl. Nangka No.9 A Medan
Telepon/ Faks/ HP : 0811802006
E-mail : putrazizwanadya@gmail.com
Instansi Tempat Bekerja : PT Bank Mandiri (Persero) Tbk.
Alamat Kantor : Jl. Pulau Pinang No 1 Medan
DATA PENDIDIKAN
SD : SD Negeri 060837 Medan TAMAT : 2003
SLTP : SLTP Negeri 7 Medan TAMAT : 2006
SLTA : SLTA Negeri 7 Medan TAMAT : 2009
D3 : D3 Teknik Informatika USU TAMAT : 2011
UCAPAN TERIMA KASIH
Alhamdulillah, segala puji dan syukur saya ucapkan kehadiran Tuhan Yang Maha Esa,
atas berkat rahmat-Nya, saya dapat menyelesaikan Tesis ini dalam kurun waktu yang
telah ditetapkan
Ucapan terima kasih juga saya sampaikan kepada pihak-pihak yang telah membantu
saya selama penulisan Tesis ini, sehingga Tesis ini dapat terselesaikan dengan baik. Pada
kesempatan kali ini, saya ingin mengucapkan terima kasih yang sebesar-besarnya
kepada :
1. Bapak Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas Sumatera
Utara.
2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku Dekan Fakultas Ilmu Komputer
dan Teknologi Informasi.
3. Bapak Prof. Dr. Muhammad Zarlis selaku Ketua Program Studi Magister Teknik
Informatika, beserta Bapak Dr. Syahril Efendi, S.Si, M.IT Selaku Sekretaris
Program Studi Magister Teknik Informatika, beserta seluruh Staf Pengajar
Program Studi Magister Teknik Informatika Program Pascasarjana Fakultas Ilmu
Komputer Universitas Sumatera Utara.
4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Pertama, dan juga Bapak
Dr. Erna Budhiarti Nababan, M.IT selaku Pembimbing Kedua, yang telah
membimbing saya hingga tesis ini dapat terselesaikan dengan baik.
5. Bapak Prof. Dr. Saib Suwilo selaku Penguji Pertama, dan juga Bapak Dr. Syahril
Efendi, S.Si, M.IT selaku Penguji Kedua yang telah memberikan saran dan masukan
serta arahan yang baik dalam penyelesaian tesis ini.
6. Orangtua laki-laki saya Alm. Aziz Usman NST, orangtua perempuan saya Sufriyati,
kakak perempuan saya Atika Ziyani Pratiwi NST yang telah mendukung saya dan
mendoakan saya sehingga tesis ini terselesaikan dengan baik.
7. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat saya
Saya menyadari masih banyak kekurangan dalam penulisan Tesis ini, oleh karena itu
saya mengharapkan kritik dan saran dari para pembaca sebagai masukan bagi penelitian
ini, agar penelitian ini dapat bermanfaat lebih baik lagi bagi saya ataupun bagi para
peneliti selanjutnya.
Medan, 24 Juli 2017
Penulis
ABSTRAK
Penentuan Centroid pada Algoritma K-Means mempengaruhi secara langsung kualitas
dari hasil clustering. Penentuan centroid dengan menggunakan bilangan acak memiliki
banyak kelemahan. Algoritma GenClust yang menggabungkan pemakaian Algoritma
Genetika dan K-Means menggunakan algoritma genetika untuk menentukan centroid dari
tiap cluster. Penggunaan algoritma GenClust menggunakan kromosom 50% yang
diperoleh melalui perhitungan deterministik dan 50% diperoleh dari pembangkitan
bilangan acak. Penelitian ini akan memodifikasi penggunaan algoritma GenClust dimana
kromosom yang digunakan 100% diperoleh melalui perhitungan deterministik. Hasil
penelitian ini akan menghasilkan perbandingan kinerja yang dinyatakan dalam Mean
Square Error yang dipengaruhi oleh penentuan centroid pada metode K-Means dengan
menggunakan metode GenClust, metode GenClust yang dimodifikasi dan juga K-Means klasik.
PERFORMANCE ANALYSIS OF COMBINED METHODS OF
GENETIC ALGORITHM AND K-MEANS CLUSTERING IN
DETERMINING THE VALUE OF CENTROID
ABSTRACT
The determination of Centroid on K-Means Algorithm directly affects the quality of the clustering results. Determination of centroid by using random numbers has many weaknesses. The GenClust algorithm that combines the use of Genetic Algorithms and K-Means uses a genetic algorithm to determine the centroid of each cluster. The use of the GenClust algorithm uses 50% chromosomes obtained through deterministic calculations and 50% is obtained from the generation of random numbers. This study will modify the use of the GenClust algorithm in which the chromosomes used are 100% obtained through deterministic calculations. The results of this study will result in performance comparisons expressed in Mean Square Error influenced by centroid determination on K-Means method by using GenClust method, modified GenClust method and also classic K-Means.
DAFTAR ISI
DAFTAR GAMBAR xiv
DAFTAR TABEL xv
BAB I PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Rumusan Masalah 3
1.3 Batasan Masalah 3
1.4 Tujuan Penelitian 4
1.5 Manfaat Penelitian 4
1.6 Sistematika Penulisan 4
BAB II TINJAUAN PUSTAKA 6
2.1 Data Mining 6
2.2 Metode pada Data Mining 7
2.3 Clustering 7
2.4 K-Means 9
2.5 Algoritma Genetika 9
2.6 GenClust 10
2.7 UCI Machine Learning Repository 12
2.8 Penelitian-Penelitian Terkait 12
2.8.1. Penelitian Terdahulu 12
2.8.2. Perbedaan dengan Penelitian Terdahulu 14
BAB III METODOLOGI PENELITIAN 16
3.1 Pendahuluan 16
3.2 Data yang Digunakan 17
BAB IV HASIL DAN PEMBAHASAN 29
4.1 Pendahuluan 29
4.2 Hasil Pengujian dengan Menggunakan Algoritma K-Means
Klasik 29
4.2.1 Pengujian dengan Jumlah Iterasi Sebanyak 50 30
4.2.2 Pengujian dengan Jumlah Iterasi Sebanyak 75 31
4.2.3 Pengujian dengan Jumlah Iterasi Sebanyak 100 32
4.3 Hasil Pengujian dengan Menggunakan Algoritma GenClust 35
4.3.1 Pengujian dengan Jumlah Iterasi Sebanyak 50 35
4.3.2 Pengujian dengan Jumlah Iterasi Sebanyak 75 36
4.3.3 Pengujian dengan Jumlah Iterasi Sebanyak 100 38
4.4 Hasil Pengujian dengan Menggunakan Algoritma GenClust
yang Telah Dimodifikasi 41
4.4.1 Pengujian dengan Jumlah Iterasi Sebanyak 50 41
4.4.2 Pengujian dengan Jumlah Iterasi Sebanyak 75 42
4.4.3 Pengujian dengan Jumlah Iterasi Sebanyak 100 44
4.5 Pembahasan 47
BAB V KESIMPULAN DAN SARAN 49
5.1 Kesimpulan 49
DAFTAR GAMBAR
Hal.
Gambar 2.1. Proses di dalam Knowledge Discovery in Database 6
Gambar 2.2. Diagram Blok dari Algoritma Genetika 10
Gambar 2.3. Tahapan Proses dari Algoritma GenClust 11
Gambar 3.1. Metode Penelitian 17
Gambar 3.2. Tahapan Proses Algoritma K-Means 18
Gambar 3.3. Tahapan Penentuan Nilai Centroid K-Means dengan
Algoritma GenClust 19
Gambar 3.4. Penentuan Nilai Centroid K-Means dengan
Algoritma GenClust yang Dimodifikasi 28
Gambar 4.1. Hasil Pengujian dengan Menggunakan Algoritma K-Means
Klasik 34
Gambar 4.2. Hasil Pengujian dengan Menggunakan Algoritma GenClust 40
Gambar 4.3. Hasil Pengujian dengan Menggunakan Algoritma GenClust
DAFTAR TABEL
Hal.
Tabel 2.1. Penelitian Terdahulu 13
Tabel 3.1. Contoh Data pada Iris Data Set 21
Tabel 3.2. Kromosom yang Dibangkitkan dengan Bilangan Acak 22
Tabel 3.3. Kromosom yang Diperoleh dari Perhitungan Deterministik 27
Tabel 4.1. Pengujian dengan Menggunakan Algoritma K-Means Klasik
dengan Jumlah Iterasi Sebesar 50 30
Tabel 4.2. Pengujian dengan Menggunakan Algoritma K-Means Klasik
dengan Jumlah Iterasi Sebesar 75 31
Tabel 4.3. Pengujian dengan Menggunakan Algoritma K-Means Klasik
dengan Jumlah Iterasi Sebesar 100 32
Tabel 4.4. Hasil Pengujian dengan Menggunakan Algoritma
K-Means Klasik 33
Tabel 4.5. Pengujian dengan Menggunakan Algoritma GenClust dengan
Menggunakan Jumlah Iterasi Sebesar 50 35
Tabel 4.6. Pengujian dengan Menggunakan Algoritma GenClust dengan
Menggunakan Jumlah Iterasi Sebesar 75 37
Tabel 4.7. Pengujian dengan Menggunakan Algoritma GenClust dengan
Menggunakan Jumlah Iterasi Sebesar 100 38
Tabel 4.8. Hasil Pengujian dengan Menggunakan Algoritma GenClust 39
Tabel 4.9. Pengujian dengan Menggunakan Algoritma GenClust yang Telah
Dimodifikasi dengan Menggunakan Jumlah Iterasi Sebesar 50 42
Tabel 4.10. Pengujian dengan Menggunakan Algoritma GenClust yang Telah
Dimodifikasi dengan Menggunakan Jumlah Iterasi Sebesar 75 43
Tabel 4.11. Pengujian dengan Menggunakan Algoritma GenClust yang Telah
Dimodifikasi dengan Menggunakan Jumlah Iterasi Sebesar 100 44
Tabel 4.12. Hasil Pengujian dengan Menggunakan Algoritma GenClust
yang Telah Dimodifikasi 45
Tabel 4.13. Hasil Pengujian dengan Menggunakan Algoritma K-Means Klasik
Algoritma GenClust, dan Algoritma GenClust yang Telah
Dimodifikasi 47