OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
TESIS
MUHAMMAD FAUZI
147038065
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika
MUHAMMAD FAUZI
147038065
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
PERSETUJUAN
Judul : OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
Kategori : TESIS
Nama : MUHAMMAD FAUZI
Nomor Induk Mahasiswa : 147038065
Program Studi : MAGISTER(S2) TEKNIK INFORMATIKA
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Dr. Sawaluddin, M.IT Prof. Dr. Muhammad Zarlis
Diketahui/disetujui oleh
Program Studi Magister(S2) Teknik Informatika Ketua,
PERNYATAAN
OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
TESIS
Saya mengakui semua tesis ini adalah hasil karya saya sendiri kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, April 2017
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di
bawah ini :
Nama : Muhammad Fauzi
NIM : 147038065
Program Studi : Magister(S2) Teknik Informatika
Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif(Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul :
OPTIMASI PUSAT CLUSTER AWAL K-MEANS DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media,
memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis
saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai
penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, April 2017
Telah diuji pada
Tanggal : 28 April 2017
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Muhammad Zarlis
Anggota : 1. Dr.Sawaluddin, M.IT
2. Prof. Dr. Tulus
RIWAYAT HIDUP
DATA PRIBADI
Nama : Muhammad Fauzi, S.T, M.Kom
Tempat dan Tanggal Lahir : Medan, 15 Agustus 1991
Alamat Rumah : Jl. Tawang Mangu Lingk 1 Musyawarah,
Kelurahan Kwala Bingai, Stabat.
Telepon / HP : 085270014645
Email : [email protected]
Instansi tempat bekerja : Politeknik Unggul LP3M
Alamat Kantor : Jl. Iskandar Muda No.3 CDEF, Medan.
DATA PENDIDIKAN
SD : SDN 050659 Stabat TAMAT : 2003
SMP : MTsN 1 Stabat TAMAT : 2006
SMA : MAN 2 Tanjung Pura TAMAT : 2009
S1 : Teknik Informatika UNIMAL TAMAT : 2014
UCAPAN TERIMA KASIH
Bismillahirrahmaanirrahiim, Puji Syukur kehadirat Allah SWT, yang telah
melimpahkan rahmat dan karunia-Nya kepada penulis, sehingga penulis dapat
menyelesaikan tesis ini yang berjudul : Optimasi Pusat Cluster Awal K-Means dengan Algoritma Genetika Pada Pengelompokan Dokumen dengan sebaik-baiknya.
Penyusunan Tesis ini merupakan salah satu syarat untuk dapat memperoleh gelar
Magister (S2) Teknik Informatika Pada Universitas Sumatera Utara. Penulis
menyadari apa yang penulis tuangkan dalam Tesis ini tidak terlepas dari peranan
seluruh dosen, teman-teman dan seluruh keluarga yang turut memberikan bantuan
moril maupun materil. Untuk itu penulis menyampaikan terima kasih kepada:
1. Rektor Universitas Sumatera Utara, Bapak Prof. Dr. Runtung Sitepu, S.H.,
M.Hum., atas kesempatan yang telah diberikan kepada penulis untuk dapat
mengikuti dan menyelesaikan pendidikan Program Magister Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
2. Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI)
Universitas Sumatera Utara, Bapak Prof. Dr. Opim Salim Sitompul, yang sudah
banyak memberikan bimbingan dan arahan.
3. Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad
Zarlis. Sekretaris Program Studi Teknik Informatika, Bapak Syahril Efendi, S.Si.,
M.IT. Beserta seluruh Staff Pengajar Program Studi Magister Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama, demikian juga
kepada Bapak Dr. Sawaluddin, M.IT selaku Pembimbing Kedua yang dengan
penuh kesabaran menuntun dan membimbing penulis hingga selesainya tesis ini
dengan baik.
5. Bapak Prof. Dr. Tulus dan Bapak Dr. Pahala Sirait, S.T, M.Kom, sebagai Dosen
Pembanding yang telah memberikan saran dan masukan serta arahan yang baik
6. Ayahanda tercinta Drs. Nurdin Ahmad, Ibunda tercinta Dra. Dasni, serta
adik-adik, keponakan, kakak kakakku tersayang serta seluruh keluarga besar yang
selalu memberi do a dan dukungan kepada penulis.
7. Seluruh staf pegawai Program Studi S2 Teknik Informatika Fakultas Ilmu
Komputer dan Teknik Informatika, serta teman-teman seperjuangan mahasiswa/i
Kom-C 2014.
8. Dan seluruh pihak yang tidak dapat disebutkan satu persatu dalam tesis ini, sekali
lagi terima kasih atas segala bantuan dan doa yang telah diberikan.
Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini
dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan
penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca pada
umumnya. Oleh karena itu penulis mengucapkan banyak terima kasih, semoga Allah
SWT membalas kebaikan yang telah diberikan. Aamiin.
Medan, April 2017 Penulis,
ABSTRAK
Pengelompokan dokumen berdasarkan karakteristik kata yang ada pada dokumen dilakukan untuk memudahkan mengorganisir dokumen pada kebutuhan lebih lanjut. Algoritma K-Means clustering merupakan salah satu algoritma pengelompokan yang melakukan pengelompokan secara iteratif dengan melakukan partisi set data ke dalam sejumlah K cluster. Namun hasil pada K-Means clustering tersebut sangat ditentukan pada penentuan pusat cluster awal yang pada umumnya ditentukan secara random. Pada penelitian ini dilakukan penentuan pusat cluster awal K-Means untuk masalah pengelompokan dokumen dengan memanfaatkan algoritma genetika sebagai algoritma yang mengoptimasi pusat cluster awal K-Means tersebut. Pada hasil pengujian pengelompokan dokumen berita yang dilakukan sebanyak 5 kali untuk pusat cluster awal secara random tingkat keberhasilan mencapai 26.66 % sedangkan untuk pusat cluster awal dengan algoritma genetika tingkat keberhasilan mencapai 46.66 %.
OPTIMIZATION OF INITIAL CLUSTER CENTER K-MEANS WITH
GENETIC ALGORITHM IN DOCUMENTS CLUSTERING
ABSTRACT
Clustering a data set of documents based on certain data points in documents are an easy way to organize document for extension to work. K-Means clustering algorithm is one of iterative cluster algorithm to partition a set of entities into K cluster. Unfortunately, resulting in K Means cluster is depending on the initial cluster center that generally assigned randomly. In this reserach, determining initial cluster center K-Means for documents clustering are investigated by using genetic algorithm as an algorithm which optimize initial cluster center of K-Means. Based on the result of this test, clustering news document with 5 times for initial cluster center randomly has 26.66% for level of success, meanwhile for initial cluster center by using genetic algorithm has 46.66% for level of success.
DAFTAR ISI
Hal
HALAMAN JUDUL
PERSETUJUAN ... i
PERNYATAAN ... ii
PERSETUJUAN PUBLIKASI ... iii
PANITIA PENGUJI ... iv
RIWAYAT HIDUP ... vi
UCAPAN TERIMA KASIH... vi
ABSTRAK ... viii
ABSTRACT... xi
DAFTAR ISI... xii
DAFTAR TABEL... xiii
DAFTAR GAMBAR ... xiv
BAB 1 PENDAHULUAN... 1
1.1 Latar Belakang... 1
1.2 Rumusan Masalah... 3
1.3 Batasan Masalah ... 3
1.4 Tujuan dan Manfaat ... 3
1.5 Sistematika Penelitian... 3
BAB 2 TINJAUAN PUSTAKA... 5
2.1 Data Mining ... 5
2.1.1 Teknik Data Mining ... 5
2.1.2 Tahapan Data Mining ... 7
2.2 Algoritma K-Means ... 9
2.3.2 Teknik Pengkodean ... 14
2.3.3 Membangkitkan Populasi Awal dan Kromosom ... 15
2.3.4 Evaluasi Fitness ... 16
2.3.5 Operator Genetika ... 16
2.3.6 Terminasi ... 18
2.3.7 Parameter Algoritma Genetika ... 18
2.4 Teks Mining ... 19
2.4.1 Tahapan Teks Mining ... 20
2.4.2 Ekstraksi Dokumen ... 22
2.5Term Frequency-Inverse Document Frequency (TF-IDF)... 25
2.6 Cosine Similarity ... 28
2.7 Kontribusi Penelitian ... 29
BAB 3 METODOLOGI PENELITIAN... 30
3.1 Proses Penelitian ... 30
3.2 Tahapan Penelitian ... 31
3.3 Jenis dan Sumber Data ... 32
3.4 Penentuan Tema Dokumen Berita ... 34
3.5 Teknik Pengumpulan Data ... 36
3.6 Preprocessing Dokumen ... 36
3.6.1 Tokenizing... 37
3.6.2 Filtering ... 38
3.6.3 Stemming ... 39
3.7 Pembentukan Kromosom Dokumen ... 39
3.8 Optimasi Pusat Cluster Awal dengan Algoritma Genetika ... 41
3.9 Pengelompokan Dokumen dengan K-Means ... 43
3.10 Tahapan Iterasi Pengelompokan K-Means... 44
BAB 4 PEMBAHASAN DAN HASIL... 46
4.1 Pembahasan ... 46
4.2 Pemilihan Dokumen ... 46
4.4 Evaluasi Fitness ... 51
4.5 Proses Seleksi Pemilihan Kromosom ... 55
4.6 Crossover Kromosom ... 55
4.7 Mutasi Kromosom ... 56
4.8 Penentuan Akhir Proses Genetika ... 57
4.9 Menghitung Kemiripan Dokumen ... 59
4.10 Pengujian dan Hasil ... 69
4.10.1 Pengujian Pusat Cluster Awal Random ... 69
4.10.2 Pengujian Pusat Cluster Awal dengan GA ... 70
4.10.3 Pengujian Aplikasi ... 72
BAB 5 KESIMPULAN DAN SARAN... 76
1. Kesimpulan ... 76
2. Saran ... 76
DAFTAR PUSTAKA... 77
DAFTAR TABEL
Hal.
Tabel 2.1 Perhitungan Pembobotan TF-IDFTerm Query ... 28
Tabel 3.1 Tabel Sumber Berita Online ... 32
Tabel 3.2 Tabel Daftar Konten Berita ... 35
Tabel 4.1 Hasil Ekstraksi Dokumen Konten Berita ... 48
Tabel 4.2 Representasi Kromosom Dokumen Kode Biner ... 50
Tabel 4.3 Nilai Fitness Dokumen Dok1... 52
Tabel 4.4 Hasil Perhitungan Fitness Kromosom ... 54
Tabel 4.5 Hasil Mutasi Kromosom ... 56
Tabel 4.6 Hasil Akhir Proses GA Cluster Awal ... 57
Tabel 4.7 Data Dokumen ... 59
Tabel 4.8 Pembobotan TF-IDF Pada Dokumen ... 60
Tabel 4.9 Perhitungan Nilai Variabel Pada Rumus Cosine Similarity ... 64
Tabel 4.10 Hasil Pengelompokan Akhir K-Means Clustering ... 68
Tabel 4.11 Hasil Pengujian Pusat Cluster Awal Random ... 69
Tabel 4.12 Hasil Pengujian Pusat Cluster Awal dengan GA ... 70
DAFTAR GAMBAR
Hal.
Gambar 2.1 Proses KDD (Knowledge Discovery in Databases) ... 7
Gambar 2.2 Ilustrasi tahapan proses dari algoritma genetika... 12
Gambar 2.3 Diagram Alir Algoritma Genetika ... 13
Gambar 2.4 Individu dalam Algoritma Genetika... 14
Gambar 2.5 Ilustrasi Seleksi denganRolette Wheel ... 17
Gambar 2.6 Tahap Preprocessing ... 22
Gambar 2.7 Proses Tokenizing ... 23
Gambar 2.8 Proses Filtering ... 23
Gambar 2.9 Proses Stemming... 24
Gambar 3.1 Skema Proses Pengelompokan ... 30
Gambar 3.2 Flowchart PreProcessingDokumen ... 37
Gambar 3.3 Proses Pembentukan Kromosom Dokumen ... 41
Gambar 3.4 Proses Optimasi PusatClusterAwal ... 42
Gambar 3.5 Proses Pengelompokan Dokumen dengan K-Means ... 44
Gambar 4.1 Menentukan sumber dokumen ... 73
Gambar 4.2 Setting Parameter Algoritma Genetika ... 73
Gambar 4.3 Proses Penentuan Pusat Cluster Awal ... 74
Gambar 4.4 Memasukkan Data Pusat Cluster Awal ... 74