• Tidak ada hasil yang ditemukan

Optimasi Pusat Cluster Awal K-Means dengan Algoritma Genetika Pada Pengelompokan Dokumen

N/A
N/A
Protected

Academic year: 2017

Membagikan "Optimasi Pusat Cluster Awal K-Means dengan Algoritma Genetika Pada Pengelompokan Dokumen"

Copied!
16
0
0

Teks penuh

(1)

OPTIMASI PUSAT CLUSTER AWAL K-MEANS

DENGAN ALGORITMA GENETIKA PADA

PENGELOMPOKAN DOKUMEN

TESIS

MUHAMMAD FAUZI

147038065

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

(2)

OPTIMASI PUSAT CLUSTER AWAL K-MEANS

DENGAN ALGORITMA GENETIKA PADA

PENGELOMPOKAN DOKUMEN

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika

MUHAMMAD FAUZI

147038065

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

(3)

PERSETUJUAN

Judul : OPTIMASI PUSAT CLUSTER AWAL K-MEANS

DENGAN ALGORITMA GENETIKA PADA

PENGELOMPOKAN DOKUMEN

Kategori : TESIS

Nama : MUHAMMAD FAUZI

Nomor Induk Mahasiswa : 147038065

Program Studi : MAGISTER(S2) TEKNIK INFORMATIKA

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Dr. Sawaluddin, M.IT Prof. Dr. Muhammad Zarlis

Diketahui/disetujui oleh

Program Studi Magister(S2) Teknik Informatika Ketua,

(4)

PERNYATAAN

OPTIMASI PUSAT CLUSTER AWAL K-MEANS

DENGAN ALGORITMA GENETIKA PADA

PENGELOMPOKAN DOKUMEN

TESIS

Saya mengakui semua tesis ini adalah hasil karya saya sendiri kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, April 2017

(5)

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di

bawah ini :

Nama : Muhammad Fauzi

NIM : 147038065

Program Studi : Magister(S2) Teknik Informatika

Jenis Karya Ilmiah : Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada

Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif(Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul :

OPTIMASI PUSAT CLUSTER AWAL K-MEANS DENGAN ALGORITMA GENETIKA PADA

PENGELOMPOKAN DOKUMEN

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media,

memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis

saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai

penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, April 2017

(6)

Telah diuji pada

Tanggal : 28 April 2017

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Muhammad Zarlis

Anggota : 1. Dr.Sawaluddin, M.IT

2. Prof. Dr. Tulus

(7)

RIWAYAT HIDUP

DATA PRIBADI

Nama : Muhammad Fauzi, S.T, M.Kom

Tempat dan Tanggal Lahir : Medan, 15 Agustus 1991

Alamat Rumah : Jl. Tawang Mangu Lingk 1 Musyawarah,

Kelurahan Kwala Bingai, Stabat.

Telepon / HP : 085270014645

Email : [email protected]

Instansi tempat bekerja : Politeknik Unggul LP3M

Alamat Kantor : Jl. Iskandar Muda No.3 CDEF, Medan.

DATA PENDIDIKAN

SD : SDN 050659 Stabat TAMAT : 2003

SMP : MTsN 1 Stabat TAMAT : 2006

SMA : MAN 2 Tanjung Pura TAMAT : 2009

S1 : Teknik Informatika UNIMAL TAMAT : 2014

(8)

UCAPAN TERIMA KASIH

Bismillahirrahmaanirrahiim, Puji Syukur kehadirat Allah SWT, yang telah

melimpahkan rahmat dan karunia-Nya kepada penulis, sehingga penulis dapat

menyelesaikan tesis ini yang berjudul : Optimasi Pusat Cluster Awal K-Means dengan Algoritma Genetika Pada Pengelompokan Dokumen dengan sebaik-baiknya.

Penyusunan Tesis ini merupakan salah satu syarat untuk dapat memperoleh gelar

Magister (S2) Teknik Informatika Pada Universitas Sumatera Utara. Penulis

menyadari apa yang penulis tuangkan dalam Tesis ini tidak terlepas dari peranan

seluruh dosen, teman-teman dan seluruh keluarga yang turut memberikan bantuan

moril maupun materil. Untuk itu penulis menyampaikan terima kasih kepada:

1. Rektor Universitas Sumatera Utara, Bapak Prof. Dr. Runtung Sitepu, S.H.,

M.Hum., atas kesempatan yang telah diberikan kepada penulis untuk dapat

mengikuti dan menyelesaikan pendidikan Program Magister Teknik Informatika

Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

2. Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI)

Universitas Sumatera Utara, Bapak Prof. Dr. Opim Salim Sitompul, yang sudah

banyak memberikan bimbingan dan arahan.

3. Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad

Zarlis. Sekretaris Program Studi Teknik Informatika, Bapak Syahril Efendi, S.Si.,

M.IT. Beserta seluruh Staff Pengajar Program Studi Magister Teknik Informatika

Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama, demikian juga

kepada Bapak Dr. Sawaluddin, M.IT selaku Pembimbing Kedua yang dengan

penuh kesabaran menuntun dan membimbing penulis hingga selesainya tesis ini

dengan baik.

5. Bapak Prof. Dr. Tulus dan Bapak Dr. Pahala Sirait, S.T, M.Kom, sebagai Dosen

Pembanding yang telah memberikan saran dan masukan serta arahan yang baik

(9)

6. Ayahanda tercinta Drs. Nurdin Ahmad, Ibunda tercinta Dra. Dasni, serta

adik-adik, keponakan, kakak kakakku tersayang serta seluruh keluarga besar yang

selalu memberi do a dan dukungan kepada penulis.

7. Seluruh staf pegawai Program Studi S2 Teknik Informatika Fakultas Ilmu

Komputer dan Teknik Informatika, serta teman-teman seperjuangan mahasiswa/i

Kom-C 2014.

8. Dan seluruh pihak yang tidak dapat disebutkan satu persatu dalam tesis ini, sekali

lagi terima kasih atas segala bantuan dan doa yang telah diberikan.

Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini

dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan

penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca pada

umumnya. Oleh karena itu penulis mengucapkan banyak terima kasih, semoga Allah

SWT membalas kebaikan yang telah diberikan. Aamiin.

Medan, April 2017 Penulis,

(10)

ABSTRAK

Pengelompokan dokumen berdasarkan karakteristik kata yang ada pada dokumen dilakukan untuk memudahkan mengorganisir dokumen pada kebutuhan lebih lanjut. Algoritma K-Means clustering merupakan salah satu algoritma pengelompokan yang melakukan pengelompokan secara iteratif dengan melakukan partisi set data ke dalam sejumlah K cluster. Namun hasil pada K-Means clustering tersebut sangat ditentukan pada penentuan pusat cluster awal yang pada umumnya ditentukan secara random. Pada penelitian ini dilakukan penentuan pusat cluster awal K-Means untuk masalah pengelompokan dokumen dengan memanfaatkan algoritma genetika sebagai algoritma yang mengoptimasi pusat cluster awal K-Means tersebut. Pada hasil pengujian pengelompokan dokumen berita yang dilakukan sebanyak 5 kali untuk pusat cluster awal secara random tingkat keberhasilan mencapai 26.66 % sedangkan untuk pusat cluster awal dengan algoritma genetika tingkat keberhasilan mencapai 46.66 %.

(11)

OPTIMIZATION OF INITIAL CLUSTER CENTER K-MEANS WITH

GENETIC ALGORITHM IN DOCUMENTS CLUSTERING

ABSTRACT

Clustering a data set of documents based on certain data points in documents are an easy way to organize document for extension to work. K-Means clustering algorithm is one of iterative cluster algorithm to partition a set of entities into K cluster. Unfortunately, resulting in K Means cluster is depending on the initial cluster center that generally assigned randomly. In this reserach, determining initial cluster center K-Means for documents clustering are investigated by using genetic algorithm as an algorithm which optimize initial cluster center of K-Means. Based on the result of this test, clustering news document with 5 times for initial cluster center randomly has 26.66% for level of success, meanwhile for initial cluster center by using genetic algorithm has 46.66% for level of success.

(12)

DAFTAR ISI

Hal

HALAMAN JUDUL

PERSETUJUAN ... i

PERNYATAAN ... ii

PERSETUJUAN PUBLIKASI ... iii

PANITIA PENGUJI ... iv

RIWAYAT HIDUP ... vi

UCAPAN TERIMA KASIH... vi

ABSTRAK ... viii

ABSTRACT... xi

DAFTAR ISI... xii

DAFTAR TABEL... xiii

DAFTAR GAMBAR ... xiv

BAB 1 PENDAHULUAN... 1

1.1 Latar Belakang... 1

1.2 Rumusan Masalah... 3

1.3 Batasan Masalah ... 3

1.4 Tujuan dan Manfaat ... 3

1.5 Sistematika Penelitian... 3

BAB 2 TINJAUAN PUSTAKA... 5

2.1 Data Mining ... 5

2.1.1 Teknik Data Mining ... 5

2.1.2 Tahapan Data Mining ... 7

2.2 Algoritma K-Means ... 9

(13)

2.3.2 Teknik Pengkodean ... 14

2.3.3 Membangkitkan Populasi Awal dan Kromosom ... 15

2.3.4 Evaluasi Fitness ... 16

2.3.5 Operator Genetika ... 16

2.3.6 Terminasi ... 18

2.3.7 Parameter Algoritma Genetika ... 18

2.4 Teks Mining ... 19

2.4.1 Tahapan Teks Mining ... 20

2.4.2 Ekstraksi Dokumen ... 22

2.5Term Frequency-Inverse Document Frequency (TF-IDF)... 25

2.6 Cosine Similarity ... 28

2.7 Kontribusi Penelitian ... 29

BAB 3 METODOLOGI PENELITIAN... 30

3.1 Proses Penelitian ... 30

3.2 Tahapan Penelitian ... 31

3.3 Jenis dan Sumber Data ... 32

3.4 Penentuan Tema Dokumen Berita ... 34

3.5 Teknik Pengumpulan Data ... 36

3.6 Preprocessing Dokumen ... 36

3.6.1 Tokenizing... 37

3.6.2 Filtering ... 38

3.6.3 Stemming ... 39

3.7 Pembentukan Kromosom Dokumen ... 39

3.8 Optimasi Pusat Cluster Awal dengan Algoritma Genetika ... 41

3.9 Pengelompokan Dokumen dengan K-Means ... 43

3.10 Tahapan Iterasi Pengelompokan K-Means... 44

BAB 4 PEMBAHASAN DAN HASIL... 46

4.1 Pembahasan ... 46

4.2 Pemilihan Dokumen ... 46

(14)

4.4 Evaluasi Fitness ... 51

4.5 Proses Seleksi Pemilihan Kromosom ... 55

4.6 Crossover Kromosom ... 55

4.7 Mutasi Kromosom ... 56

4.8 Penentuan Akhir Proses Genetika ... 57

4.9 Menghitung Kemiripan Dokumen ... 59

4.10 Pengujian dan Hasil ... 69

4.10.1 Pengujian Pusat Cluster Awal Random ... 69

4.10.2 Pengujian Pusat Cluster Awal dengan GA ... 70

4.10.3 Pengujian Aplikasi ... 72

BAB 5 KESIMPULAN DAN SARAN... 76

1. Kesimpulan ... 76

2. Saran ... 76

DAFTAR PUSTAKA... 77

(15)

DAFTAR TABEL

Hal.

Tabel 2.1 Perhitungan Pembobotan TF-IDFTerm Query ... 28

Tabel 3.1 Tabel Sumber Berita Online ... 32

Tabel 3.2 Tabel Daftar Konten Berita ... 35

Tabel 4.1 Hasil Ekstraksi Dokumen Konten Berita ... 48

Tabel 4.2 Representasi Kromosom Dokumen Kode Biner ... 50

Tabel 4.3 Nilai Fitness Dokumen Dok1... 52

Tabel 4.4 Hasil Perhitungan Fitness Kromosom ... 54

Tabel 4.5 Hasil Mutasi Kromosom ... 56

Tabel 4.6 Hasil Akhir Proses GA Cluster Awal ... 57

Tabel 4.7 Data Dokumen ... 59

Tabel 4.8 Pembobotan TF-IDF Pada Dokumen ... 60

Tabel 4.9 Perhitungan Nilai Variabel Pada Rumus Cosine Similarity ... 64

Tabel 4.10 Hasil Pengelompokan Akhir K-Means Clustering ... 68

Tabel 4.11 Hasil Pengujian Pusat Cluster Awal Random ... 69

Tabel 4.12 Hasil Pengujian Pusat Cluster Awal dengan GA ... 70

(16)

DAFTAR GAMBAR

Hal.

Gambar 2.1 Proses KDD (Knowledge Discovery in Databases) ... 7

Gambar 2.2 Ilustrasi tahapan proses dari algoritma genetika... 12

Gambar 2.3 Diagram Alir Algoritma Genetika ... 13

Gambar 2.4 Individu dalam Algoritma Genetika... 14

Gambar 2.5 Ilustrasi Seleksi denganRolette Wheel ... 17

Gambar 2.6 Tahap Preprocessing ... 22

Gambar 2.7 Proses Tokenizing ... 23

Gambar 2.8 Proses Filtering ... 23

Gambar 2.9 Proses Stemming... 24

Gambar 3.1 Skema Proses Pengelompokan ... 30

Gambar 3.2 Flowchart PreProcessingDokumen ... 37

Gambar 3.3 Proses Pembentukan Kromosom Dokumen ... 41

Gambar 3.4 Proses Optimasi PusatClusterAwal ... 42

Gambar 3.5 Proses Pengelompokan Dokumen dengan K-Means ... 44

Gambar 4.1 Menentukan sumber dokumen ... 73

Gambar 4.2 Setting Parameter Algoritma Genetika ... 73

Gambar 4.3 Proses Penentuan Pusat Cluster Awal ... 74

Gambar 4.4 Memasukkan Data Pusat Cluster Awal ... 74

Referensi

Dokumen terkait

Sistem pengurusan yang akan dil e ngkapi dengan enjin pencari yang akan memudahkan pencarian maklumat.. Pengguna hanya perlu m e naip kat a

R'iSAK SEMUA / , -KALAU KITA MGLANAM. KITA AKAN DITUMPAS DAN DESA KITA DIJADI -. KAN LAUTAN API /.. BERAPA SAJA

Penilaian dari aspek Risk Profile dengan cakupan NPL pada tahun 2015 dan 2016 dinilai sangat. sehat, dan pada cakupan LDR pada tahun 2015 dan 2016

Pengaruh Kualitas Sistem, Kualitas Informasi, dan Kualitas Pelayanan Terhadap Manfaat Sistem Bagi Organisasi dengan Kepuasan Pengguna Sebagai Variabel Intervening

Kulit pohon ek putih biasanya direbus atau dikukus untuk menghasilkan cairan yang dapat dioleskan pada daerah anus yang terdapat ambeien atau dijadikan teh

disebabkan untuk menyara keluarga, iaitu sebanyak 59 % atau 17 orang... Manakala, faktor taraf pendidikan dan faktor ingin berdikari mencatatkan peratusan kedua tertinggi iaitu

Sarana sosialisasi menjadi penting baik bagi Panitia Pelaksana Pencalonan dan Pemilihan Kepala Desa maupun bagi masyarakat Mamuya pada umumnya, tahapan-

Penelitian ini bertujuan untuk menghasilkan multimedia interaktif yang layak digunakan untuk pembelajaran mata pelajaran teknologi informasi dan komunikasi pada