ALGORITMA MODIFIED K-MEANS CLUSTERING PADA
PENENTUAN CLUSTER CENTRE BERBASIS
SUM OF SQUARED ERROR (SSE)
TESIS
RENA NAINGGOLAN
127038028
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2014
ALGORITMA MODIFIED K-MEANS CLUSTERING PADA
PENENTUAN CLUSTER CENTRE BERBASIS
SUM OF SQUARED ERROR (SSE)
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Magister Teknik Informatika
RENA NAINGGOLAN
127038028
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2014
PERSETUJUAN
Judul : ALGORITMA MODIFIED K-MEANS CLUSTERING
PADA PENENTUAN CLUSTER CENTRE BERBASIS SUM OF SQUARED ERROR (SSE)
Nama : RENA NAINGGOLAN
Nomor Induk Mahasiswa : 127038028
Program Studi : MAGISTER TEKNIK INFORMATIKA
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Prof. Dr. Iryanto, M. SI Prof. Dr. Herman Mawengkang
Diketahui/Disetujui Oleh
Program Studi Magister (S2) Teknik Informatika Ketua,
Prof. Dr. Muhammad Zarlis NIP. 195707011986011003
PENYATAAN
ALGORITMA MODIFIED K-MEANS CLUSTERING PADA PENENTUAN CLUSTER CENTRE BERBASIS
SUM OF SQUARED ERROR (SSE)
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 28 Agustus 2014
RENA NAINGGOLAN 127038028
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini :
Nama Mahasiswa : RENA NAINGGOLAN
Nomor Induk Mahasiwa : 127038028
Program Studi : Magister Teknik Informatika Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non Exclusive Royalti
Free Right) atas tesis saya yang berjudul:
ALGORITMA MODIFIED K-MEANS CLUSTERING PADA PENENTUAN CLUSTER CENTRE BERBASIS
SUM OF SQUARED ERROR (SSE)
Berserta perangkat yang ada (jika diperlukan).Dengan hak bebas royalty Non-Eksklusive ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya, selama tetap mencamtumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai hak cipta.
Demikianlah pernyataan ini dibuat dengan sebenarnya.
Medan, 28 Agustus 2014
RENA NAINGGOLAN 127038028
Telah diuji pada :
Tanggal : 28 Agustus2014
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Prof. Dr. Iryanto, M. SI
2. Prof. Dr. Muhammad Zarlis 3. Dr. Syahril Efendi
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap : Rena Nainggolan Tempat dan Tanggal Lahir : Garoga, 17 Juli1985
Alamat Rumah : Jl. Jamin Ginting, KM. 14, Blok R2, No.16 Telepon /Fax/HP : -/-/085762178101
E-mail : rena_q123@yahoo.com
Instansi Tempat Bekerja : RSUD Dr. Pirngadi Medan
Alamat Kantor : Jl. Prof. H. M. Yamin, NO.47 Medan
DATA PENDIDIKAN
SD : SD Negeri 173807 TAMAT :1997
SLTP : SLTP Negeri 1 Simanindo TAMAT:2000
SLTA : SMK Telkom Sandhy Putra Medan TAMAT : 2003 S1 : Teknik Informatika STMIK MIKROSKIL TAMAT :2011
UCAPAN TERIMA KASIH
Puji syukur kepada Tuhan Yang Maha Esa, atas segala limpahan berkat dan penyertaan-Nya sehingga tesis ini dapat diselesaikan tepat pada waktunya. Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih yang sebesar-besarnya kepada :
Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister.
Dekan Fasilkom-TI (Fakultas Ilmu Komputer dan Teknologi Informasi) Universitas Sumatera Utara Prof. Dr. Muhammad Zarlis, atas kesempatan yang diberikan kepada penulismenjadi mahasiswa Program Magister pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara.
Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr. Muhammad Zarlis dan Sekretaris Program Studi Magister (S2) Teknik Informatika M. Andri Budiman, S.T, M.Comp, M.E.M beserta seluruh staff pengajar pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara, yang telah bersedia membimbing penulis sehingga dapat menyelesaikan pendidikan tepat pada waktunya.
Terimakasih yang tak terhingga dan penghargaan yang ssetinggi-tingginya penulis ucapkan kepada Prof. Dr. Herman Mawengkangselaku pembimbing utama dan kepada Prof. Dr. Iryanto, M. SI, selaku pembimbing anggota yang dengan penuh kesabaran serta membimbing penulis hingga selesainya tesis ini dengan baik.
Terimakasih yang tak terhingga dan penghargaan yang ssetinggi-tingginya penulis ucapkan kepada Prof. Dr. Muhammad Zarlis,Dr. Zakarias Situmorang, dan Dr. Syahril Efendi sebagai pembanding yang telah memberikan saran dan masukan serta arahan yang baik demi penyelesaian tesis ini.
Universitas Sumatera Utara, Staf Pegawai dan Administrasi pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara yang telah memberikan bantuan dan pelayanan terbaik kapada penulis selama mengikuti perkuliahan.
Orang tua penulis. Ayahanda A. Nainggolan, Ibunda R. Rumahorbo dan segenap keluarga Abang/Kakakpenulisyang telah mendukung penulis dan terima kasih atas segala pengorbanannya, baik moril maupun materil.
Sahabat terkasih penulisBernard S. P. Siagian, ST. Terimakasih untuk segala doa, motivasi dan dukungan yang sangat berharga selama mengikuti perkuliahan hingga penyelesaian tesis ini.
Teman-teman seperjuangan angkatan 2012 Kom-B, untuk kebersamaan dan semangat menjalani perkuliahan dan dalam penyelesaian tesis ini.
Semua pihak yang tidak dapat penulis sebutkan satu persatu, terimakasih atas segala bantuan dan doa yang diberikan. Semoga karya ilmiah ini dapat bermanfaat bagi kemajuan ilmu pengetahuan dan pendidikan.
Medan, 28 Agustus 2014 Penulis
RENA NAINGGOLAN NIM :127038028
ABSTRAK
Salah satu teknik yang dikenal dalam Data Mining yaitu clustering. Pengertian
clustering keilmuan dalam data mining adalah pengelompokan sejumlah data atau
objek ke dalam cluster (group) sehingga setiap dalam cluster tersebut akan berisi data yang semirip mungkin dan berbeda dengan objek dalam cluster yang lainnya.Ada dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu hierarchical (hirarki) data clustering dan non hierarchical (non hirarki) data
clustering. K-Means merupakan salah satu metode data clustering non hirarki yang
berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluste/kelompok. Metode K-means merupakan metode clustering yang paling sederhana dan umum. Hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien. Namun, K-means mempunyai mempunyai kelemahan yang diakibatkan oleh penentuan pusat awal cluster. Hasil cluster yang terbentuk dari metode K-means ini sangatlah tergantung pada inisiasi nilai pusat awal cluster yang diberikan. Hal ini menyebabkan hasil clusternya berupa solusi yang sifatnya local optimal. Pada penelitian ini akan dilakukan modifikasi K-Mean Clustering untuk pencarian pusat cluster yang paling optimum berbasis Sum of Squared Error (SSE).Dari proses modifikasi ini, diharapkan pusat cluster yang diperoleh nantinya akan menghasilkancluster - cluster, dimana antar anggota cluster memiliki tingkat kemiripan yang tinggi.
Kata Kunci : Modifikasi Algoritma K-Means Clustering,Pusat Cluster, Sum of
MODIFIED ALGORITHM K-MEANS CLUSTERING BASED ON THE DETERMINATION CLUSTER CENTRE BASED
SUM OF SQUARED ERROR (SSE)
ABSTRACT
One of techniques popular inData Mining is clustering. Defenition clustering in scientific from data miningis some of data or objectsin one group or clusters into cluster so each cluster will containthedataas closely aspossibleanddifferent objects in another cluster. Thereare twomethodsof dataclusteringis often used inthe process ofgroupingthe datathat arehierarchical(hierarchy) andnon-hierarchical clusteringof data(non-hierarchical) clusteringof data. K-Means is one method fromnon-hierarchical clusteringof data this methodmake partition data theavailable datainonecluster ormore. MethodsK-Means clustering isthe mostsimple andgeneral. This is becauseK-means have abilityto groupingdata ina fairlylargeamountwith computingtimeisrelativelyfastandefficient. ButK-means hashadweakness becausebythe determination ofinitialclustercenters. The results ofthe clusterformed byK-means clustering methodis verydependenton theinitiationvalue ofthe starting pointcluster. This leads aclusterresultsbelocaloptimalsolution. In this research willbe modifiedK-Mean Clusteringforsearchthe clustercenters in the best optimal basedSumofSquaredError(SSE). From modificationprocess, be expectedclustercenterobtainedwill be result clusters-clusters, where theevery members cluster havea highdegree ofsimilarity.
Keyword : Modified Algorithm K-Means Clustering, Cluster Centre, Sum of Squared Error (SSE)
DAFTAR ISI Halaman HALAMAN JUDUL PENGESAHAN PERNYATAAN PERSETUJUAN PANITIA PENGUJI RIWAYAT HIDUP
UCAPAN TERIMA KASIH
ABSTRAK i
ABSTRACK ii
DAFTAR ISI iii
DAFTAR GAMBAR v
DAFTAR TABEL vi
BAB 1 PENDAHULUAN 1
1.1 Latar Belakang Masalah 1
1.2 Perumusan Masalah 3
1.3 Batasan Masalah 4
1.4 Tujuan Penelitian 4
1.5 Manfaat Penelitian 4
BAB 2 TINJAUAN PUSTAKA 5
2.1 Defenisi Data 5
2.1.1. Jenis Data Berdasarkan sifatnya 5
2.1.2. Jenis Data Menurut Subernya 7
2.1.3. Jenis Data Menurut Cara Memperolehnya 7 2.1.4. Jenis Data Menurut Waktu Pengumpulannya 7
2.2 Data Mining 8
2.3 Proses Data Mining 11 2.4 Clustering 12
2.5 Algoritma Clustering 14
2.5.1. Clustering Hirarki 19
2.5.2. Clustering Partisional (Partitional Clustering) 20
2.6 Sum Of Squared Error (SSE) 25
2.7 Distance Space Untuk Menghitung Jarak Antara Data
dan Centroid 26
2.7.1. Jarak Euclidean 26
2.7.2. Jarak Menhattan 27
2.7.3. Jarak Pearson 27
2.8 Riset Terkait 28
2.9 Perbedaan Dengan Riset Sebelumnya 29
BAB 3 METODOLOGI PENELITIAN 30
3.2 Transformasi Data 30
3.3 Perancangan Algoritma 31
3.4 Teknik Pengembangan 32
BAB 4 HASIL DAN PEMBAHASAN 34
4.1 Pendahuluan 34
4.2 Hasil Uji Coba 34
4.3 Data 34
4.4 Transformasi Data 35
4.5 Hasil Uji Coba 37
4.6 Solusi Pertama pada Iterasi Pertama 37 4.6.1. Pusat Cluster Pertama pada Solusi Pertama 37 4.6.2. Perhitungan Nilai SSE pada Iterasi Pertama 37 4.6.3. Pencapaian Nilai SSE Minimum pada Setiap Iterasi 39 4.7 Grafik Pencarian Nilai SSE Terbaik pada Setiap Iterasi 41 4.8 Grafik Perbandingan Nilai SSE Terbaik dan Terburuk 42 4.9 Pusat Cluster yang Paling Optimum 43
4.10 Jarak Euclidean 43
4.10.1. Perhitungan Jarak Setiap Data ke Pusat Cluster
Pada Iterasi Pertama 43
4.10.2. Perhitungan Jarak Setiap Data ke Pusat Cluster
Pada Iterasi Kedua 46
4.10.3. Perhitungan Jarak Setiap Data ke Pusat Cluster
Pada Iterasi Ketiga 50
4.11 Hasil Clustering Dengan Pusat Cluster yang Paling
Optimum 50
BAB 5 KESIMPULAN DAN SARAN 55
5.1 Kesimpulan 55
5.2 Saran 56
DAFTAR PUSTAKA LAMPIRAN
DAFTAR GAMBAR Nomor
Gambar
J u d u l Halaman
2.1. Perancangan Proses Data Mining 12
2.2. Contoh Proses Clustering 15
2.3 Flowhchart Algoritma Metode K-Means Clustering 23 3.1. Flowchart Modified K-Means Clustering Berbasis SSE 31
3.2. Langkah-langkah Penelitian 33
4.2. Grafik Pencarian Nilai SSE 42
DAFTAR TABEL Nomor Tabel J u d u l Halaman 2.1. Riset-Riset Terkait 28 4.1. Data Awal 35
4.2. Inisialisasi Data Wilayah Kota Asal 35
4.3 Inisialisasi Data Pekerjaan 36
4.4. Kesuluruhan Data yang Telah Diinisialisasikan 36 4.5. Titik Pusat Cluster Pada Solusi Pertama 37 4.6. Hasil Perhitungan Nilai SSE Pada Iterasi Pertama 38 4.7. Nilai SSE yang Paling Minimum Pada Iterasi Pertama 38
4.8. NIlai SSE dalam 20 Iterasi 39
4.9. Tabel Pencapaian Nilai SSE pada Setiap Iterasi 40 4.10. Pencapaian Nilai SSE Minimum pada Setiap Iterasi 41
4.11. Pusat Cluster Optimum 43
4.12. Jarak Setiap Data Pasien ke Titik Centroid pada Iterasi Ke-1 44
4.13. Pusat Cluster pada Iterasi Ke-2 46
4.14. Jarak Setiap Data Pasien ke Titik Centroid pada Iterasi Ke-2 48 4.15. Pusat Cluster pada Iterasi Ke-3 50