1
ANALISIS KINERJA METODE DBSCAN (
Density-Based Spatial
Clustering of Applications with Noise
) DAN K-MEANS DALAM
SISTEM PENDUKUNG KEPUTUSAN
TESIS
FAUZIAH NUR
147038069
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2
ANALISIS KINERJA METODE DBSCAN (
Density-Based Spatial
Clustering of Applications with Noise
) DAN METODE K-MEANS
DALAM SISTEM PENDUKUNG KEPUTUSAN
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika
FAUZIAH NUR
147038069
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
PERSETUJUAN
Judul : ANALISIS KINERJA METODE DBSCAN (Density-
Based Spatial Clustering of Applications with Noise)
DAN K-MEANS DALAM SISTEM PENDUKUNG KEPUTUSAN
Kategori : TESIS
Nama : FAUZIAH NUR
Nomor Induk Mahasiswa : 147038069
Program Studi : MAGISTER (S2) TEKNIK INFORMATIKA
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Dr. Benny Benyamin Nasution Prof. Dr. Muhammad Zarlis
Diketahui/disetujui oleh
Program Studi Magister Teknik Informatika Ketua,
PERNYATAAN
ANALISIS KINERJA METODE DBSCAN (Density-Based Spatial Clustering of
Applications with Noise) DAN K-MEANS DALAM
SISTEM PENDUKUNG KEPUTUSAN
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, April 2017
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai civitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini:
Nama : Fauziah Nur
NIM : 147038069
Program Studi : Magister (S2) Teknik Informatika Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty
Free Right) atas tesis saya yang berjudul:
ANALISIS KINERJA METODE DBSCAN (Density-Based Spatial Clustering of
Applications with Noise) DAN K-MEANS DALAM
SISTEM PENDUKUNG KEPUTUSAN
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa menerima izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, April 2017
Tanggal: April 2017
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Muhammad Zarlis Anggota : 1. Dr. Benny Benyamin Nasution
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap (berikut gelar) : Fauziah Nur, S.Kom, S.Pd Tempat dan Tanggal Lahir : Medan, 19 November 1991 Alamat Rumah : Jl. Mangaan IV Lr. Rahayu
Gg.Mulia No. 30 A Mabar, 20242 Medan Deli – Sumatera Utara
Telepon/Faks/HP : 0852 7732 5102
E-Mail : nur4ziah@gmail.com
DATA PENDIDIKAN
SD : SDN 101785 Mabar TAMAT: 2004
SMP : MTs Negeri 3 Medan TAMAT: 2007
SMA : MAN 1 Medan TAMAT: 2010
S1 : STMIK Logika Medan TAMAT: 2014
KATA PENGANTAR
Alhamdulillah, pertama tama dan yang paling utama, penulis mengucapkan puji dan syukur kehadirat Allah SWT, yang telah melimpahkan rahmat dan karunia-Nya kepada penulis, sehingga penulis dapat menyelesaikan tesis ini dengan sebaik-baiknya. Penulis mengucapkan terima kasih yang tak terhingga kepada pihak yang telah mendukung diantaranya:
1. Rektor Universitas Sumatera Utara, Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum., atas kesempatan yang telah diberikan kepada penulis untuk dapat mengikuti dan menyelesaikan pendidikan Program Magister Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
2. Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI) Universitas Sumatera Utara, Bapak Prof. Dr. Opim Salim Sitompul, yang sudah banyak memberikan bimbingan dan arahan.
3. Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad Zarlis. Sekretaris Program Studi Teknik Informatika, Bapak Syahril Efendi, S.Si., M.IT. Beserta seluruh Staf Pengajar Program Studi Magister Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama, demikian juga kepada Dr. Benny Benyamin Nasution. selaku Pembimbing Kedua yang dengan penuh kesabaran menuntun dan membimbing penulis hingga selesainya tesis ini dengan baik.
5. Bapak Dr. Syahril Efendi dan Bapak Dr. Pahala Sirait, sebagai Dosen Pembanding yang telah memberikan saran dan masukan serta arahan yang baik demi penyelesaian tesis ini.
7. Seluruh staf pegawai Program Studi Magister S2 Teknik Informatika Fakultas Ilmu Komputer dan Teknik Informatika, serta teman-teman seperjuangan mahasiswa/i Kom-C 2014.
8. Dan seluruh pihak yang tidak dapat disebutkan satu persatu dalam tesis ini, sekali lagi terima kasih atas segala bantuan dan doa yang telah diberikan. Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca pada umumnya. Sekali lagi penulis mengucapkan terima kasih, semoga Allah SWT membalas kebaikan yang telah diberikan. Aamiin.
Medan, April 2017
Penulis,
Fauziah Nur
ABSTRAK
Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan
(unsupervised) dan suatu metode untuk mencari dan mengelompokan data yang
memiliki kemiripan karakteristik antara satu data dengan data lain. Dalam penelitian ini, untuk pengelompokan data menggunakan metode K-Means dan metode DBSCAN, adapun tambahan metode pengelompokan yaitu rule-based classification sebagai perbandingan antara metode K-Means dan DBSCAN. Dalam hal ini, peneliti mengelompokan 6 kelompok jurusan pada sekolah menengah kejuruan SMK Swasta Medan Area.1 dengan menggunakan kriteria – kriteria yang terdapat dalam data siswa tersebut seperti jenis kelamin, pendapatan orang tua, tanggungan anak orang tua, nilai tes dan tinggi badan siswa. Data sampel yang diuji adalah berjumlah 40 data siswa SMK. Pada penelitian ini, untuk pengujian rule-based classification menghasilkan 648 rule. Kemudian data dikelompokan dengan menggunakan k-Means yang menghasilkan 6 kelompok, dengan adanya 2 noise. Pengelompokan terjadi hingga 4 kali iterasi. Pada metode DBSCAN pengelompokan data menggunakan 2 parameter yaitu epsilon= 0.00972 dan MinPts= 2 yang menghasilkan 3 kelompok. Setelah hasil pengelompokan dengan menggunakan kedua metode tersebut, selanjutnya data diuji menggunakan uji statistik nonparametrik dengan hasil Zhitung = 4.8 sehingga didapat hasil menolak H0 dan
menerima H1 yang berarti penggunaan K-Means lebih optimal daripada penggunaan
DBSCAN dalam penelitian ini. Pengelompokan ini bermanfaat untuk mengelompokan
siswa sesuai jurusan berdasarkan beberapa kriteria yang telah ditentukan dan menguji kinerja metode yang digunakan.
ANALYSIS OF PERFORMANCE DBSCAN (Density-Based Spatial Clustering of Applications with Noise) AND K-MEANS METHODS IN DECISION OF
SUPPORT SYSTEM
ABSTRACT
Clustering is one of the unsupervised mining data methods; it is also a method used to seek and to group data which have characteristic resemblance from one datum to another one. In this research, K-means method and DBSCAN method were used to group the data; rule-based classification was also used to the supplementary clustering method as a comparison between K-Means method and DBSCAN method. In this case, the research grouped 6 clusters at SMK Swasta (Private Vocational School) Medan
Area 1 by using the criteria found in the students’ data such as sex, parents’ income, parents’ dependents, test scores, and students’ body height. There were 40 data of the
students as the samples. The result of rule-based classification was 648 rules. The data were then grouped by using K-Means method which yielded 6 clusters with only 3 noises. Grouping occurred until 4 iterations. In DBSCAN method, the data were grouped by using 2 parameters: epsilon = 0.00972 and MinPts = 2 which yielded 3 clusters. After grouping by using both methods, the data were tested by using non-parametric statistical test; the result was Zcount = 4.8 so the Ho was rejected and Hi was
accepted which indicated that using K-Means was more optimal than using DBSCAN in this research. This clustering was beneficial to group the students according some criteria which had determined and tested the performance of the used methods.
DAFTAR ISI BAB 1 PENDAHULUAN
1.1. Latar Belakang 1.2. Perumusan Masalah 1.3. Batasan Masalah 1.4.Tujuan Penelitian 1.5.Manfaat Penelitian
BAB 2 TINJAUAN PUSTAKA
2.1. Penelitian Terkait
2.2. Sistem Pendukung Keputusan (SPK) 2.3. Data Mining
2.3.1. Proses Data Mining
2.3.2. Data Mining dalam Berbagai Disiplin Ilmu 2.4. Clustering
2.6. Metode DBSCAN 2.7. Metode K-Means 2.8. Konvergen
2.9. Statistik Nonparametrik 2.10. Uji Tanda(Sign Test)
BAB 3 METODOLOGI PENELITIAN
3.1. Pendahuluan
3.2. Lingkungan Penelitian 3.3. Teknik Pengembangan 3.4. Rancangan Penelitian 3.5. Tahapan Penelitian
3.5.1. Analisis dan Pengambilan Data 3.5.2. Pengelompokan Data Sesuai Kriteria 3.5.3. Clustering Data
3.5.3.1. Algoritma DBSCAN
3.5.3.2. Clustering dengan DBSCAN 3.5.3.3. Algoritma K-Means
3.5.3.4. Clustering dengan K-Means 3.5.4. Pengujian Metode
BAB 4 HASIL DAN PEMBAHASAN
4.1. Pengantar 4.2. Hasil Uji Coba
4.2.1. Clustering Metode DBSCAN 4.2.2. Clustering Metode K-Means 4.2.3. Kinerja Metode
4.3. Kontribusi Penelitian
BAB 5 KESIMPULAN DAN SARAN
5.1. Kesimpulan 5.2. Saran
DAFTAR TABEL
Tabel 3.1 Inisialisasi Data
Tabel 3.2 Penentuan Range untuk Cluster Tabel 3.3 Centroid Awal
Tabel 4.1 Hasil Cluster dengan DBSCAN Tabel 4.2 Centroid Baru Pertama
Tabel 4.3 Centroid Baru Kedua Tabel 4.4 Centroid Baru Ketiga
DAFTAR GAMBAR
Gambar 2.1 Komponen Sistem Pendukung Keputusan (SPK) Gambar 2.2 Proses Data Mining
Gambar 2.3 Posisi Data Mining di antara Beberapa Bidang Ilmu Gambar 2.4 Pengelompokan dengan Cluster
Gambar 3.1 Rancangan Penelitian Gambar 3.2 Flowchart DBSCAN
Gambar 3.3 Jarak Euclidean pada DBSCAN Gambar 3.4 Flowchart K-Means
Gambar 3.5 Penggunaan Notasi Uji Nonparametrik Gambar 3.6 Penetapan H0 dan H1
Gambar 4.1 Proses Pengujian pada DBSCAN Gambar 4.2 Hasil Uji pada DBSCAN
Gambar 4.3 Pengelompokan Data dengan DBSCAN Gambar 4.4 Cluster Awal pada K-Means
Gambar 4.5 Cluster Akhir pada K-Means