Analisis Kinerja Metode Dbscan (Density-Based Spatial Clustering of Applications with Noise) dan K-Means Dalam Sistem Pendukung Keputusan

(1)

1

ANALISIS KINERJA METODE DBSCAN (

Density-Based Spatial

Clustering of Applications with Noise

) DAN K-MEANS DALAM

SISTEM PENDUKUNG KEPUTUSAN

TESIS

FAUZIAH NUR

147038069

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(2)

2

ANALISIS KINERJA METODE DBSCAN (

Density-Based Spatial

Clustering of Applications with Noise

) DAN METODE K-MEANS

DALAM SISTEM PENDUKUNG KEPUTUSAN

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika

FAUZIAH NUR

147038069

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(3)

PERSETUJUAN

Judul : ANALISIS KINERJA METODE DBSCAN (Density-

Based Spatial Clustering of Applications with Noise)

DAN K-MEANS DALAM SISTEM PENDUKUNG KEPUTUSAN

Kategori : TESIS

Nama : FAUZIAH NUR

Nomor Induk Mahasiswa : 147038069

Program Studi : MAGISTER (S2) TEKNIK INFORMATIKA

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Dr. Benny Benyamin Nasution Prof. Dr. Muhammad Zarlis

Diketahui/disetujui oleh

Program Studi Magister Teknik Informatika Ketua,

(4)

PERNYATAAN

ANALISIS KINERJA METODE DBSCAN (Density-Based Spatial Clustering of

Applications with Noise) DAN K-MEANS DALAM

SISTEM PENDUKUNG KEPUTUSAN

TESIS

Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, April 2017

(5)

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

Sebagai civitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini:

Nama : Fauziah Nur

NIM : 147038069

Program Studi : Magister (S2) Teknik Informatika Jenis Karya Ilmiah : Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty

Free Right) atas tesis saya yang berjudul:

ANALISIS KINERJA METODE DBSCAN (Density-Based Spatial Clustering of

Applications with Noise) DAN K-MEANS DALAM

SISTEM PENDUKUNG KEPUTUSAN

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa menerima izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, April 2017

(6)

Tanggal: April 2017

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Muhammad Zarlis Anggota : 1. Dr. Benny Benyamin Nasution

(7)

RIWAYAT HIDUP

DATA PRIBADI

Nama Lengkap (berikut gelar) : Fauziah Nur, S.Kom, S.Pd Tempat dan Tanggal Lahir : Medan, 19 November 1991 Alamat Rumah : Jl. Mangaan IV Lr. Rahayu

Gg.Mulia No. 30 A Mabar, 20242 Medan Deli – Sumatera Utara

Telepon/Faks/HP : 0852 7732 5102

E-Mail : [email protected]

DATA PENDIDIKAN

SD : SDN 101785 Mabar TAMAT: 2004

SMP : MTs Negeri 3 Medan TAMAT: 2007

SMA : MAN 1 Medan TAMAT: 2010

S1 : STMIK Logika Medan TAMAT: 2014

(8)

KATA PENGANTAR

Alhamdulillah, pertama tama dan yang paling utama, penulis mengucapkan puji dan syukur kehadirat Allah SWT, yang telah melimpahkan rahmat dan karunia-Nya kepada penulis, sehingga penulis dapat menyelesaikan tesis ini dengan sebaik-baiknya. Penulis mengucapkan terima kasih yang tak terhingga kepada pihak yang telah mendukung diantaranya:

1. Rektor Universitas Sumatera Utara, Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum., atas kesempatan yang telah diberikan kepada penulis untuk dapat mengikuti dan menyelesaikan pendidikan Program Magister Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

2. Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI) Universitas Sumatera Utara, Bapak Prof. Dr. Opim Salim Sitompul, yang sudah banyak memberikan bimbingan dan arahan.

3. Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad Zarlis. Sekretaris Program Studi Teknik Informatika, Bapak Syahril Efendi, S.Si., M.IT. Beserta seluruh Staf Pengajar Program Studi Magister Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama, demikian juga kepada Dr. Benny Benyamin Nasution. selaku Pembimbing Kedua yang dengan penuh kesabaran menuntun dan membimbing penulis hingga selesainya tesis ini dengan baik.

5. Bapak Dr. Syahril Efendi dan Bapak Dr. Pahala Sirait, sebagai Dosen Pembanding yang telah memberikan saran dan masukan serta arahan yang baik demi penyelesaian tesis ini.

(9)

7. Seluruh staf pegawai Program Studi Magister S2 Teknik Informatika Fakultas Ilmu Komputer dan Teknik Informatika, serta teman-teman seperjuangan mahasiswa/i Kom-C 2014.

8. Dan seluruh pihak yang tidak dapat disebutkan satu persatu dalam tesis ini, sekali lagi terima kasih atas segala bantuan dan doa yang telah diberikan. Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca pada umumnya. Sekali lagi penulis mengucapkan terima kasih, semoga Allah SWT membalas kebaikan yang telah diberikan. Aamiin.

Medan, April 2017

Penulis,

Fauziah Nur

(10)

ABSTRAK

Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan

(unsupervised) dan suatu metode untuk mencari dan mengelompokan data yang

memiliki kemiripan karakteristik antara satu data dengan data lain. Dalam penelitian ini, untuk pengelompokan data menggunakan metode K-Means dan metode DBSCAN, adapun tambahan metode pengelompokan yaitu rule-based classification sebagai perbandingan antara metode K-Means dan DBSCAN. Dalam hal ini, peneliti mengelompokan 6 kelompok jurusan pada sekolah menengah kejuruan SMK Swasta Medan Area.1 dengan menggunakan kriteria – kriteria yang terdapat dalam data siswa tersebut seperti jenis kelamin, pendapatan orang tua, tanggungan anak orang tua, nilai tes dan tinggi badan siswa. Data sampel yang diuji adalah berjumlah 40 data siswa SMK. Pada penelitian ini, untuk pengujian rule-based classification menghasilkan 648 rule. Kemudian data dikelompokan dengan menggunakan k-Means yang menghasilkan 6 kelompok, dengan adanya 2 noise. Pengelompokan terjadi hingga 4 kali iterasi. Pada metode DBSCAN pengelompokan data menggunakan 2 parameter yaitu epsilon= 0.00972 dan MinPts= 2 yang menghasilkan 3 kelompok. Setelah hasil pengelompokan dengan menggunakan kedua metode tersebut, selanjutnya data diuji menggunakan uji statistik nonparametrik dengan hasil Zhitung = 4.8 sehingga didapat hasil menolak H0 dan

menerima H1 yang berarti penggunaan K-Means lebih optimal daripada penggunaan

DBSCAN dalam penelitian ini. Pengelompokan ini bermanfaat untuk mengelompokan

siswa sesuai jurusan berdasarkan beberapa kriteria yang telah ditentukan dan menguji kinerja metode yang digunakan.

(11)

ANALYSIS OF PERFORMANCE DBSCAN (Density-Based Spatial Clustering of Applications with Noise) AND K-MEANS METHODS IN DECISION OF

SUPPORT SYSTEM

ABSTRACT

Clustering is one of the unsupervised mining data methods; it is also a method used to seek and to group data which have characteristic resemblance from one datum to another one. In this research, K-means method and DBSCAN method were used to group the data; rule-based classification was also used to the supplementary clustering method as a comparison between K-Means method and DBSCAN method. In this case, the research grouped 6 clusters at SMK Swasta (Private Vocational School) Medan

Area 1 by using the criteria found in the students’ data such as sex, parents’ income, parents’ dependents, test scores, and students’ body height. There were 40 data of the

students as the samples. The result of rule-based classification was 648 rules. The data were then grouped by using K-Means method which yielded 6 clusters with only 3 noises. Grouping occurred until 4 iterations. In DBSCAN method, the data were grouped by using 2 parameters: epsilon = 0.00972 and MinPts = 2 which yielded 3 clusters. After grouping by using both methods, the data were tested by using non-parametric statistical test; the result was Zcount = 4.8 so the Ho was rejected and Hi was

accepted which indicated that using K-Means was more optimal than using DBSCAN in this research. This clustering was beneficial to group the students according some criteria which had determined and tested the performance of the used methods.

(12)

DAFTAR ISI BAB 1 PENDAHULUAN

1.1. Latar Belakang 1.2. Perumusan Masalah 1.3. Batasan Masalah 1.4.Tujuan Penelitian 1.5.Manfaat Penelitian

BAB 2 TINJAUAN PUSTAKA

2.1. Penelitian Terkait

2.2. Sistem Pendukung Keputusan (SPK) 2.3. Data Mining

2.3.1. Proses Data Mining

2.3.2. Data Mining dalam Berbagai Disiplin Ilmu 2.4. Clustering

(13)

2.6. Metode DBSCAN 2.7. Metode K-Means 2.8. Konvergen

2.9. Statistik Nonparametrik 2.10. Uji Tanda(Sign Test)

BAB 3 METODOLOGI PENELITIAN

3.1. Pendahuluan

3.2. Lingkungan Penelitian 3.3. Teknik Pengembangan 3.4. Rancangan Penelitian 3.5. Tahapan Penelitian

3.5.1. Analisis dan Pengambilan Data 3.5.2. Pengelompokan Data Sesuai Kriteria 3.5.3. Clustering Data

3.5.3.1. Algoritma DBSCAN

3.5.3.2. Clustering dengan DBSCAN 3.5.3.3. Algoritma K-Means

3.5.3.4. Clustering dengan K-Means 3.5.4. Pengujian Metode

BAB 4 HASIL DAN PEMBAHASAN

4.1. Pengantar 4.2. Hasil Uji Coba

4.2.1. Clustering Metode DBSCAN 4.2.2. Clustering Metode K-Means 4.2.3. Kinerja Metode

4.3. Kontribusi Penelitian

BAB 5 KESIMPULAN DAN SARAN

5.1. Kesimpulan 5.2. Saran

(14)

DAFTAR TABEL

Tabel 3.1 Inisialisasi Data

Tabel 3.2 Penentuan Range untuk Cluster Tabel 3.3 Centroid Awal

Tabel 4.1 Hasil Cluster dengan DBSCAN Tabel 4.2 Centroid Baru Pertama

Tabel 4.3 Centroid Baru Kedua Tabel 4.4 Centroid Baru Ketiga

(15)

DAFTAR GAMBAR

Gambar 2.1 Komponen Sistem Pendukung Keputusan (SPK) Gambar 2.2 Proses Data Mining

Gambar 2.3 Posisi Data Mining di antara Beberapa Bidang Ilmu Gambar 2.4 Pengelompokan dengan Cluster

Gambar 3.1 Rancangan Penelitian Gambar 3.2 Flowchart DBSCAN

Gambar 3.3 Jarak Euclidean pada DBSCAN Gambar 3.4 Flowchart K-Means

Gambar 3.5 Penggunaan Notasi Uji Nonparametrik Gambar 3.6 Penetapan H0 dan H1

Gambar 4.1 Proses Pengujian pada DBSCAN Gambar 4.2 Hasil Uji pada DBSCAN

Gambar 4.3 Pengelompokan Data dengan DBSCAN Gambar 4.4 Cluster Awal pada K-Means

Gambar 4.5 Cluster Akhir pada K-Means