Analisis Kinerja Metode Dbscan (Density-Based Spatial Clustering of Applications with Noise) dan K-Means Dalam Sistem Pendukung Keputusan Chapter III V

(1)

BAB 3

METODOLOGI PENELITIAN

3.1. Pendahuluan

Metodologi penelitian ini digunakan untuk mendapatkan hasil sesuai dengan yang diharapkan. Penelitian ini berdasarkan referensi dari penelitain yang telah dilakukan oleh Mardiani yang membahas mengenai perbandingan algoritma K-Means dan EM untuk clusterisasi nilai mahasiswa berdasrkan asal sekolah dan penelitian yang telah dilakukan oleh Ni Made et al mengenai clustering DBSCAN dalam proses sistem pengambilan keputusan. Oleh karena itu, dalam penelitian ini peneliti akan melakukan pengujian kinerja metode DBSCAN dan K-Means dalam sistem pendukung keputusan, serta sebagai metode kalsifikasi yaitu rule-based classification dalam pengelompokan data yang berbeda dengan menggunakan metode yang berbeda pula untuk mengelompokan data siswa dalam penentuan jurusan pada sekolah menengah kejuruan.

(2)

kedua metode tersebut yang akan menunjukan metode tersebut optimal dalam pengelompokannya, yaitu dengan menggunakan pengujian statistik nonparametrik.

Berdasarkan hal tersebut, peneliti akan melakukan penelitian pada salah satu sekolah menengah kejuruan. Objek penelitian ini adalah seluruh SMK yang berada di kota Medan provinsi Sumatera Utara. Dari seluruh sekolah menengah kejuruan, peneliti akan mengambil sample penelitian yaitu sekolah menengah kejuruan swasta medan area-1. Penelitian ini akan dilakukan dengan menggunakan metode yang telah dipaparkan sebelumnya berupa metode DBSCAN dan K-Means.

3.2.Lingkungan penelitian

Cluster merupakan metodologi untuk klasifikasi data secara otomatis menjadi beberapa kelompok dengan menggunakan ukuran asosiasi, sehingga data yang sama berada dalam satu kelompok yang sama dan data yang berbeda berada dalam kelompok data yang tidak sama. Dalam cluster terdapat dua metode berdasarkan partisinya yaitu DBSCAN (Density-Based Spatial Clustering Of Applications with Noise) dan K-Means. Pada metode DBSCAN data akan dikelompokan sesuai tingkat kepadatan data yang memiliki noise dalam setiap data. Sedangkan pada K-Means data akan dikelompokan sesuai rata-rata data ke dalam suatu kelompok yang sama apabila data yang ada adalah data yang sama dan data yang berbeda akan dikelompokan di kelompok lain.

3.3.Teknik Pengembangan

(3)

komputasi tambahan. Untuk itu pada penelitian ini, penulis akan menggunakan dua metode tersebut untuk diterapkan pada data yang sama, sehingga data tersebut akan dapat diketahui keefektifan data yang lebih baik.

3.4.Rancangan Penelitian

Untuk rancangan kerja penelitian ini akan dilakukan analisis terhadap data yang akan diinputkan ke dalam metode yang digunakan pada penelitian ini. Dimana untuk tahap pertama adalah mengambil data yang akan diteliti dan kemudian data tersebut diuji dengan mengolah data untuk dikelompokan sesuai karakteristiknya dengan menggunakan metode K-Means. Setelah mendapat kelompok data dengan K-Means, kemudian pengelompokkan data akan diuji dengan menggunakan metode DBSCAN dengan proses yang berbeda, kemudian pengujian data dengan kedua metode tersebut K-Means dan DBSCAN. Untuk data yang tidak besar, penyelesaiannya dapat menggunakan rule-based classification untuk pengujiannya. Untuk lebih jelas dapat dilihat pada gambar 3.1 berikut.

Analisis data Pengambilan data Pengelompokan data sesuai kriteria

3.5.1. Analisis dan Pengambilan Data

(4)

telah mendaftar di sekolah menengah kejuruan. Data sampel tersebut berisi nomor pendaftaran siswa, nama, usia, jenis kelamin, pekerjaan orang tua, penghasilan orang tua, hasil nilai tes, tinggi badan calon siswa dan tanggungan anak orang tua. Dalam hal ini, peneliti akan mengambil beberapa kriteria dari data sampel tersebut untuk dilakukan pengelompokan data berikutnya yaitu jenis kelamin, pekerjaan orang tua, penghasilan orang tua, hasil nilai tes, tinggi badan calon siswa dan tanggungan anak orang tua.

Sebelum data sampel dikelompokan maka data awal akan diubah menjadi data interval agar data mudah digunakan dalam pengelompokan. Setelah data diintervalkan maka selanjutnya dilakukan penginisialisasian pada setiap data.

Tabel 3.1 Inisialisasi Data

3.5.2. Pengelompokan Data Sesuai Kriteria

(5)

R1: IF X1=1 OR 2 AND X2=1 AND X3=1 AND X4=1 AND X5=1 THEN tidak lulus

Algoritma DBSCAN digunakan pada spatial database yang memuat noise. Density dari objek Ɵdapat diukur dari banyaknya objek yang dekat ke Ɵ. DBSCAN

menghubungkan objek inti dan daerah sekitarnya untuk membentuk daerah padat sebagai cluster (Nurjayanti, 2016).

Input: sebuah set titik = { , , … . . , }, jarak threshold ԑ, dan jumlah minimum

titik yang dibutuhkan untuk cluster MinPts.

Output: sebuah titik set berlabel = { , , … . . , }, dimana masing-masing titik

mempunyai lambang yang sesuai dengan salah satu dari cor, border atau noise dan dalam kasus lambang menjadi core atau border sesuai pengidentifikasian cluster.

Berikut Algoritma DBSCAN (Ni Made et al, 2015): 1. Menginisialisasi parameter minpts, eps

2. Menentukan titik awal atau p secara acak 3. Mengulangi langkah 3 – 5 hingga titik diproses

4. Menghitung eps atau semua jarak titik yang density reachable terhadap p menggunakan persamaan 3.1

,

= √∑

₌

−

... (3.1) Jika titik yang memenuhi eps lebih dari minpts maka titik p adalah core point dan cluster terbentuk

(6)

Berikut adalah langkah – langkah persamaan 3.1 dengan menggunakan flowchart:

Jumlah titik dalam radius eps >= minpts?

Cluster terbentuk

Gambar 3.2 Flowchart DBSCAN Sumber: Ni Made et al (2015)

3.5.3.2. Clustering dengan DBSCAN

(7)

0 Setelah dilakukan perhitungan jarak euclidean terhadap r, akan digambarkan ke dalam bentuk grafik. Seperti pada gambar 3.2 berikut:

Gambar 3.3 Jarak Euclidean pada DBSCAN

Pada gambar di atas menjelaskan bahwa penyebaran data berdasarkan jarak euclidean pada metode DBSCAN secara acak (random) terhadap radius epsilon.

3.5.3.3. Algoritma K-Means

Secara umum pengelompokan data dengan metode K-Means dapat dilakukan dengan algoritma (Eko P., 2012), diantaranya:

1. Menentukan jumlah k sebagai cluster yang akan dibentuk

2. Membangkitkan k centroid (titik pusat cluster) awal secara random (acak)

3. Menghitung jarak setiap data ke masing – masing centroid dari masing – masing cluster

4. Mengalokasikan masing-masing data ke dalam centroid yang paling terdekat

5. Melakukan iterasi, kemudian menentukan posisi centroid baru dengan cara menghitung rata – rata dari data yang berada pada centroid yang sama

(8)

Mulai

Menentukan banyaknya cluster (k)

Menentukan cenroid awal

Mencari jarak terdekat (euclidean)

Menentukan centroid baru cluster

Mengelompokan data berdasarkan jarak terdekat

dengan centroid

Data tidak ada yang berpindah cluster

Hasil Cluster

Selesai

Mencari centroid baru

Ya

Tidak

Gambar 3.4 Flowchart K-Means Sumber: Ernie et al (2017)

3.5.3.4. Clustering dengan K-Means

(9)

metode K-Means. Agar data tersebut dapat dikelompokan harus menggunakan tahapan langkah – langkah cluster untuk mengelompokkan data tersebut, yaitu sebagai berikut: 1. Terlebih dahulu menentukan jumlah kelompoknya. Dalam penelitian ini pengelompokan data akan dikelompokan menjadi 6 cluster, untuk menentukan jumlah cluster menggunakan rumus:

� = √ / ... (3.2) menentukan target awal k-means, rumus tersebut digunakan untuk mendapatkan target data atau jarak antara kelompok, yaitu titik pusat awal untuk menghitung algoritma k-means iterasi 0. Rumus tersebut seperti pada persamaan 3.3 berikut:

� ℎ

� ℎ + ... (3.3) Keterangan :

Jumlah data = jumlah data yang akan digunakan

Jumlah class = jumlah kelompok (cluster) yang telah ditentukan sebelumnya Sehingga,

+ =

Tabel 3.2 Penentuan Range untuk Cluster Cluster Ʃmin Ʃmax Cluster

1 0 7 Tidak Lulus

2 8 11 Rekayasa Perangkat Lunak (RPL)

3 12 15 Teknik Komputer dan Jaringan (TKJ)

4 16 18 Administrasi Perkantoran (AP)

5 19 20 Akuntansi (AK)

6 21 22 Multimedia (MM)

(10)

3. Menghitung jarak terdekat (euclidean) dengan centroid (titik pusat) pada setiap record data dengan menggunakan rumus euclidean pada persamaan 2.3.

Tabel 3.3 Centroid Awal

CLUSTER X1 X2 X3 X4 X5

C1 1.5 1 1.5 1 1.5

C2 1.571429 1.142857 2.714286 3.714286 2

C3 1.653846 2 3.923077 3.807692 1.923077

C4 1.666667 3.666667 4.666667 4.666667 1.666667

C5 2 6 6 5 1

C6 2 6 6 5 2

Untuk menentukan jarak terdekat tersebut akan dihitung jarak Euclidean dari data calon siswa pertama ke pusat cluster pada iterasi-1.

Jarak data calon siswa pertama ke pusat cluster pertama:

D(1,1)= √ − . + − + − . + − + − . = 3.4278

Dari hasil perhitungan di atas didapatkan bahwa jarak data calon siswa pertama dengan pusat cluster pertama adalah 3.4278.

Jarak data calon siswa pertama ke pusat cluster kedua:

D(1,2)=√ − . + − . + − . + − . + − =1.7554

Dari hasil perhitungan di atas didapatkan bahwa jarak data calon siswa pertama dengan pusat cluster kedua adalah 1.7554.

Jarak data calon siswa pertama ke pusat cluster ketiga:

D(1,3)= √ − . + − . + − . + − . + − . = 0.8854

Dari hasil perhitungan di atas didapatkan bahwa jarak data calon siswa pertama dengan pusat cluster ketiga adalah 0.8854.

Jarak data calon siswa pertama ke pusat cluster keempat:

D(1,4)= √ − . + − . + − . + − . + − . = 2.4944

Dari hasil perhitungan di atas didapatkan bahwa jarak data calon siswa pertama dengan pusat cluster keempat adalah 2.4944.

Jarak data calon siswa pertama ke pusat cluster kelima:

(11)

Dari hasil perhitungan di atas didapatkan bahwa jarak data calon siswa pertama dengan pusat cluster kelima adalah 5.

Jarak data calon siswa pertama ke pusat cluster keenam:

D(1,6)= √ − + − + − + − + − = 4.898

Dari hasil perhitungan di atas didapatkan bahwa jarak data calon siswa pertama dengan pusat cluster keenam adalah 4.898. Berdasarkan perhitungan jarak terdekat pada setiap data ke titik pusat, bahwa pada data siswa pertama dapat dikelompokan ke dalam kelompok ketiga dengan jarak terdekat 0.885.

3.5.4. Pengujian Metode

Pengujian metode merupakan tahapan akhir penelitian ini, yaitu pengujian dilakukan dengan pengujian statistik nonparametrik. Dalam pengujian tersebut agar menunjukkan hasil yang diharapkan adalah pengujian dilakukan dengan menggunakan uji tanda (sign test). Pada penelitian ini digunakan uji tanda dalam uji statistik nonparametrik dengan menggunakan tabel Z. Uji tanda digunakan pada situasi dimana data tidak dianggap normal atau datanya bersifat ordinal. Terlebih dahulu menentukan nilai tabel Z yang bernilai � = . dengan menggunakan formula:

= − �_� ... (3.4)

� = √� ∗ ∗ ... (3.5)

(12)

Gambar 3.5 Penggunaan Notasi Uji Nonparametrik

Berdasarkan penetapan H0 dan H1, maka data sampel akan diuji menggunakan uji satu arah. Uji tersebut akan memperlihatakan pengoptimalan kinerja dari metode yang telah digunakan.

(13)

BAB 4

HASIL DAN PEMBAHASAN

4.1. Pengantar

Pada bab ini akan dibahas mengenai hasil – hasil yang diperoleh dalam penelitian ini terhadap analisis yang telah dilakukan. Pada selanjutnya akan ditarik kesimpulan dari hasil penelitian ini, apakah dengan menggunakan metode K-Means dan DBSCAN dapat menghasilkan pengelompokan yang optimal sesuai kriteria yang telah ditentukan dalam penelitian ini.

Pada penelitian ini untuk pengelompokan data menggunakan ms.excel dan RapidMiner yang bertujuan untuk mengelompokan data siswa pada metode DBSCAN (Density-Based Spatial of Applications with Noise) dan K-Means dalam sistem pendukung keputusan untuk menentukan pengelompokan jurusan pada tingkat sekolah menengah kejuruan. Pada penelitian ini akan menggunakan beberapa kriteria dalam menentukan pengelompokan jurusan tersebut. Selain menggunakan metode DBSCAN dan K-Means dalam penelitian ini dapat didukung dengan rule-based untuk menentukan mengklasifikasi data dalam bentuk kelompok. Setelah data – data siswa telah terkelompok, maka akan dilakukan pengujian kinerja metode menggunakan uji statistik nonparametrik. Sehingga akan menghasilkan pengoptimalan kinerja dari salah satu metode tersebut.

4.2. Hasil Uji Coba

(14)

4.2.1. Clustering Metode DBSCAN

Pengujian metode DBSCAN ini akan dilakukan untuk mengetahui bagaimana metode ini mampu menentukan jurusan siswa dalam sistem pengambilan keputusan. Setiap data adalah objek yang akan diuji kedekatannya menggunakan metode DBSCAN dalam proses clustering. DBSCAN diawali dengan menetapkan nilai dari parameter yang akan diinputkan. Dalam hal ini nilai parameter Eps ditetapkan 0.00972 sedangkan parameter MinPts ditetapkan 2. Pada tahap pertama, DBSCAN akan menandai semua objek dan kemudian memilih secara random satu objek untuk diuji kedekatannya dengan menggunakan fungsi pengukuran jarak yaitu Euclidean Distance. Berikut hasil clustering untuk epsilon= 0.00972 dan minpts = 2 untuk 40 calon siswa yang diuji. Data tersebut akan diuji menggunakan aplikasi RapidMiner sehingga akan menghasilkan pengelompokan data sesuai kriteria data siswa.

Berdasarkan parameter tersebut, data yang berjumlah 40 data akan diuji menggunakan RapidMiner seperti di bawah ini:

Gambar 4.1 Proses Pengujian pada DBSCAN

(15)

diinputkan terlebih dahulu sebagai penentuan pengelompokan data, sehingga memiliki hasil seperti di bawah ini pengelompokan untuk 40 data record.

(16)

Berdasarkan hasil uji 40 sampel data terdapat 3 kelompok dalam pengelompokan tersebut yaitu cluster_0 sebanyak 36 data, cluster_1 sebanyak 2 data dan cluster_2 sebanyak 2 data.

Gambar 4.3 Pengelompokan Data dengan DBSCAN

Berdasarkan gambar di atas tersebut adalah hasil clustering yang digambarkan dalam sebuah grafik tiga dimensi. Titik – titik yang terbentuk tersebut terdiri dari core point, border point dan noise. Berikut adalah hasil akhir pengelompokan data siswa menggunakan DBSCAN:

Tabel 4.1 Hasil Cluster dengan DBSCAN

Jumlah Siswa Kelompok Jurusan

36 Tidak lulus

2 Rekayasa Perangkat Lunak (RPL) 2 Teknik Komputer dan Jaringan (TKJ) 0 Administrasi Perkantoran (AP)

0 Akuntansi (AK)

(17)

0

4.2.2. Clustering Metode K-Means

Pada K-Means semua data dikelompokkan ke dalam cluster yang terdekat. Selanjutnya hitung kembali pusat cluster baru berdasarkan nilai rata – rata anggota dari cluster sebelumnya. Dalam hal ini, jika centroid yang baru konvergen dengan centroid yang sebelumnya, maka iterasi akan dihentikan. Jika tidak maka iterasi berikutnya dilanjutkan. Penghentian iterasi akan dilakukan karena ketika centroid baru yang dibangkitkan dengan centroid yang lama akan menyebabkan konvergensi pada kelompok sehingga tidak perlu menghitung jarak data terhadap centroid tersebut. Clustering digambarkan dalam sebuah grafik di bawah ini yang menunjukkan data siswa yang terkelompok pada iterasi pertama.

Gambar 4.4 Cluster Awal pada K-Means

Pada pengelompokkan cluster hasil pertama tersebut belum konvergen, maka akan dilakukan perhitungan kembali centroid cluster pada setiap data. Dalam hal ini akan dibangkitkan kembali centroid baru dengan menggunakan formula euclidean. Maka akan didapat hasil centroid baru pertama, seperti pada tabel 4.1 berikut:

Tabel 4.2 Centroid Baru Pertama

C1 1.5 1 1.5 1 1.5

C2 1.375 1.5 2.375 4.5 2.125

C3 1.708333 1.791667 4.166667 3.541667 1.916667

C4 1.75 4 4 4.5 1.5

C5 2 6 6 5 1

(18)

Berdasarkan perhitungan euclidean tersebut centroid baru untuk iterasi-1 yang dibangkitkan tersebut ternyata belum konvergen, sehingga harus dilanjutkan ke iterasi-2. Sebelum melakukan perhitungan untuk iterasi-2, maka ditentutakan terlebih dahulu titik pusat baru berikutnya. Sehingga menghasilkan titik pusat kedua dengan menggunakan perhitungan euclidean.

Tabel 4.3 Centroid Baru Kedua

C1 1.5 1 1.5 1 1.5

C2 1.3 1.6 2.3 4.6 2.1

C3 1.809524 1.714286 4.380952 3.3809524 1.904762

C4 1.6 3.8 4 4.4 1.6

C5 2 6 6 5 1

C6 2 6 6 5 2

Setelah data dihitung dengan titik pusat baru kedua ternyata hasil pengelompokan data tersebut belum konvergen pada iterasi-3, sehingga akan dilakukan perhitungan kembali titik pusat baru ketiga untuk iterasi-4. Centroid dari setiap data tersebut berubah dan terdapat data yang berpindah cluster-nya dari satu cluster ke cluster lainnya sehingga centroid harus dibangkitkan kembali.

Tabel 4.4 Centroid Baru Ketiga

C1 1.5 1 1.5 1 1.5

C2 1.333333 1.444444 2.222222 4.6666667 2.111111

C3 1.894737 1.631579 4.526316 3.2631579 1.789474

C4 1.375 3.375 3.625 4.375 2

C5 2 6 6 5 1

C6 2 6 6 5 2

(19)

0 1 2 3 4 5 6 7 8 9

0 5 10 15 20 25 30 35 40 45

Gambar 4.5 Cluster Akhir pada K-Means

Berdasarkan gambar penyebaran kelompok tersebut menyatakan bahwa data telah terkelompok sesuai dengan kriteria – kriteria dari data siswa yang digambarkan dalam sebuah grafik. Berdasarkan perhitungan jarak terdekat (euclidean) dari data calon siswa yang mendaftar di sekolah menengah kejuruan medan area-1, maka didapat pengelompokan data sesuai kriteria yang telah ditentukan dengan hasil sebagai berikut:

Tabel 4.5 Hasil Cluster dengan K-Means

Jumlah Siswa Kelompok Jurusan

2 Tidak lulus

9 Rekayasa Perangkat Lunak (RPL) 19 Teknik Komputer dan Jaringan (TKJ)

8 Administrasi Perkantoran (AP)

1 Akuntansi (AK)

(20)

4.2.3. Kinerja Metode

Dalam hal ini statistik nonparametrik digunakaan menjadi tolak ukur pada kinerja metode DBSCAN dan K-Means. Untuk mengetahui hasil uji tersebut maka dilakukan perhitungan menggunakan uji nonparametrik yaitu uji tanda seperti tabel 4.6. Pada tabel tersebut didapat hasil clustering dari metode DBSCAN dan K-Means. Hasil penelitian tersebut menggunakan perlakuan dari masing – masing metode yang menghasilkan didapat dari selisih nilai antara metode tersebut. Hasil dari selisih tersebut berupa tanda (+) yang berarti jika nilai K-Means > DBSCAN, tanda (-) yang berarti jika nilai K-Means < DBSCAN, dan tanda keluar ketika nilai K-Means = DBSCAN sehingga pasangan tersebut dapat diabaikan.

Tabel 4.6 Uji Tanda Data No.

Pendaftaran K-Means DBSCAN Selisih Tanda

(21)

A025 3 1 2 +

jika diasumsikan K-Means lebih optimal dibanding DBSCAN maka SUKSES dalam sampel adalah: 2) Menggunakan statistik uji Z

3) Menggunakan uji 1 arah 4) Taraf pengujian α 0.05

(22)

ℎ � = �̅− �0 √ 0 � 0_� =

. − . √0. 0 � 0. 0 =

. √0. =

.

√ . =

.

. = 4.76 ≈ 4.8 Hasil, Zhitung = 4.8 sehingga didapat menolak H0 dan menerima H1 Jadi, K-Means lebih optimal dari DBSCAN

4.3. Kontribusi Penelitian

(23)

BAB 5

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Berdasarkan pembahasan dan pengujian dari bab – bab sebelumnya, maka dapat diambil kesimpulan sebagai berikut:

1. Dari pengujian yang dilakukan, hasil pengelompokan dengan metode K-Means berjumlah sebanyak 6 cluster yang terdapat 2 noise, sedangkanpengelompokan menggunakan metode DBSCAN berjumlah sebanyak 3 cluster.

2. Pada penelitian ini, uji tanda digunakan untuk melihat hasil pengaruh dari dua perlakuan metode yang didapat dari selisih antara kedua metode clustering. 3. Dari pengujian yang telah dilakukan menggunakan uji statistik nonparametrik

menghasilkan bahwa kinerja metode K-Means lebih optimal dari metode DBSCAN dalam penelitian ini.

5.2. Saran

Adapun saran – saran untuk kesempurnaan dari penelitian sebagai berikut:

1. Dalam penelitian ini, peneliti masih menggunakan sampel data yang berjumlah sedikit sehingga untuk metode pengelompokan tertentu pengelompokan akan dapat menjadi tidak optimal untuk pengujian.