Pembahasan - HASIL DAN PEMBAHASAN - ANALISIS ALGORITMA DBSCAN DALAM MENENTUKAN PARAMETER EPSILO

BAB IV HASIL DAN PEMBAHASAN

4.2 Pembahasan

Proses algoritma DBScan dengan metode Euclidean Distance dimulai dengan memasukkan epsilon 0,9 dan min Points sebesar 2. Jika nilai epsilon yang dipilih terlalu kecil, sebagian besar data tidak akan dikelompokkan. Ini akan dianggap outlier karena tidak memenuhi jumlah poin untuk membuat wilayah padat. Di sisi lain, jika nilai yang dipilih terlalu tinggi, cluster akan bergabung dan sebagian besar objek akan berada di cluster yang sama. Eps harus dipilih berdasarkan jarak dataset (kita dapat menggunakan grafik k-distance untuk menemukannya), tetapi secara umum nilai epsilon kecil lebih disukai. Oleh karena itu pada penelitian ini, Epsilon dan minPoint ditentukan yang menyesuaikan dengan jumlah dataset yang diuji.

Gambar 4.6 Penentuan Metode Euclidean Distance

Sebagai hasilnya, dapat kita lihat di Tabel 4.2 yang menunjukkan hasil cluster dengan pengukuran Euclidean Distance. Dan plot pengelompokan dapat dilihat pada Gambar 4.5

Proses algoritma DBScan dengan metode Canberra Distance dimulai dengan memasukkan epsilon 0,9 dan min Points sebesar 2. Jika nilai epsilon yang dipilih terlalu kecil, sebagian besar data tidak akan dikelompokkan. Ini akan dianggap outlier karena tidak memenuhi jumlah poin untuk membuat wilayah padat. Di sisi lain, jika nilai yang dipilih terlalu tinggi, cluster akan bergabung dan sebagian besar objek akan berada di cluster yang sama. Epsilon harus dipilih berdasarkan jarak dataset (kita dapat menggunakan grafik k-distance untuk menemukannya), tetapi secara umum nilai epsilon kecil lebih disukai. Oleh karena itu pada penelitian ini, Epsilon dan minPoint ditentukan yang menyesuaikan dengan jumlah dataset yang diuji.

Gambar 4.7Penentuan Metode Camberra Distance

Pengujian terhadap kinerja dari Density Based Spatial Clustering Algorithm with Noise (DBSCAN) yang merupakan algoritma pengelompokan yang didasarkan pada kepadatan (density) data. Konsep kepadatan yang dimaksud dalam DBSCAN adalah jumlah data yangberada dalam radius MinPts (Jumlahminimal data dalam radius ε), data tersebut masuk dalam kategori kepadatan yang diinginkan, jumlah data dalam radius tersebut termasuk data inti itu sendiri, pengukuran kinerja dilakukan dengan membandingkan nilai dari Euclidean Distance dan Camberra Distance yang dihasilkan. Nilai Cluster yang akan digunakan bervariasi sesuai denganketentuan dari Epslilon dan MinPts. Dataset yang digunakan dalam melakukan percobaan ini adalah Iris dataset yang diperoleh dari UCI Machine Learning repository.

Berdasarkan hasil percobaan yang dilakukan terhadap metode Euclidean Distance dan Camberra Distance dengan menggunakan Iris dataset, terlihat bahwa pembentukan cluster yang dihasilkan terlihat pada Camberra Distance sebanyak 10 cluster dengan jumlah 150 items. Hasil dari clustering yang telah diuji dengan metode Euclidean distance menghasilkan pembentukan cluster. Pada gambar 4.5 terdapat 2 cluster yang terbentuk yaitu pada cluster_0 yang 1 terdapat pada data iris setosa dan 1 cluster pada iris virginica, cluster_1 mempunyai data sebanyak 49 items dengan

rata-44

rata terdapat pada iris setosa, cluster_2 mempunyai data sebanyak 97items, yang terdapat pada iris Versi color sebanyak 50 item sedangkan pada Iris Virginica terdapat 47 item, dan cluster_3 mempunyai data sebanyak 2 items yang terdapat pada data iris Virginica. Total keseluruhan data adalah 150 items. Sedangkan hasil dari clustering dengan metode Camberra distance menghasilkan pembentukan cluster. Pada gambar 4.7 terdapat 2 cluster yang terbentuk yaitu pada cluster_0 yang 10 terdapat pada data iris versicolor dan 1 cluster pada iris virginica, cluster_1 mempunyai data sebanyak 42 items dengan rata-rata terdapat pada iris setosa, cluster_2 mempunyai data sebanyak 8 items iris setosa, cluster_3 mempunyai data sebanyak 24 items yang terdapat pada data iris versicolor sebanyak 7 items dan 17 items pada virginica, pada cluster_4 terdapat 9 items pada iris versi color, pada cluster_5 terdapat 43 items yang terdiri dari 16 iris versicolor dan 27 iris Virginica, pada cluster_6 terdapat 4 items pada versicolor, pada cluster_7 terdapat 2 items Iris Versi color, cluster_8 terdapat 2 items Iris versi color, dan cluster_9 terdapat 5 items iris virginica. Total keseluruhan data adalah 150 items.

Berdasarkan percobaan pada Iris dataset juga terlihat bahwa kinerja Canberra Distance lebih baik jika dibandingkan dengan Euclidean Distance yang dihasilkan, terlihat pada cluster yang dihasilkan Canberra Distance lebih banyak dibandingkan dengan Euclidean distance.

BAB 5

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Berdasarkan hasil analisis dan pembahasan yang telah dilakukan, dapat disimpulkan bahwa :

1. MetodepenentuandanpenerapannilaiEpslilon dan MinPts pada algoritma DBSCANdapat dilakukan untuk memperoleh hasil clustering yang lebihbaik.

2. MetodepenentuandanpenerapannilaiEpslilon dan MinPts pada algoritma DBSCANakan berpengaruh langsung terhadap jumlah clustering yangdihasilkan.

3. Hasil cluster menggunakan metode Camberra Distance sangat baik, dengan menghasilkan pembentukan cluster dalam jumlah banyak serta penetralan cluster dihasilkan Camberra Distance dengan sangat baik.

5.2. Saran

Sebagai saran yang dapat diberikan pada penelitian ini adalah:

1. Perlu dilakukan penentuan nilai Epslilon dan MinPts secara variatif hingga diperoleh hasil clustering yang baik dari algoritma DBSCANdan sesuai dengan yang diharapkan.

2. Dalam penelitian ini, peneliti masih menggunakan sampel data Iris Dataset yang berjumlah tertentu sehingga untuk metode pengelompokan tertentu pengelompokan akan dapat menjadi tidak optimal untuk pengujian.

3. Pada metode DBSCAN lebih baik dikembangkan dengan jumlah data dan kasus data yang besar agar terlihat hasil yang optimal.

DAFTAR PUSTAKA

Aranganayagi, S & Thangavel, T. 2007. Clustering Categorical Data using Silhouette Coefficient as a Relocating Measure. Proceedings of 2007 Internasional Conferenceon Computational Intelligenceand Multimedia Aplication. pp.13-17

Cui, X & Wang, F. 2015. An Improved Method for K-Means Clustering. Proceedings of 2015 International Conferenceon Computational Intelligence and Communication Networks (CICN). pp.756-759

Ester, Martin, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu, A Density-Based Algorithm for Discovering Clusters, 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96), 1996

Fayyad, U., Shapiro, G.P & Smyth, P. 1996. From Data Mining to Knowledge Discovery in Database. AI Magazine: pp. 37-53

Glory H. Shah, C. K. Bhensdadia, Amit P. Ganatra. 2012. An Empirical Evaluation of Density-Based Clustering Techniques. International Journal of Soft Computing and Engineering (IJSCE)

Gorunescu, F. 2011. Data Mining : Concepts, Models and Techniques. Springer:

Berlin.

Gothai, E & Balasubramanie, P. 2010. Performance Evaluation of Hierarchical Clustering Algortihms. Proceedings of The International Conference on Communication and Computational Intelligence - 2010. pp. 457-460.

Han, J. & Kamber, M. 2006. Data Mining: Concepts and Techniques. 2nd Edition.Elsevier: San Francisco.

Li, P., Ji, H., Wang, B., Huang, Z & Li, H. 2017. Adjustable Preference Affinity Propagation Clustering. Pattern Recognition Letters. 85: 72-78.

MacQueen, J. 1967. Some Methods for Classification and Analysis of Multivariate Statistics and Probability. Universityof California Press, Berkeley. California.

Manisha Naik Gaonkar & Kedar Sawant. 2012. AutoEpsDBSCAN : DBSCAN with Eps Automatic for Large Dataset. Goa College of Engineering, Computer Department, Ponda-Goa, Goa College of Engineering, Computer Department, Ponda-Goa.

Nisha & Kaur. P.J. 2015. Cluster Quality Based Performance Evaluation of Hierarchical Clustering Method. Proceedings of 2015 1st Internatinal Conference on Next Computing Technologies. pp. 649-653.

Poteras, C.M., Mihӑescu, M.C. & Mocanu, M. 2014. An optimized version of the k-means clustering algorithm. Proceedings of the 2014 Federated Conference onComputer Science and Information Systems, pp. 695–699.

Rahmah Nadia. 2015. Penentuan Nilai Epsilon (Eps) Optimal pada Algoritme DBSCAN untuk Mengelompokkan Data Titik Panas pada Lahan Gambut di Sumatera. Institut Pertanian Bogor

Rokach, L & Maimon. O. 2005. Data Mining and Knowledge Discovery Handbook.

Springer: TelAviv.

Sun, L. & Guo, C. 2014. Incremental Affinity Propagation Clustering Based on Message Passing. IEEE Transactions on Knowledge and Data Engineering.

26(11): 2731-2744

Tan, P.N., Steinbach, M & Kumar, V. 2006, Introduction to Data Mining (Vol. 1), Pearson Addison Wesley: Boston.

Wang, Y & Chen, L. 2016. K-MEAP: Multiple Exemplars Affinity Propagation With Specified K Clusters. IEEE Transactions on Neural Network and Learning System. 27(12): 2670-2682

Xiaojuan Hu, Lei Liu, Ningjia Qiu, Di Yang and Meng Li. 2017. A MapReduce-based improvementalgorithm for DBSCAN. Journal of Algorithms &Computational Technology

Yadav, J. and Sharma, M., “A Review of K-mean Algorithm”, International Journal of Engineering Trends and Technology, 4(7), 2972-2976, 2013.

Dalam dokumen ANALISIS ALGORITMA DBSCAN DALAM MENENTUKAN PARAMETER EPSILON PADA PENGELOMPOKAN DATA NUMERIK TESIS HERWIN E.T SIMANJUNTAK (Halaman 56-0)