Manfaat Penelitian - ANALISIS ALGORITMA DBSCAN DALAM MENENTUKAN PARAMETER EPSILON PADA PENGELOM

BAB I PENDAHULUAN

1.5 Manfaat Penelitian

Adapun manfaat penelitian dari tesisinia dalah:

1. Memberikan sumbangan bagihasil studi dan penelitian selanjutnya dan mengembangkan penelitian ini.

2. Menambah pemahaman dan pengetahuan penulis mengenai metode data mining 3. Mengetahui penggunaan Algoritma DBSCAN (Density-Based Spatial

Clustering of Applications with Noise).

BAB 2

LANDASAN TEORI

Pada bab ini akan diuraikan seluruh landasan teori yang berhubungan dengan penelitian.

Konsep-konsep yang akan di jelaskan dalam penelitian ini seperti Data Mining, Clustering, DBSCAN (Density-Based Spatial Clustering of Applications with Noise).

2.1. Data Mining

Menurut Gorunescu (2011), salah satu definisi dari data mining adalah proses pencarian pola yang terdapat pada basis data berukuran besar dengan menggunakan teknik komputasi dari ilmu statistik, machine learning dan pengenalan pola. Sementara itu menurut Tan (2006), data mining adalah proses untuk mendapatkan informasi yang berguna dari gudang basis data yang besar. Data mining juga dapat diartikan sebagai pengekstrakan informasi baru yang diambil dari bongkahan data besar yang membantu dalam pengambilan keputusan. Istilah data mining kadang disebut juga knowledge discovery.

Dalam data mining, pengelompokan data juga bisa dilakukan, tujuannya adalah agar kita dapat mengetahui pola universal data-data yang ada. Anomali data transaksi juga perlu dideteksi untuk dapat mengetahui tindak lanjut berikutnya yang dapat diambil. Semua hal tersebut bertujuan mendukung kegiatan operasional perusahaan sehingga tujuan akhir perusahaan diharapkan dapat tercapai.

Data mining merupakan salah satu tahapan penting di dalam proses Knowledge Discover in Database (KDD). Terminologi dari KDD dan data mining adalah berbeda.

KDD adalah keseluruhan proses di dalam menemukan pengetahuan yang berguna dari suatu kumpulan data sedangkan data mining adalah salah satu tahapan pada KDD dan fokus pada upaya untuk menemukan pengetahuan yang berguna dengan menggunakan algoritma (Fayyad et al., 1996).

Menurut Han et al. (2006) proses KDD terdiri dari tujuh tahapan yaitu :

1. Data Cleaning : membersihkan data dari noise dan data yang tidakkonsisten 2. Data Integration : menggabungkan data dari berbagai sumberdata

3. Data Selection : menyeleksi data yang relevan pada database untuk di bentuk yang dapat dimengerti oleh manusia

2.2. Analisis Algoritma

Sebagai salah satu dasar dari ilmu komputer, algoritma merupakan hal yang sangat penting untuk dikuasai oleh orang-orang yang berkecimpung di dunia ilmu komputer, dari peneliti sampai ke praktisi. Tentunya penguasaan akan algoritma tidak cukup hanya sampai pada tahap mengetahui dan menggunakan algoritma yang tepat untuk menyelesaikan masalah. Seorang yang mengerti ilmu komputer juga mampu merancang dan mengembangkan sebuah algoritma berdasarkan masalah-masalah yang ditemui.

Tulisan ini bertujuan untuk memberikan pengertian mendasar mengenai perancangan (desain) dan pengembangan algoritma, agar pembaca dapat tidak hanya menggunakan algoritma yang sudah ada, tetapi juga merancang dan mengembangkan algoritma sesuai dengan masalah yang akan diselesaikan.

Program komputer umumnya dibangun dengan menggunakan beberapa algoritma untuk menyelesaikan sebuah permasalahan. Misalnya sebuah program pencarian teks akan memerlukan algoritma khusus untuk membaca dan menelusuri file, algoritma lain untuk mencari teks yang tepat di dalam file, dan satu algoritma lagi untuk menampilkan hasil pencarian ke pengguna.

Dalam mendefinisikan algoritma, dapat didefinisikan tiga hal utama dengan jelas, yaitu:

1. Masalah, yaitu sebuah persoalan yang ingin diselesaikan oleh sebuah algoritma. Pengurutan sekumpulan nilai yang bernilai acak.

2. Masukan, yaitu contoh data atau keadaan yang menjadi permasalahan.

3. Keluaran, yaitu bentuk akhir dari data atau keadaan setelah algoritma diimplementasikan ke masukan. Keluaran merupakan hasil ideal yang diinginkan dan dianggap telah menyelesaikan masalah.

Data masukan yang diinginkan merupakan rangkaian data, tanpa memperdulikan jenis data misalnya angka, huruf, teks, dan lain sebagainya. Contoh dari nilai masukan adalah 2, 5, 1, 3, 4 ataupun “Amin”, “Bia”, “Cinta”, “Doni”.Data keluaran yang diinginkan, yaitu masukan yang terurut 1,2,3,4,5 dan “Amin”, “Bia”, “Cinta”, “Doni”.

Kita telah mengetahui dengan jelas makna dari algoritma, sehingga pertanyaan selanjutnya adalah algoritma seperti apa yang dapat dikatakan sebagai algoritma yang baik? Pada umumnya kita tidak ingin menggunakan algoritma yang salah untuk menyelesaikan masalah karena hal ini dapat menyebabkan masalah tidak diselesaikan dengan optimal, atau lebih buruknya, tidak diselesaikan sama sekali.

Sebuah algoritma yang baik memiliki sifat-sifat berikut:

1. Benar, di mana algoritma menyelesaikan masalah dengan tepat, sesuai dengan definisi masukan / keluaran algoritma yang diberikan.

2. Efisien, berarti algoritma menyelesaikan masalah tanpa memberatkan bagian lain dari apliikasi. Sebuah algoritma yang tidak efisien akan menggunakan sumber daya (memori, CPU) yang besar dan memberatkan aplikasi yang mengimplementasikan algoritma tersebut.

3. Mudah diimplementasikan, artinya sebuah algoritma yang baik harus dapat dimengerti dengan mudah sehingga implementasi algoritma dapat dilakukan siapapun dengan pendidikan yang tepat, dalam waktu yang masuk akal.

Pada prakteknya, tentunya ketiga hal tersebut tidak dapat selalu tercapai.

Kebenaran dari sebuah algoritma umumnya selalu dapat dicapai, setidaknya untuk nilai-nilai masukan umum, tetapi efisiensi dan kemudahan implementasi tidak selalu didapatkan. Begitupun, tentunya kita harus tetap berusaha mencapai ketiga hal tersebut dalam merancang sebuah algoritma.

Apabila sesuatu algoritma diberi untuk sesuatu masalah dan ditentukan sebagai betul, langkah seterusnya ialah menentukan jumlah sumber, seperti masa dan ruang, yang diperlukan oleh algoritma tersebut. Langkah ini dikenali sebagai analisis algoritma. Analisis yang dilakukan ke atas algoritma dari segi:

1. Effectiveness

Mudah difahami sesuatu algoritma

Mudah dilakukan semakan(tracing), biarpun manual.

Langkah-langkah adalah tersusun atau organize.

2. Correctness

Algoritma yang dihasilkan akan mengeluarkan output yang diharapkan atau dikehendaki dan betul.

3. Termination

Langkah-langkah penyelesaian bagi algoritma mempunyai ‘terminator’ yang telah ditentukan.

Termination atau pemberhentian akan berlaku seperti dirancang dan bukan disebabkan oleh masalah seperti looping dan out of memory atau unfinite value.

4. Efficiency

Mengikur sejauh mana komputer menggunakan sumber yang diperlukan oleh algoritma.

5. Complexity

Satu analisis algoritma yang bersifat kualitatif.

Ia merujuk kepada kesukaran dalam perlaksanaan dan kesannya bagi satu algoritma.Juga diukur dalam bentuk masa, iaitu masa yang sedikit diambil menggambarkan kurang kompleksitinya

Sebelum merepresentasikan suatu algoritma utk memperoleh solusi dari suatu masalah, ditentukan dahulu model penyelesaiannya. Ada banyak model utk menyelesaikan masalah. Tetapi ada satu model yang terbaik. Sehingga penguasaan teknik variasi disain atau model harus dikuasai sebaik-baiknya.

Setelah menetapkan model, lalu dibuat representasi atau menyatakan algoritma.

Di sini harus dibuat barisan langkah-langkah atau instruksi secara teruut guna menyelesaikan suatu masalah. Pernyataan ini harus dibuat secara singkat, berhingga, terstruktur. Menyatakan algoritma dpt dgn dua cara yaitu: diagram atau pseudococe (bahasa semu)

Indikasi dari suatu algoritma yang valid adalah jika penyelesaiannya memenuhi solusi yang sebenarnya. Penyelesaian yg diperoleh harus memecahkan masalah bukan menimbulkan masalah baru. Perhitungan, prosedur, solusi harus selalu benar utk semua jenis kemungkinan masukan.

2.3 Clustering

Clustering adalah salah satu topik penelitian yang penting dalam bidang machine learning dan data mining. Clustering telah berkembang menjadi teknik yang populer dalam bidang pengenaalan pola, pemrosesan citra dan data mining (Aranganayagi, 2007). Teknik clustering klasik seperti metode k-means, melakukan partisi data menjadi k cluster (MacQueen, 1967) dan sangat peka terhadap nilai awal dari masing-masing pusat cluster (Cuietal, 2015).

Menurut Tan (2006) clustering adalah mengelompokkan objek (data) yang didasarkan hanya pada informasi yang terdapat dalam objek tersebut dan hubungan antar objek tersebut. Pengelompokan data tersebut biasanya dilakukan berdasarkan kesamaan nilai antar data (Xia et al. 2008).

Prinsip dasar dari clustering adalah mengukur jarak atau kemiripan antar objek pada suatu basis data. Clustering termasuk dalam metode pembelajaran tak terawasi (unsuperviced learning) (Nisha, 2015). Clustering bertujuan agar objek- objek pada satu kelompok adalah hanya terdiri dari objek-objek yang memiliki kemiripan satu sama lain dan berbeda dengan objek pada kelompok yang lain.

(Gothai, 2010) mengatakan bahwa tujuan utama dari proses clustering adalah untuk mengelompokkan data-data yang memiliki kemiripan diantara data-data yang tidak mirip, dengan kata lain kualitas dari proses clustering dapat diukur berdasarkan kemampuan suatu algoritma untuk dapat mengelompokkan data berdasarkan kemiripan datanya.

Terdapat berbagai jenis algoritma clustering yang dapat digunakan, tetapi secara umum

algoritma-algoritma tersebut dapat dikelompokkan menjadi beberapa kategori sebagai berikut (Rokach, 2005).

1. Partitioning Methods.

Pada metode ini diberikan himpunan dari n objek. Metode partisi akan mengelompokkan k partisi dari data. Dimana setiap partisi merepresentasikan sebuah cluster dan k ≤ n. Setiap objek yang ada merupakan bagian dari sebuah cluster.

Beberapa algoritma yang sering dipakai, yang termasuk dalam kategori partitioning methods adalah algoritma K-Means dan K-Medoids.

2. Hierarchical Methods.

Pada metode berbasis hirarki ini akan dibangkitkan hierarchical decomposition (dekomposisi berurutan) dari himpunan data objek.Berbeda dengan metode partitioning yang mengelompokkan data kedalam kelompok-kelompok. Metode hierarchical mengelompokkan data ke dalam hirarki atau tree dari cluster. Representasi data dalam bentuk hirarki adalah diperlukan untuk keperluan penyajiandan visualisasi data. Secara umum metode Hierarchical terdiri dari dua metode clustering yaitu metode Aglomerative dan metode Divisiv. Salah satu contoh algoritma dari metode Hierarchical adalah algoritma BIRCH (Balanced Iterative Reducing and Clustering UsingHierarchies).

3. Density-Based Methods.

Metode Density-Based merupakan metode yang dikembangkan berdasarkan density (kepadatan) tertentu. Metode ini menganggap cluster sebagai suatu area yang berisi objek-objek yang padat/sesak, yang dipisahkan oleh area yang memiliki kepadatan rendah (merepresentasikan noise). Beberapa algoritma yang termasuk di dalam Density-Based adalah DBSCAN (Density Based Spatial Clustering of Application with Noise) dan OPTICS (Ordering Points to Identify the ClusteringStructure).

4. Grid-Based Methods.

Pendekatan Grid-Based Methods menempatkan ruang objek ke dalam jumlah berhingga sel yang membentuk struktur grid, sehingga dikatakan juga bahwa metode ini menggunakan multiresolution pada struktur data grid (jaringan). Salah satu algoritma yang mendasarkan pada metode ini adalah STING (Statistical InformationGrid).

2.4 Subspace Clustering

Bottom up subspace clustering yang dimulai dari semua subruang satu dimensi yang mengakomodasi setidaknya satu cluster dengan menggunakan strategi pencarian yang mirip dengan algoritma pertambangan set item yang sering. CLIQUE merupakan perwakilan dari bottom up subspace clustering.

CLIQUE (Kailing, 2009) mengidentifikasi kelompok padat dalam domain dari dimensi maksimum. Setelah subruang yang tepat ditemukan, tugas ini adalah untuk menemukan cluster dalam proyeksi yang sesuai. Titik data dipisahkan sesuai dengan lembah fungsi kepadatan. Cluster adalah serikat unit kepadatan tinggi yang terhubung dalam subruang, kemudian akan menghasilkan deskripsi klaster dalam bentuk ekspresi DNF yang diminimalkan untuk kemudahan pemahaman. Ini menghasilkan hasil identik terlepas dari urutan catatan masukan disajikan dan tidak menganggap bentuk matematika tertentu untuk distribusidata.

CLIQUE mulai dari mengidentifikasi subruang yang mengandung cluster. Pada fase ini dapat menemukan unit yang padat, dengan menentukan unit pertama padat 1dimensi dengan membuat lulus atas data. Setelah menetapkan (k-1)-dimensi unit padat, calon unit k-dimensi ditentukan dengan menggunakan prosedur generasi calon diberikan di bawah ini. Sementara prosedur saja dijelaskan secara dramatis mengurangi jumlah unit yang diuji untuk menjadi padat, kita mungkin masih memiliki tugas komputasi tidak layak di tangan untuk data dimensi tinggi. Sebagai dimensi dari subruang dianggap meningkat, ada ledakan dalam jumlah unit yang padat, dan jadi kita perlu memangkas set unit padat ini kemudian digunakan untuk membentuk unit calon di tingkat berikutnya dari algoritma generasi satuan padat. Setelah mengidentifikasi subruang mengandung klaster, diikuti dengan mengidentifikasi cluster dan generasi deskripsi minimal untuk cluster.

2.5 DBSCAN (Density-Based Spatial Clustering of Applications with Noise).

DBSCAN adalah salah satu algoritma clustering density-based. Algoritma memperluas wilayah dengan kepadatan yang tinggi ke dalam cluster dan menempatkan cluster irregular pada database spasial dengan noise. Metode ini mendefiniskan cluster sebagai

maximal set dari titik-titik yang density-connected. DBSCAN memiliki 2 parameter yaitu Epsilondan MinPts :

a. epsilon: jika nilai eps yang dipilih terlalu kecil, sebagian besar data tidak akan dikelompokkan. Ini akan dianggap outlier karena tidak memenuhi jumlah poin untuk membuat wilayah padat. Di sisi lain, jika nilai yang dipilih terlalu tinggi, cluster akan bergabung dan sebagian besar objek akan berada di cluster yang sama. Eps harus dipilih berdasarkan jarak dataset (kita dapat menggunakan grafik k-distance untuk menemukannya), tetapi secara umum nilai eps kecil lebih disukai.

b. minPoints: Sebagai aturan umum, minPoints minimum dapat diturunkan dari sejumlah dimensi (D) dalam kumpulan data, karena minPoints ≥ D + 1. Nilai yang lebih besar biasanya lebih baik untuk set data dengan noise dan akan membentuk kelompok yang lebih signifikan. Nilai minimum untuk minPoints harus 3, tetapi semakin besar set data, semakin besar nilai minPoints yang harus dipilih.

Neighborhood yang terletak di dalam radius () disebut -neighorhood dari objek data. Jika-neighborhood dari suatu objek berisi paling sedikit suatu angka yang minimum, MinPts dari suatu objek, objek tersebut disebut core object. Neighborhood dari border points berisi jauh lebih sedikit items daripada neighborhood dari core points. Suatu border point bisa jadi termasuk ke dalam lebih dari 1 core object. Berikut ini gambar yang menunjukkan mana yang merupakan border point dan mana yang merupakan core point contoh dengan menggunakan MinPts=5 dan Eps=1.

Gambar 2.1.Core dan Border

Menurut definisi, ada 2 jenis titik (points) dalam suatu cluster: di dalam cluster (core points) dan di tepian cluster (border points) di mana neighborhood dari border points berisi jauh lebih sedikit items daripada neighborhood dari core points

(Ester et al., 1996). Suatu border point bisa jadi termasuk ke dalam lebih dari 1 cluster.

Gambar 2.2 Konsep Kepadatan

Adapun cara DBSCAN dalam menemukan cluster adalah menelusuri cluster-cluster dengan memeriksa - neighborhood(Eps-neighborhood) dari tiap-tiap point dalam database. Jika - neighborhood dari point p mengandung lebih dari MinPts, cluster baru dengan p sebagai core object diciptakan. Kemudian DBSCAN secara iteratif mengumpulkan secara langsung objekobjek density-reachable dari core object tersebut, dimana mungkin melibatkan penggabungan dari beberapa cluster-cluster yang density-reachable.

Aplikasi pengelompokan spasial berbasis kepadatan dengan noise (DBSCAN) adalah algoritma pengelompokan data yang terkenal yang umum digunakan dalam penambangan data dan pembelajaran mesin. Berdasarkan seperangkat titik, DBSCAN mengelompokkan titik yang berdekatan satu sama lain berdasarkan pengukuran jarak (biasanya jarak Euclidean) dan jumlah minimum poin. Hal ini juga menandai titik-titik yang berada di daerah dengan kepadatan rendah.

Estimasi parameter adalah masalah untuk setiap tugas penambangan data.

Untuk memilih parameter yang baik kita perlu memahami bagaimana mereka digunakan dan memiliki setidaknya pengetahuan dasar sebelumnya tentang set data yang akan digunakan. Seperti halnya dalam parameter Epsilon: jika nilai eps yang dipilih terlalu kecil, sebagian besar data tidak akan dikelompokkan. Ini akan dianggap outlier karena tidak memenuhi jumlah poin untuk membuat wilayah padat. Di sisi lain, jika nilai yang dipilih terlalu tinggi, cluster akan bergabung dan sebagian besar objek akan berada di cluster yang sama. Eps harus dipilih berdasarkan jarak dataset (kita dapat menggunakan grafik k-distance untuk menemukannya), tetapi secara umum nilai eps kecil lebih disukai. Sementara pada minPoints: Sebagai aturan umum, minPoints minimum dapat diturunkan dari sejumlah dimensi (D) dalam kumpulan data, karena minPoints ≥ D + 1. Nilai yang lebih besar biasanya lebih baik untuk set data dengan

noise dan akan membentuk kelompok yang lebih signifikan. Nilai minimum untuk minPoints harus 3, tetapi semakin besar set data, semakin besar nilai minPoints yang harus dipilih.

Algoritma DBSCAN harus digunakan untuk menemukan asosiasi dan struktur dalam data yang sulit ditemukan secara manual tetapi dapat relevan dan berguna untuk menemukan pola dan memprediksi tren. Pada dasarnyaMetode pengelompokan biasanya digunakan dalam biologi, kedokteran, ilmu sosial, arkeologi, pemasaran, pengenalan karakter, sistem manajemen dan sebagainya.

Mari berfikir dalam penggunaan praktis DBSCAN. Misalkan kita memiliki e-commerce dan kami ingin meningkatkan penjualan kami dengan merekomendasikan produk yang relevan kepada pelanggan kami. Kami tidak tahu persis apa yang dicari pelanggan kami, tetapi berdasarkan kumpulan data yang dapat kami prediksi dan rekomendasikan produk yang relevan untuk pelanggan tertentu. Kami dapat menerapkan DBSCAN pada kumpulan data kami (berdasarkan pada basis data e-commerce) dan menemukan kluster berdasarkan pada produk yang telah dibeli oleh pengguna. Dengan menggunakan kluster ini kita dapat menemukan kesamaan antara pelanggan, misalnya, pelanggan A telah membeli 1 pena, 1 buku dan 1 gunting dan pelanggan B telah membeli 1 buku dan 1 gunting, maka kami dapat merekomendasikan 1 pena kepada pelanggan B. Ini hanyalah sedikit contoh penggunaan DBSCAN, tetapi dapat digunakan di banyak aplikasi di beberapa area.

Bagaimana kita dapat dengan mudah mengimplementasikannya? DBSCAN adalah algoritma yang terkenal, oleh karena itu, sesungguhnya tidak perlu khawatir untuk mengimplementasikannya sendiri. Anda dapat menggunakan salah satu perpustakaan / paket yang dapat ditemukan di internet. Berikut adalah daftar tautan yang dapat Anda temukan implementasi DBSCAN: Matlab, R, R, Python, Python.

Kunci dari algoritma DBSCAN adalah bahwa untuk setiap titik dari sebuah cluster, neighborhood dari radius yang diberikan harus mengandung setidaknya jumlah minimum poin, yaitu, kepadatan neighborhood harus melebihi beberapa threshold ditetapkan (Ye, Gao and Zeng, 2003).

Secara umum algoritma DBSCAN memiliki 5 langkah, yaitu : 1. Pilih point p awal secara acak)

2. Ambil semua point yang density reachable terhadap titik p 3. Jika p adalah core point maka cluster terbentuk

4. Jika p adalah border point, tidak ada yang merupakan hubungan density-reachable dari p dan DBSCAN akan mengunjungi point selanjutnya dari database.

5. Lanjutkan proses sampai semua point telah diproses

2.6 Metode Euclidean Distance

Euclidean Distance atau jarak Euclidean adalah perhitungan jarak dari dua buah titik dalam Euclidean space. Euclidean space diperkenalkan oleh Euclid, seorang matematikawan dari Yunani sekitar tahun 300 B.C.E. untuk mempelajari hubungan antara sudut dan jarak. Euclidean ini berkaitan dengan Teorema Phytagoras dan biasanya diterapkan pada 1, 2 dan 3 dimensi.

1 dimensi : Semisal ingin menghitung jarak Euclidean 1 dimensi. Titip pertama adalah 4, titik kedua adalah -10. Caranya adalah kurankan -10 dengan 4. sehingga menghasilkan -14. Cari nilai absolut dari nilai -14 dengan cara mempangkatkannya sehingga mendapat nilai 196. Kemudian diakarkan sehingga mendapatkan nilai 14.

Sehingga jarak euclidean dari 2 titik tersebut adalah 14.

2 dimensi : Caranya hampir sama. Misalkan titik pertama mempunyai kordinat (3,5). Titik kedua ada di kordinat (5,-3). Caranya adalah kurangkan setiap kordinat titik kedua dengan titik yang pertama. Yaitu, (5-3,-3-5) sehingga menjadi (2,-8). Kemudian pangkatnya sehingga memperoleh (4,64). Kemudian tambahkan semuanya sehingga memperoleh nilai 64+4 = 68. Hasil ini kemudian diakarkan menjadi 8.25. Sehingga jarak euclideannya menjadi 8.25.

Jarak Euclidean adalah jarak yang diukur lurus dari titk koordinat yang satu ke titik koordinat yang lain. Meskipun cara ini kurang realistis, tetapi pada umumnya sering digunakan karena cara ini mudah dimengerti dan mudah dimodelkan. Aplikasi dari jarak Euclidean pada umumnya bisa kita jumpai pada beberapa model konveyor, sistem transportasi dan distribusi.

Jarak Euclidean merupakan jarak yang diukur lurus dari pusat fasilitas yang satu ke fasilitas yang lain. Meskipun cara ini kurang realistis, tetapi pada umumnya sering digunakan karena cara ini mudah dimengerti dan mudah dimodelkan. Aplikasi dari dari jarak Euclidean pada umumnya bisa kita jumpai pada beberapa model konveyor, sistem transportasi dan distribusi. Formulasi dari jarak Euclidean sebagai berikut:

Dimana :

xi = koordinat x untuk fasilitas i yi = koordinat y untuk fasilitas i dij = jarak antar fasilitas i dan j

2.7 Metode Canberra Distance

Untuk setiap nilai 2 vektor yang akandicocokkan, Canberra Distancemembagi absolute selisih 2 nilaidengan jumlah dari absolute 2 nilaitersebut. Hasil dari dua nilai yangdicocokkan lalu dijumlahkan untukmendapatkan Canberra Distance.

Jikakoordinatnol-nol((0,0)) diberikandefinisi dengan 0/0=0. Canberra Distance ini sangat peka terhadapsedikit perubahan dengan kedua koordinat mendekati nol.

Metrik Canberra mirip dengan jarak Manhattan (yang sendiri merupakan bentuk khusus dari jarak Minkowski). Perbedaannya adalah bahwa perbedaan absolut antara variabel dari dua objek dibagi dengan jumlah nilai variabel absolut sebelum dijumlahkan. Persamaan umum diberikan dalam bentuk:

Ini adalah bentuk yang sedikit dimodifikasi dibandingkan dengan bentuk asli yang diberikan oleh Lance & Williams (1966) dan disarankan oleh Adkins (referensi dalam Lance & Williams 1967). Dalam persamaan d^CAD adalah jarak Canberra antara dua objek i dan j, k adalah indeks variabel dan n adalah jumlah total variabel y.

Dalam bentuk asli data metrik Canberra tidak boleh ditandatangani. Bentuk yang dimodifikasi menurut Adkins (dalam Lance & Williams 1967) memiliki sifat bahwa hasilnya menjadi satu ketika variabel-variabelnya bertanda berlawanan. Ini berguna dalam kasus khusus di mana tanda-tanda mewakili perbedaan dalam bentuk dan bukan dalam derajat (Lance & Williams 1967). Bagaimanapun, ini terutama digunakan untuk nilai> 0. Metrik ini mudah bias untuk ukuran di sekitar asal dan sangat sensitif untuk nilai yang mendekati 0, di mana ia lebih sensitif terhadap proporsional daripada perbedaan absolut (Lance & Williams 1967). Fitur ini menjadi lebih jelas dalam ruang dimensi yang lebih tinggi, yang masing-masing merupakan peningkatan jumlah variabel. Hal ini pada gilirannya kurang dipengaruhi daripada jarak Manhattan oleh variabel dengan nilai-nilai tinggi (Krebs 1989). Sebagai pengukuran yang sangat

sensitif, ini berlaku untuk mengidentifikasi penyimpangan dari pembacaan normal (mis.

Emran & Ye 2001).

Algoritma mengontrol apakah matriks input data berbentuk persegi panjang atau tidak. Jika tidak, fungsi mengembalikan FALSE dan matriks keluaran yang

Dalam dokumen ANALISIS ALGORITMA DBSCAN DALAM MENENTUKAN PARAMETER EPSILON PADA PENGELOMPOKAN DATA NUMERIK TESIS HERWIN E.T SIMANJUNTAK (Halaman 19-0)