BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

(1)

6 BAB II

TINJAUAN PUSTAKA DAN LANDASAN TEORI

2.1 Tinjauan Pustaka

Adapun penelitian terkait adalah sebagai berikut:

1. Pada penelitian Mario Anggara, Herry Sujiani, dan Helfi Nasution (2016) dilakukan pemilihan distance measure pada proses K-Means Clustering dalam pengelompokkan member di Alvaro Fitness. Data yang digunakan adalah data member alvaro fitness dengan menggunakan 3 variabel dalam proses pengelompokkannya. Hasil percobaan dengan pengujian Silhouette Coefficient untuk setiap distance measure, antara lain Euclidean Distance bernilai 0,232149, Manhattan Distance bernilai 0,240016, dan Chebyshev Distance bernilai 0.242821. Berdasarkan hasil dari pengujian Silhouette Coefficient yang dilakukan, distance measure paling optimal untuk kasus ini adalah Chebyshev Distance, yaitu dengan nilai Silhouette Coefficient paling mendekati 1 adalah 0.242821 [1].

2. Pada penelitian Wahyono, I Nyoman Prayana Trisna, Sarah Lintang Sariwening, Muhammad Fajar, dan Danur Wijayanto (2019) dilakukan perbandingan empat perhitungan jarak yang sering digunakan dalam KNN (K-Nearest Neighbour), yaitu Euclidean Distance, Chebyshev Distance, Manhattan Distance, dan Minkowski Distance pada data komentar Youtube Eminem. Hasil penelitian ini menunjukkan bahwa jarak Euclidean Distance dan Minkowski Distance pada algoritma KNN menghasilkan akurasi terbaik dibandingkan Chebyshev Distance, maupun Manhattan Distance pada kasus ini [6].

3. Pada penelitian M. Nishom (2019) dilakukan perbandingan akurasi metode pengukuran jarak (Euclidean Distance, Manhattan Distance, dan Minkowski Distance) pada algoritma K-Means Clustering berbasis Chi-Square untuk pelabelan cluster status disparitas kebutuhan guru. Hasil percobaan yang telah dilakukan, memberikan nilai atau tingkat akurasi

(2)

yang tinggi, yaitu 84.47% (untuk metode Euclidean Distance), 83.85% (untuk metode Manhattan Distance), dan 83.85% (untuk metode Minkowski Distance). Sehingga, dapat disimpulkan bahwa metode Euclidean Distance merupakan metode terbaik untuk diterapkan dalam algoritma K-Means Clustering untuk kasus ini [4].

4. Pada penelitian Athifaturrofifah, Rito Goejantoro, dan Desi Yuniarti (2019) dilakukan perbandingan metode K-Means dan K-Medoids pada data potensi kebakaran hutan atau lahan berdasarkan persebaran titik panas. Data yang digunakan adalah data persebaran titik panas di Indonesia.dengan menggunakan 3 variabel dalam proses pengelompokkannya. Hasil validasi cluster kedua metode berdasarkan nilai Silhouette Coefficient, antara lain nilai Silhouette Coefficient dengan metode K-Means adalah 0,558, sedangkan nilai Silhouette Coefficient dengan metode K-Medoids adalah 0,529. Berdasarkan nilai Silhouette Coefficient dari kedua metode yang dilakukan, metode K-Means menghasilkan nilai Silhouette Coefficient lebih besar dari pada metode K-Medoids, sehingga K-Means dapat memberikan hasil pengelompokan yang lebih baik untuk kasus ini [5].

2.2 Landasan Teori 2.2.1 Data Mining

Data mining adalah langkah analisis terhadap proses penemuan pengetahuan di dalam basis data atau knowledge discovery in databases yang disingkat KDD. Pengetahuan yang di maksud dapat berupa pola data atau relasi antar data (yang tidak diketahui sebelumnya). Secara umum kegunaan data mining dapat dibagi menjadi dua yaitu deskriptif dan prediktif. Deskriptif berarti data mining digunakan untuk mencari pola-pola yang dapat dipahami manusia yang menjelaskan karakteristik data. Sedangkan prediktif berarti data mining digunakan untuk membentuk sebuah model pengetahuan yang akan digunakan untuk melakukan prediksi. Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa dikelompokkan ke dalam enam kelompok diantaranya yaitu

(3)

pengklasifikasian, pengelompokan, regresi, deteksi anomali, analisis asosiasi, dan perangkuman [5].

2.2.2 Clustering

Pada dasarnya clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteriktik (similarity) antara satu data dengan data yang lain. Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised), maksudnya metode ini diterapkan tanpa adanya latihan (training) dan tanpa ada guru (teacher) serta tidak memerlukan target output. Dalam data mining ada dua jenis metode clustering yang digunakan dalam pengelompokan data, yaitu hierarchical clustering dan non-hierarchical clustering.

Hierarchical clustering adalah suatu metode pengelompokan data yang dimulai dengan mengelompokkan dua atau lebih objek yang memiliki kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang memiliki kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam pohon dimana ada hierarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai yang paling tidak mirip. Secara logika semua objek pada akhirnya hanya akan membentuk sebuah cluster. Dendogram biasanya digunakan untuk membantu memperjelas proses hierarki tersebut.

Berbeda dengan metode hierarchical clustering, metode non-hierarchical clustering justru dimulai dengan menentukan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster, atau lain sebagainya). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hierarki. Metode ini biasa disebut dengan K-Means Clustering [1].

2.2.3 K-Means

K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik berbeda dikelompokkan ke dalam kelompok yang lain. Adapun tujuan dari data clustering ini adalah untuk

(4)

meminimalisasikan objective function yang diset dalam proses clustering, yang pada umumnya berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster [1].

Tahapan dari metode K-Means adalah sebagai berikut [5] : 1. Tentukan banyak cluster k.

2. Beri nilai awal pusat cluster sebanyak k, biasanya secara random dari data yang tersedia.

3. Masukkan setiap data ke dalam cluster yang memiliki centroid terdekat. Gunakan distance measure untuk menghitung jarak dari setiap data ke setiap centroid dari cluster.

4. Lakukan iterasi, kemudian tentukan posisi centroid baru dengan menggunakan persamaan sebagai berikut,

∑ Keterangan :

v = centroid dari cluster = data ke-i ; i = 1,2,3...n

n = banyaknya jumlah data yang menjadi anggota cluster

5. Kembali ke langkah 3, jika masih ada data yang berpindah cluster atau ada perubahan nilai centroid.

2.2.4 Distance Measure

Meskipun clustering adalah pengelompokkan data yang mirip, tetap diperlukan beberapa pengukuran untuk menentukan dua objek mirip atau tidak mirip. Untuk menentukan kemiripan tersebut dapat digunakan pengukuran yang disebut dengan distance measure. Berikut adalah beberapa cara perhitungan jarak yang dapat dilihat pada persamaan 2 [4], 3 [1] dan 4 [4]:

2.2.4.1 Euclidean Distance

Euclidean distance merupakan salah satu metode perhitungan jarak yang digunakan untuk mengukur jarak dari 2 (dua) buah titik dalam euclidean space (meliputi bidang euclidean dua dimensi, tiga dimensi, atau bahkan lebih). Untuk mengukur tingkat kemiripan data dengan rumus euclidean distance digunakan rumus berikut [4] :

(5)

√∑ Keterangan :

d = jarak antara x dan y x = data pusat cluster y = data pada atribut i = setiap data n = jumlah data

= data pada pusat cluster ke i = data pada setiap data ke i 2.2.4.2 Chebyshev Distance

Chebyshev Distance merupakan salah satu metode perhitungan jarak yang menggunakan selisih terbesar dari atribut-atribut dua buah data sebagai jarak. Berikut rumus yang digunakan menghitung jarak dalam metode ini [1] :

Keterangan :

d = jarak antara x dan y x = data pusat cluster y = data pada atribut i = setiap data k = dimensi data

= data pada pusat cluster ke i = data pada setiap data ke i 2.2.4.3 Minkowski Distance

Minkowski Distance merupakan sebuah matriks dalam ruang vektor di mana suatu norma didefinisikan (normed vector space) sekaligus dianggap sebagai generalisasi dari Euclidean Distance dan Manhattan Distance. Dalam pengukuran jarak objek menggunakan Minkowski Distance biasanya digunakan nilai p adalah 1 atau 2. Berikut rumus yang digunakan menghitung jarak dalam metode ini [4] :

(6)

Keterangan :

d = jarak antara x dan y x = data pusat cluster y = data pada atribut i = setiap data n = jumlah data,

= data pada pusat cluster ke i = data pada setiap data ke i p = power

2.2.5 Silhouette Coefficient

Menurut Kaufman dan Rousseeuw salah satu metode evaluasi yang dapat digunakan untuk melihat kualitas dan kekuatan cluster adalah metode Silhouette Coefficient. Metode ini merupakan metode validasi cluster yang menggabungkan metode cohesion dan separation.

Tahapan perhitungan Silhouette Coefficient adalah sebagai berikut [5] :

1. Hitung rata-rata jarak dari suatu objek, misalkan i dengan semua objek lain yang berada dalam satu cluster dengan menggunakan rumus di bawah ini [4] :

∑ Keterangan :

= banyaknya data dalam cluster A i, j = indeks dari dokumen

d (i, j) = jarak antara dokumen ke i dengan dokumen ke j.

2. Hitung rata-rata jarak dari dokumen i tersebut dengan semua dokumen di cluster lain menggunakan rumus berikut [4] :

∑ Keterangan :

d (i, C) = jarak rata-rata objek i dengan semua objek pada cluster lain dimana

(7)

3. Hitung nilai Silhouette Coefficient-nya dengan rumus berikut [4] : _{( )}

Berikut adalah Silhouette Coefficient menurut Kaufman dan Rousseeuw [5] :

Tabel 2.1. Keterangan Nilai Silhouette Coefficient No Rentang Nilai SC Keterangan

1 0 7 < SC ≤ 1 Strong Structure

2 0 5 < SC ≤ 0 7 Medium Structure

3 0 25 < SC ≤ 0 5 Weak Structure