Data Mining – HIERARCHICAL AND K-MEANS CLUSTERING

(1)

TI21W6508 • PROGRAM STUDI TEKNIK INDUSTRI UNIVERSITAS PASUNDAN • 2022

Data Mining –

HIERARCHICAL AND K-MEANS CLUSTERING

KULIAH 13

(2)

Clustering

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

• Clustering adalah proses membagi kumpulan data (objek) ke dalam kelompok-kelompok yang disebut cluster.

• Clustering yakni mencari kesamaan data intra-klaster yang maksimum dan inter-kluster yang minimum. Cluster merupakan kumpulan objek yang dikelompokkan berdasarkan kemiripan antar objek (variabel).

• Clustering berbeda dengan classification. Clustering tidak dipakai untuk klasifikasi, estimasi, maupun prediksi.

• Clustering sering digunakan sebagai langkah mula sebelum dilakukan proses data mining berikutnya.

• Beberapa isu pada clustering antara lain, cara mengukur similarity,

mengkodekan variabel kategorikal, standarisasi variable numerical, serta

ekspektasi jumlah klaster

(3)

Tujuan Clustering

Tujuan utama dari analisis cluster adalah untuk mengelompokkan objek-objek berdasarkan kesamaan karakteristik di antara objek-objek tersebut. Objek dapat berupa produk (barang dan jasa), benda (tumbuhan atau lainnya), serta orang (responden, konsumen atau yang lain). Objek tersebut akan diklasifikasikan ke dalam satu atau lebih cluster (kelompok) sehingga objek- objek yang berada dalam satu cluster akan mempunyai kemiripan satu dengan yang lain.

Secara logika, cluster yang baik adalah cluster yang mempunyai:

• Homogenitas (kesamaan) yang tinggi antar anggota dalam satu cluster (within-cluster).

• Heterogenitas (perbedaan) yang tinggi antar cluster yang satu dengan

cluster yang lainnya (between-cluster).

(4)

Manfaat Clustering

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

Keuntungan penggunaan metode hierarki dalam analisis Cluster adalah mempercepat pengolahan dan menghemat waktu karena data yang diinputkan akan membentuk hierarki atau membentuk tingkatan tersendiri sehingga mempermudah dalam penafsiran, namun kelemahan dari metode ini adalah seringnya terdapat kesalahan pada data outlier, perbedaan ukuran jarak yang digunakan, dan terdapatnya variabel yang tidak relevan.

Sedang metode non-hierarki (k-means) memiliki keuntungan dapat

melakukan analisis sampel dalam ukuran yang lebih besar dengan

lebih efisien. Selain itu, hanya memiliki sedikit kelemahan pada data

outlier, ukuran jarak yang digunakan, dan variabel tak relevan atau

variabel yang tidak tepat. Sedangkan kelemahannya adalah untuk

titik bakal random lebih buruk dari pada metode hirarkhi.

(5)

CLUSTERING VS CLASSIFICATION

Basis

Comparison Clustering Classification Basis Fungsi ini memetakan data

ke dalam salah satu dari banyak cluster di mana pengaturan item data bergantung pada

kesamaan di antara mereka.

Fungsi model ini mengklasifikasikan data ke dalam salah satu dari sekian

banyak kelas pasti yang telah

ditetapkan.

Involved in Unsupervised Learning Supervised Learning

Training sample Not Provided Provided

(6)

CLUSTERING VS CLASSIFICATION

Clustering

 Data is not labeled

 Group points that are “close”

to each other

 Identify structure or patterns in data

 Unsupervised learning

Classification

 Labeled data points

 Want a “rule” that assigns labels to new point

 Supervised learning

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

(7)

CONTOH PENGGUNAAN CLUSTERING

 Untuk menentukan target pemasaran produk khusus untuk bisnis modal kecil yang tidak memiliki anggaran pemasaran yang besar

 Untuk tujuan audit akuntansi, untuk membagi perilaku keuangan ke dalam kategori “jinak” dan “mencurigakan”

 Sebagai alat reduksi dimensi ketika kumpulan data memiliki ratusan atribut

 Untuk clustering gene expression, di mana jumlah gen yang

sangat besar dapat menunjukkan perilaku yang sama

(8)

CLUSTERING ALGORITHM

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

Step 1 : Mengukur kesamaan antar objek (similarity). Sesuai prinsip analisis cluster yang mengelompokkan objek yang mempunyai kemiripan, proses pertama adalah mengukur seberapa jauh ada kesamaan antar objek. Metode yang digunakan:

• Mengukur korelasi antar sepasang objek pada beberapa variabel

• Mengukur jarak (distance) antara dua objek. Pengukuran ada bermacam- macam, yang paling popular adalah metode Euclidian distance.

Step 2 : Membuat cluster. Metode dalam membuat cluster ada banyak

sekali, seperti yang digambarkan dalam diagram di bawah ini:

(9)

CLUSTERING ALGORITHM: Step-2

(10)

ISU PADA CLUSTERING

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

Similarity. Kesamaan bersifat ambigu untuk diukur ,sehingga yang diukur adalah ketidaksamaan (dissimilarity) dengan menggunakan satuan jarak, bisa menggunakan :



Euclidian distance =



City block distance = ||



Minkowski distance =



• Categorical Variable Encoding. Bagaimana kita menentukan nilai pengganti untuk variable kategorikal dapat menentukan posisi item dalam koordinat jarak

• Numerical Variable Standarization. Untuk standarisasi sendiri dapat digunakan Z-score atau min- max normalisasi

• Cluster Expectation. Semakin sedikit jumlah klaster, semakin besar variasi intraklaster dan semakin kecil variasi interklaster, dan begitu juga sebaliknya. Perlu pertimbangan dalam menentukan jumlah klaster.

Misalnya SSE.

(11)

HIERARCHIAL CLUSTERING

Metode klaster yang disusun dengan cara partisi berulang atau penggabungan berulang dari klaster-klaster yang telah ada. Metode ini memulai pengelompokan dengan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam “pohon”, di mana ada hirarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai paling tidak mirip.

Terdapat 2 jenis :



Agglomeration (Pemusatan) → Berangkat dari cluster kecil-kecil yang banyak kemudian digabungkan menjadi satu. Dalam agglomerative terdapat lima metode yang cukup terkenal, yaitu: Single Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid Method.



Divisive (Penyebaran)→ Berangkat dari satu cluster besar yang dibagi menjadi

cluster-cluster kecil

(12)

HIERARCHIAL CLUSTERING:

Agglomerative

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

 Single linkage → Prosedur ini didasarkan pada jarak terkecil. Jika dua obyek terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung menjadi satu cluster daan demikian saterusnya.

 Complete linkage → Pendekatan dilakukan dengan tetangga terjauh.

 Average linkage → Jarak rata-rata dari semua data dari antar cluster.

 Ward’s Method → Jarak antara dua cluster dalam metode ini berdasarkan total sum of square dua cluster pada masing-masing variabel.

 Centroid Method → Jarak antara dua cluster dalam metode ini

berdasarkan jarak centroid dua cluster yang bersangkutan.

(13)

HIERARCHIAL CLUSTERING

(14)

SINGLE LINKAGE

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

(15)

COMPLETE LINKAGE

(16)

K-MEANS CLUSTERING

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

Berbeda dengan metode hirarki, metode ini justru dimulai dengan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster atau yang lain). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hirarki. Metode ini biasa disebut dengan K-Means Cluster.

Metode ini tidak meliputi proses “treelike construction“. Justru

menempatkan objek-objek ke dalam cluster sekaligus sehingga

terbentuk sejumlah cluster tertentu. Langkah pertama adalah

memilih sebuah cluster sebagai inisial cluster pusat, dan semua

objek dalam jarak tertentu ditempatkan pada cluster yang

terbentuk. Kemudian memilih cluster selanjutnya dan penempatan

dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa

ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada

cluster asalnya.

(17)

K-MEANS CLUSTERING

Metode nonhirarki cluster berkaitan dengan K-means custering, dan ada tiga pendekatan yang digunakan untuk menempatkan masing-masing observasi pada satu cluster.

 Sequential Threshold

Metode ini memulai dengan pemilihan satu cluster dan menempatkan semua objek yang berada pada jarak tertentu ke dalamnya. Jika semua objek yang berada pada jarak tertentu telah dimasukkan, kemudian cluster yang kedua dipilih dan menempatkan semua objek yang berjarak tertentu ke dalamnya. Kemudian cluster ketiga dipilih dan proses dilanjutkan seperti yang sebelumnya.

 Parallel Threshold

Metode ini merupakan kebalikan dari pendekatan yang pertama yaitu dengan memilih sejumlah cluster secara bersamaan dan menempatkan objek-objek kedalam cluster yang memiliki jarak antar muka terdekat. Pada saat proses berlangsung, jarak antar muka dapat ditentukan untuk memasukkan beberapa objek ke dalam cluster-cluster. Juga beberapa variasi pada metode ini, yaitu sisa objek-objek tidak dikelompokkan jika berada di luar jarak tertentu dari sejumlah cluster.

 Optimization

Metode ini serupa dengan kedua metode sebelumnya kecuali bahwa metode ini

memungkinkan untuk menempatkan kembali objek-objek ke dalam cluster yang

lebih dekat.

(18)

K-MEANS CLUSTERING ALGORITHM

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

Mulai

Berhenti Jumlah

cluster k Inisialisasi

centroid

Hitung jarak objek ke centroid

Kelompokkan objek ke dalam cluster dengan jarak centroid minimum

Masih ada perpindahan

objek?

Hitung ulang posisi centroid

Hasil cluster

Ya

Tida

k

(19)

Step 1 : Tentukan berapa jumlah cluster K yang ingin di partisi.

Step 2 : Secara random, tentukan data sejumlah K sebagai lokasi center cluster

Step 3 : Untuk setiap data, temukan jarak dengan cluster center yang dekat dan masukkan data tersebut kedalam cluster yang memiliki jarak terdekat dengan data tersebut.

Step 4 : Untuk setiap cluster, cari centroidnya dan update lokasi setiap center ke

centroid

Step 5 : Ulangi langkah 3 hingga 5 sampai mencapai konvergensi atau terminasi.

Note:

BCV = Between Cluster Variance interkluster

(20)

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

Misalkan ada dataset sebagai berikut:

Step 1 : Tentukan jumlah klaster K (misal 2)

Step 2 : Tentukan k titik yang akan dijadikan centroid untuk masing-masing klaster (misal centroid klaster 1(m1) adalah (1,1) dan juga klaster 2 (m2) adalah (2,1)

Item Value

A (1,3)

B (3,3)

C (4,3)

D (5,3)

E (1,2)

F (4,2)

G (1,1)

H (2,1)

(21)

K-MEANS CLUSTERING (ITERASI 1) [M 1 =(1,1);M 2 =(2,1)]

Step 3 : Cari jarak masing-masing titik dengan centroid masing-masing klaster

Step 4 : Update Centroid untuk masing-masing klaster

(22)

K-MEANS CLUSTERING (ITERASI 2) [M 1 =(1,2);M 2 =(3,6 ; 2,4)]

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

Step 3 : Cari jarak masing-masing titik dengan centroid masing-masing klaster

(23)

K-MEANS CLUSTERING (ITERASI 3) [M 1 =(1,25;1,75);M 2 =(4 ; 2,75)]

Step 3 : Cari jarak masing-masing titik dengan centroid masing-masing klaster

Step 5 : Berhenti karena tidak ada lagi pergeseran centroid

(24)

CONTOH PENERAPAN K-MEANS CLUSTERING

IDENTIFICATION OF INDOOR AIR QUALITY EVENTS USING A K- MEANS CLUSTERING ANALYSIS OF GAS SENSOR DATA (CARON, ET AL. 2019)

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

• Tujuan Penelitian : Peneliti ingin membandingkan hasil sensor gas yang

dibuatnya dengan instrument pengukur khusus (sebagai referensi)

dengan cara membandingkan hasil klasterisasi bacaan keduanya

terhadap kondisi udara dalam ruangan.

(25)

IDENTIFICATION OF INDOOR AIR QUALITY EVENTS USING A K-MEANS CLUSTERING ANALYSIS OF GAS SENSOR DATA (CARON, ET AL. 2019)

Hasil Bacaan Sensor Buatan

Hasil Bacaan Sensor

Khusus

(26)

IDENTIFICATION OF INDOOR AIR QUALITY EVENTS USING A K-MEANS CLUSTERING ANALYSIS OF GAS SENSOR DATA (CARON, ET AL. 2019)

Hasil Klasterisasi Sensor Buatan

Hasil Klasterisasi Sensor Khusus

Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022

(27)

CONTOH PENERAPAN K-MEANS CLUSTERING

IDENTIFICATION OF INDOOR AIR QUALITY EVENTS USING A K- MEANS CLUSTERING ANALYSIS OF GAS SENSOR DATA (CARON, ET AL. 2019)

• Setelah peneliti mempertimbangkan hasil klasterisasi dengan beberapa jumlah klaster, peneliti memilih jumlah klaster K=7. Karena pada saat K<7, terdapat event- event yang terlewati, sementara saat K>7, klaster hanya berbeda setiap terjadinya event. Baik pada instrument referensi maupun sensor menghasilkan karakteristik hasil clustering yang sama, dengan nilai K=7

• Kemudian, peneliti melakukan perbadingan dengan cara melihat overlap ratio antar bacaan kedua perangkat sebagai berikut.

• Berdasarkan tabel rasio overlap sebelumnya, peneliti menyatakan bahwa sensor

yang peneliti bangun dapat digunakan untuk melakukan penilaian terhadap Indoor

Air Qualitydibandingkan dengan instrument khusus yang menjadi referensi dengan

nilai overlap diatas 88%.

(28)

Reference

1] Larose D, T., 2005. Discovering knowledge in data : an introduction to data mining, Jhon Wiley & Sons Inc.

2] Caron, et all. 2019. Identification Of Indoor Air Quality Events

Using A K-means Clustering Analysis Of Gas Sensor Data