TI21W6508 • PROGRAM STUDI TEKNIK INDUSTRI UNIVERSITAS PASUNDAN • 2022
Data Mining –
HIERARCHICAL AND K-MEANS CLUSTERING
KULIAH 13
Clustering
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
• Clustering adalah proses membagi kumpulan data (objek) ke dalam kelompok-kelompok yang disebut cluster.
• Clustering yakni mencari kesamaan data intra-klaster yang maksimum dan inter-kluster yang minimum. Cluster merupakan kumpulan objek yang dikelompokkan berdasarkan kemiripan antar objek (variabel).
• Clustering berbeda dengan classification. Clustering tidak dipakai untuk klasifikasi, estimasi, maupun prediksi.
• Clustering sering digunakan sebagai langkah mula sebelum dilakukan proses data mining berikutnya.
• Beberapa isu pada clustering antara lain, cara mengukur similarity,
mengkodekan variabel kategorikal, standarisasi variable numerical, serta
ekspektasi jumlah klaster
Tujuan Clustering
Tujuan utama dari analisis cluster adalah untuk mengelompokkan objek-objek berdasarkan kesamaan karakteristik di antara objek-objek tersebut. Objek dapat berupa produk (barang dan jasa), benda (tumbuhan atau lainnya), serta orang (responden, konsumen atau yang lain). Objek tersebut akan diklasifikasikan ke dalam satu atau lebih cluster (kelompok) sehingga objek- objek yang berada dalam satu cluster akan mempunyai kemiripan satu dengan yang lain.
Secara logika, cluster yang baik adalah cluster yang mempunyai:
• Homogenitas (kesamaan) yang tinggi antar anggota dalam satu cluster (within-cluster).
• Heterogenitas (perbedaan) yang tinggi antar cluster yang satu dengan
cluster yang lainnya (between-cluster).
Manfaat Clustering
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
Keuntungan penggunaan metode hierarki dalam analisis Cluster adalah mempercepat pengolahan dan menghemat waktu karena data yang diinputkan akan membentuk hierarki atau membentuk tingkatan tersendiri sehingga mempermudah dalam penafsiran, namun kelemahan dari metode ini adalah seringnya terdapat kesalahan pada data outlier, perbedaan ukuran jarak yang digunakan, dan terdapatnya variabel yang tidak relevan.
Sedang metode non-hierarki (k-means) memiliki keuntungan dapat
melakukan analisis sampel dalam ukuran yang lebih besar dengan
lebih efisien. Selain itu, hanya memiliki sedikit kelemahan pada data
outlier, ukuran jarak yang digunakan, dan variabel tak relevan atau
variabel yang tidak tepat. Sedangkan kelemahannya adalah untuk
titik bakal random lebih buruk dari pada metode hirarkhi.
CLUSTERING VS CLASSIFICATION
Basis
Comparison Clustering Classification Basis Fungsi ini memetakan data
ke dalam salah satu dari banyak cluster di mana pengaturan item data bergantung pada
kesamaan di antara mereka.
Fungsi model ini mengklasifikasikan data ke dalam salah satu dari sekian
banyak kelas pasti yang telah
ditetapkan.
Involved in Unsupervised Learning Supervised Learning
Training sample Not Provided Provided
CLUSTERING VS CLASSIFICATION
Clustering
Data is not labeled
Group points that are “close”
to each other
Identify structure or patterns in data
Unsupervised learning
Classification
Labeled data points
Want a “rule” that assigns labels to new point
Supervised learning
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
CONTOH PENGGUNAAN CLUSTERING
Untuk menentukan target pemasaran produk khusus untuk bisnis modal kecil yang tidak memiliki anggaran pemasaran yang besar
Untuk tujuan audit akuntansi, untuk membagi perilaku keuangan ke dalam kategori “jinak” dan “mencurigakan”
Sebagai alat reduksi dimensi ketika kumpulan data memiliki ratusan atribut
Untuk clustering gene expression, di mana jumlah gen yang
sangat besar dapat menunjukkan perilaku yang sama
CLUSTERING ALGORITHM
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
Step 1 : Mengukur kesamaan antar objek (similarity). Sesuai prinsip analisis cluster yang mengelompokkan objek yang mempunyai kemiripan, proses pertama adalah mengukur seberapa jauh ada kesamaan antar objek. Metode yang digunakan:
• Mengukur korelasi antar sepasang objek pada beberapa variabel
• Mengukur jarak (distance) antara dua objek. Pengukuran ada bermacam- macam, yang paling popular adalah metode Euclidian distance.
Step 2 : Membuat cluster. Metode dalam membuat cluster ada banyak
sekali, seperti yang digambarkan dalam diagram di bawah ini:
CLUSTERING ALGORITHM: Step-2
ISU PADA CLUSTERING
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
Similarity. Kesamaan bersifat ambigu untuk diukur ,sehingga yang diukur adalah ketidaksamaan (dissimilarity) dengan menggunakan satuan jarak, bisa menggunakan :
Euclidian distance =
City block distance = ||
Minkowski distance =
• Categorical Variable Encoding. Bagaimana kita menentukan nilai pengganti untuk variable kategorikal dapat menentukan posisi item dalam koordinat jarak
• Numerical Variable Standarization. Untuk standarisasi sendiri dapat digunakan Z-score atau min- max normalisasi
• Cluster Expectation. Semakin sedikit jumlah klaster, semakin besar variasi intraklaster dan semakin kecil variasi interklaster, dan begitu juga sebaliknya. Perlu pertimbangan dalam menentukan jumlah klaster.
Misalnya SSE.
HIERARCHIAL CLUSTERING
Metode klaster yang disusun dengan cara partisi berulang atau penggabungan berulang dari klaster-klaster yang telah ada. Metode ini memulai pengelompokan dengan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam “pohon”, di mana ada hirarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai paling tidak mirip.
Terdapat 2 jenis :
Agglomeration (Pemusatan) → Berangkat dari cluster kecil-kecil yang banyak kemudian digabungkan menjadi satu. Dalam agglomerative terdapat lima metode yang cukup terkenal, yaitu: Single Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid Method.
Divisive (Penyebaran)→ Berangkat dari satu cluster besar yang dibagi menjadi
cluster-cluster kecil
HIERARCHIAL CLUSTERING:
Agglomerative
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
Single linkage → Prosedur ini didasarkan pada jarak terkecil. Jika dua obyek terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung menjadi satu cluster daan demikian saterusnya.
Complete linkage → Pendekatan dilakukan dengan tetangga terjauh.
Average linkage → Jarak rata-rata dari semua data dari antar cluster.
Ward’s Method → Jarak antara dua cluster dalam metode ini berdasarkan total sum of square dua cluster pada masing-masing variabel.
Centroid Method → Jarak antara dua cluster dalam metode ini
berdasarkan jarak centroid dua cluster yang bersangkutan.
HIERARCHIAL CLUSTERING
SINGLE LINKAGE
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
COMPLETE LINKAGE
K-MEANS CLUSTERING
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
Berbeda dengan metode hirarki, metode ini justru dimulai dengan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster atau yang lain). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hirarki. Metode ini biasa disebut dengan K-Means Cluster.
Metode ini tidak meliputi proses “treelike construction“. Justru
menempatkan objek-objek ke dalam cluster sekaligus sehingga
terbentuk sejumlah cluster tertentu. Langkah pertama adalah
memilih sebuah cluster sebagai inisial cluster pusat, dan semua
objek dalam jarak tertentu ditempatkan pada cluster yang
terbentuk. Kemudian memilih cluster selanjutnya dan penempatan
dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa
ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada
cluster asalnya.
K-MEANS CLUSTERING
Metode nonhirarki cluster berkaitan dengan K-means custering, dan ada tiga pendekatan yang digunakan untuk menempatkan masing-masing observasi pada satu cluster.
Sequential Threshold
Metode ini memulai dengan pemilihan satu cluster dan menempatkan semua objek yang berada pada jarak tertentu ke dalamnya. Jika semua objek yang berada pada jarak tertentu telah dimasukkan, kemudian cluster yang kedua dipilih dan menempatkan semua objek yang berjarak tertentu ke dalamnya. Kemudian cluster ketiga dipilih dan proses dilanjutkan seperti yang sebelumnya.
Parallel Threshold
Metode ini merupakan kebalikan dari pendekatan yang pertama yaitu dengan memilih sejumlah cluster secara bersamaan dan menempatkan objek-objek kedalam cluster yang memiliki jarak antar muka terdekat. Pada saat proses berlangsung, jarak antar muka dapat ditentukan untuk memasukkan beberapa objek ke dalam cluster-cluster. Juga beberapa variasi pada metode ini, yaitu sisa objek-objek tidak dikelompokkan jika berada di luar jarak tertentu dari sejumlah cluster.
Optimization
Metode ini serupa dengan kedua metode sebelumnya kecuali bahwa metode ini
memungkinkan untuk menempatkan kembali objek-objek ke dalam cluster yang
lebih dekat.
K-MEANS CLUSTERING ALGORITHM
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
Mulai
Berhenti Jumlah
cluster k Inisialisasi
centroid
Hitung jarak objek ke centroid
Kelompokkan objek ke dalam cluster dengan jarak centroid minimum
Masih ada perpindahan
objek?
Hitung ulang posisi centroid
Hasil cluster
Ya
Tida
k
K-MEANS CLUSTERING ALGORITHM
Step 1 : Tentukan berapa jumlah cluster K yang ingin di partisi.
Step 2 : Secara random, tentukan data sejumlah K sebagai lokasi center cluster
Step 3 : Untuk setiap data, temukan jarak dengan cluster center yang dekat dan masukkan data tersebut kedalam cluster yang memiliki jarak terdekat dengan data tersebut.
Step 4 : Untuk setiap cluster, cari centroidnya dan update lokasi setiap center ke
centroid
Step 5 : Ulangi langkah 3 hingga 5 sampai mencapai konvergensi atau terminasi.
Note:
BCV = Between Cluster Variance interkluster
K-MEANS CLUSTERING ALGORITHM
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
Misalkan ada dataset sebagai berikut:
Step 1 : Tentukan jumlah klaster K (misal 2)
Step 2 : Tentukan k titik yang akan dijadikan centroid untuk masing-masing klaster (misal centroid klaster 1(m1) adalah (1,1) dan juga klaster 2 (m2) adalah (2,1)
Item Value
A (1,3)
B (3,3)
C (4,3)
D (5,3)
E (1,2)
F (4,2)
G (1,1)
H (2,1)
K-MEANS CLUSTERING (ITERASI 1) [M 1 =(1,1);M 2 =(2,1)]
Step 3 : Cari jarak masing-masing titik dengan centroid masing-masing klaster
Step 4 : Update Centroid untuk masing-masing klaster
K-MEANS CLUSTERING (ITERASI 2) [M 1 =(1,2);M 2 =(3,6 ; 2,4)]
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
Step 3 : Cari jarak masing-masing titik dengan centroid masing-masing klaster
Step 4 : Update Centroid untuk masing-masing klaster
K-MEANS CLUSTERING (ITERASI 3) [M 1 =(1,25;1,75);M 2 =(4 ; 2,75)]
Step 3 : Cari jarak masing-masing titik dengan centroid masing-masing klaster
Step 4 : Update Centroid untuk masing-masing klaster
Step 5 : Berhenti karena tidak ada lagi pergeseran centroid
CONTOH PENERAPAN K-MEANS CLUSTERING
IDENTIFICATION OF INDOOR AIR QUALITY EVENTS USING A K- MEANS CLUSTERING ANALYSIS OF GAS SENSOR DATA (CARON, ET AL. 2019)
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
• Tujuan Penelitian : Peneliti ingin membandingkan hasil sensor gas yang
dibuatnya dengan instrument pengukur khusus (sebagai referensi)
dengan cara membandingkan hasil klasterisasi bacaan keduanya
terhadap kondisi udara dalam ruangan.
CONTOH PENERAPAN K-MEANS CLUSTERING
IDENTIFICATION OF INDOOR AIR QUALITY EVENTS USING A K-MEANS CLUSTERING ANALYSIS OF GAS SENSOR DATA (CARON, ET AL. 2019)
Hasil Bacaan Sensor Buatan
Hasil Bacaan Sensor
Khusus
CONTOH PENERAPAN K-MEANS CLUSTERING
IDENTIFICATION OF INDOOR AIR QUALITY EVENTS USING A K-MEANS CLUSTERING ANALYSIS OF GAS SENSOR DATA (CARON, ET AL. 2019)
Hasil Klasterisasi Sensor Buatan
Hasil Klasterisasi Sensor Khusus
Kuliah 13 - Hierarchical and K-means Clustering ANR – Data Mining & Knowledge Management - 2022
CONTOH PENERAPAN K-MEANS CLUSTERING
IDENTIFICATION OF INDOOR AIR QUALITY EVENTS USING A K- MEANS CLUSTERING ANALYSIS OF GAS SENSOR DATA (CARON, ET AL. 2019)
• Setelah peneliti mempertimbangkan hasil klasterisasi dengan beberapa jumlah klaster, peneliti memilih jumlah klaster K=7. Karena pada saat K<7, terdapat event- event yang terlewati, sementara saat K>7, klaster hanya berbeda setiap terjadinya event. Baik pada instrument referensi maupun sensor menghasilkan karakteristik hasil clustering yang sama, dengan nilai K=7
• Kemudian, peneliti melakukan perbadingan dengan cara melihat overlap ratio antar bacaan kedua perangkat sebagai berikut.
• Berdasarkan tabel rasio overlap sebelumnya, peneliti menyatakan bahwa sensor
yang peneliti bangun dapat digunakan untuk melakukan penilaian terhadap Indoor
Air Qualitydibandingkan dengan instrument khusus yang menjadi referensi dengan
nilai overlap diatas 88%.
Reference
1] Larose D, T., 2005. Discovering knowledge in data : an introduction to data mining, Jhon Wiley & Sons Inc.
2] Caron, et all. 2019. Identification Of Indoor Air Quality Events
Using A K-means Clustering Analysis Of Gas Sensor Data