Cluster Analysis:
Konsep Dasar dan Algoritma
Capaian Pembelajaran
Mahasiswa dapat menyebutkan dan menerangkan pengertian dan aplikasi dari analisa cluster
Memahami dan menyebutkan tipe-tipe cluster dan teknik clustering
Mengetahui dan memahami algoritma-algoritma clustering
Mendemokan proses clustering untuk menyelesaikan
permasalahan
Outline
Pengertian Clustering dan Tipe-tipenya
Apa yang dimaksud Cluster Analysis?
Yaitu menemukan kumpulan obyek sedemikian hingga obyek-obyek dalam satu kelompok sama (atau punya hubungan) dengan yang lain dan berbeda (atau tidak berhubungan) dengan obyek-obyek dalam kelompok lain
Jarak antar cluster dimaksimalka
n Jarak dalam
cluster diminimalkan
Aplikasi dari Analisa Cluster
Understanding
– Kelompok dokumen-dokumen yang saling berhubungan untuk proses browsing, pengelompokan gen dan protein yang mempunyai fungsi sama atau pengelompokan stok dengan harga yang fluktuatif
Summarization
– Menurunkan ukuran dari dataset yang besar
Discovered Clusters Industry Group
1
Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN
Technology1-DOWN
2
Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN,Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN
Technology2-DOWN
3
Fannie-Mae-DOWN,Fed-Home-Loan-DOWN,MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN
4
Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,Schlumberger-UP Oil-UP
Clustering precipitation in Australia
Yang bukan termasuk Analisa Cluster
Supervised classification
– Mempunyai informasi label kelas
Simple segmentation
– Membagi siswa ke dalam kelompok berdasarkan urutan nama
Results of a query
– Pengelompokan sebagai hasil dari spesifikasi eksternal
Graph partitioning
– Beberapa hubungan relevansi dan sinergi tetapi areanya tidak identik
Notasi sebuah cluster
How many clusters?
Four Clusters Two Clusters
Six Clusters
Tipe Clustering
clustering adalah suatu himpunan cluster
Perbedaan penting antara himpunan cluster hirarki (hierarchical) dan partisi (partitional)
Partitional Clustering
– Pembagian obyek data ke dalam subhimpunan (cluster) yang tidak overlap sedemikian hingga tiap obyek data berada dalam tepat satu subhimpunan
Hierarchical clustering
– Sebuah himpunan cluster bersarang yang diatur sebagai suatu pohon hirarki
Partitional Clustering
Original Points A Partitional Clustering
Hierarchical Clustering
p4 p1
p3 p2
p4 p1
p3 p2
p4 p1 p2 p3
p4 p1 p2 p3
Traditional Hierarchical Clustering
Non-traditional Hierarchical Clustering Non-traditional Dendrogram Traditional Dendrogram
Perbedaan antar Tipe Clustering
Exclusive vs non-exclusive
– Dalam non-exclusive clusterings, titik-titik mungkin termasuk dalam banyak cluster – Dapat menampilkan banyak kelas atau titik-titik ‘pembatas’
Fuzzy vs non-fuzzy
– Dalam fuzzy clustering, sebuah titik termasuk dalam setiap cluster dengan suatu nilai bobot antara 0 dan 1
– Jumlah dari bobot-bobot tersebut sama dengan 1
– Clustering probabilitas mempunyai karakteristik yang sama
Partial vs complete
– Dlm beberapa kasus, kita hanya ingin mengelompokkan beberapa data
Heterogeneous vs homogeneous
– Pengelompokan dari ukuran, bentuk dan kepadatan yang berbeda secara luas
Tipe-tipe Cluster
Well-separated clusters
Center-based clusters
Contiguous clusters
Density-based clusters
Property or Conceptual
Described by an Objective Function
Tipe Cluster: Well-Separated
Well-Separated Clusters:
– Sebuah cluster merupakan himpunan titik sedemikian hingga tidak ada titik dalam sebuah cluster yang mendekati (atau lebih mirip) ke setiap titik lain dalam cluster yang tidak
ditempati titik tersebut
3 well-separated clusters
Back
Tipe Clusters: Center-Based
Center-based
– sebuah cluster adalah himpunan dari obyek-obyek sedemikian hingga sebuah obyek dalam sebuah cluster mendekati (lebih mirip) dengan ‘pusat’ dari sebuah cluster
dibandingkan dengan pusat cluster lain
– Pusat dari sebuah cluster dapat berupa centroid, yaitu rata-rata dari semua titik dalam cluster tersebut, atau medoid, merupakan representasi titik dari sebuah cluster
4 center-based clusters
Back
Tipe Clusters: Contiguity-Based
Contiguous Cluster (Nearest neighbor atau Transitive)
– Sebuah cluster merupakan himpunan titik sedemikian hingga sebuah titik dalam cluster mendekati (atau lebih serupa) dengan satu atau lebih titik lain dalam cluster tersebut dibandingkan dengan titik yang tidak berada pada cluster tersebut
8 contiguous clusters
Back
Tipe Clusters: Density-Based
Density-based
– Sebuah cluster merupakan suatu daerah titik yang padat, yang dipisahkan oleh daerah kepadatan rendah (low-density), dari daerah kepadatan tinggi (high density) yang lain.
– Digunakan ketika cluster-cluster tidak beraturan atau terjalin dan ketika terdapat noise dan outlier.
6 density-based clusters
Back
Tipe Clusters: Conceptual Clusters
Shared Property atau Conceptual Clusters
– Menemukan cluster-cluster yang membagi beberapa sifat umumnya atau menyatakan konsep tertentu.
. 2 Overlapping Circles
Back
Tipe Clusters: Objective Function
Cluster yang didefinisikan oleh suatu fungsi obyektif
– Menemukan cluster yang meminimalkan atau memaksimalkan suatu fungsi obyektif.
– Menghitung semua kemungkinan cara untuk membagi titik-titk ke dalam cluster dan
mengevaluasi ‘kebaikan’ dari tiap himpunan cluster yang potensial dengan menggunakan fungsi obyektif yang diberikan (NP Hard)
– Dapat mempunyai tujuan global atau lokal
Algoritma clustering Hierarchical mempunyai local objectives
Algoritma Partitional mempunyai global objectives
– Variasi dari pendekatan fungsi obyektif global adalah menyusun data menjadi sebuah model yang terukur (parameterized).
Parameter-parameter untuk model tersebut ditentukan dari data.
Model Campuran (Mixture model) mengasumsikan bahwa data merupakan suatu campuran bilangan yang terdistribusi secara statistik.
Tipe Clusters: Objective Function …
Pemetaan permasalahan clustering menjadi suatu domain yang berbeda dan menyelesaikan permasalahan yang terhubung dalam domain tersebut
– Matriks kedekatan (Proximity matrix) mendefinisikan suatu graph terboboti, dimana simpul-simpulnya merupakan titik yang diguguskan, dan sisi-sisi yang terboboti
menyatakan kedekatan dari titik-titik tersebut
– Clustering ekivalen dengan memecah graph ke dalam komponen-komponen yang terhubung (connected components), satu untuk tiap cluster.
– Berkeinginan untuk meminimalkan bobot rusuk antara cluster-cluster dan memaksimalkan bobot rusuk dalam cluster
Karakteristik dari data input
Tipe dari ukuran kedekatan atau kepadatan
– Merupakan ukuran yang dihasilkan, dan merupakan pusat penggugusan
Kerenggangan Data (Sparseness)
– Menyatakan tipe similaritas – Menambah efisiensi
Tipe atribut
– Menyatakan tipe similaritas
Tipe data
– Menyatakan tipe similaritas
– Karakteristik lain, yaitu autocorrelation
Dimensionalitas
Noise dan Outliers
Tipe dari distribusi