• Tidak ada hasil yang ditemukan

Konsep Dasar dan Algoritma

N/A
N/A
Surani

Academic year: 2025

Membagikan " Konsep Dasar dan Algoritma"

Copied!
20
0
0

Teks penuh

(1)

Cluster Analysis:

Konsep Dasar dan Algoritma

(2)

Capaian Pembelajaran

Mahasiswa dapat menyebutkan dan menerangkan pengertian dan aplikasi dari analisa cluster

Memahami dan menyebutkan tipe-tipe cluster dan teknik clustering

Mengetahui dan memahami algoritma-algoritma clustering

Mendemokan proses clustering untuk menyelesaikan

permasalahan

(3)

Outline

Pengertian Clustering dan Tipe-tipenya

(4)

Apa yang dimaksud Cluster Analysis?

Yaitu menemukan kumpulan obyek sedemikian hingga obyek-obyek dalam satu kelompok sama (atau punya hubungan) dengan yang lain dan berbeda (atau tidak berhubungan) dengan obyek-obyek dalam kelompok lain

Jarak antar cluster dimaksimalka

n Jarak dalam

cluster diminimalkan

(5)

Aplikasi dari Analisa Cluster

Understanding

– Kelompok dokumen-dokumen yang saling berhubungan untuk proses browsing, pengelompokan gen dan protein yang mempunyai fungsi sama atau pengelompokan stok dengan harga yang fluktuatif

Summarization

– Menurunkan ukuran dari dataset yang besar

Discovered Clusters Industry Group

1

Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,

Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN

Technology1-DOWN

2

Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN,

Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN

Technology2-DOWN

3

Fannie-Mae-DOWN,Fed-Home-Loan-DOWN,

MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN

4

Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,

Schlumberger-UP Oil-UP

Clustering precipitation in Australia

(6)

Yang bukan termasuk Analisa Cluster

Supervised classification

– Mempunyai informasi label kelas

Simple segmentation

– Membagi siswa ke dalam kelompok berdasarkan urutan nama

Results of a query

– Pengelompokan sebagai hasil dari spesifikasi eksternal

Graph partitioning

– Beberapa hubungan relevansi dan sinergi tetapi areanya tidak identik

(7)

Notasi sebuah cluster

How many clusters?

Four Clusters Two Clusters

Six Clusters

(8)

Tipe Clustering

clustering adalah suatu himpunan cluster

Perbedaan penting antara himpunan cluster hirarki (hierarchical) dan partisi (partitional)

Partitional Clustering

– Pembagian obyek data ke dalam subhimpunan (cluster) yang tidak overlap sedemikian hingga tiap obyek data berada dalam tepat satu subhimpunan

Hierarchical clustering

– Sebuah himpunan cluster bersarang yang diatur sebagai suatu pohon hirarki

(9)

Partitional Clustering

Original Points A Partitional Clustering

(10)

Hierarchical Clustering

p4 p1

p3 p2

p4 p1

p3 p2

p4 p1 p2 p3

p4 p1 p2 p3

Traditional Hierarchical Clustering

Non-traditional Hierarchical Clustering Non-traditional Dendrogram Traditional Dendrogram

(11)

Perbedaan antar Tipe Clustering

Exclusive vs non-exclusive

Dalam non-exclusive clusterings, titik-titik mungkin termasuk dalam banyak cluster Dapat menampilkan banyak kelas atau titik-titik ‘pembatas’

Fuzzy vs non-fuzzy

Dalam fuzzy clustering, sebuah titik termasuk dalam setiap cluster dengan suatu nilai bobot antara 0 dan 1

Jumlah dari bobot-bobot tersebut sama dengan 1

Clustering probabilitas mempunyai karakteristik yang sama

Partial vs complete

Dlm beberapa kasus, kita hanya ingin mengelompokkan beberapa data

Heterogeneous vs homogeneous

Pengelompokan dari ukuran, bentuk dan kepadatan yang berbeda secara luas

(12)

Tipe-tipe Cluster

Well-separated clusters

Center-based clusters

Contiguous clusters

Density-based clusters

Property or Conceptual

Described by an Objective Function

(13)

Tipe Cluster: Well-Separated

Well-Separated Clusters:

– Sebuah cluster merupakan himpunan titik sedemikian hingga tidak ada titik dalam sebuah cluster yang mendekati (atau lebih mirip) ke setiap titik lain dalam cluster yang tidak

ditempati titik tersebut

3 well-separated clusters

Back

(14)

Tipe Clusters: Center-Based

Center-based

– sebuah cluster adalah himpunan dari obyek-obyek sedemikian hingga sebuah obyek dalam sebuah cluster mendekati (lebih mirip) dengan ‘pusat’ dari sebuah cluster

dibandingkan dengan pusat cluster lain

– Pusat dari sebuah cluster dapat berupa centroid, yaitu rata-rata dari semua titik dalam cluster tersebut, atau medoid, merupakan representasi titik dari sebuah cluster

4 center-based clusters

Back

(15)

Tipe Clusters: Contiguity-Based

Contiguous Cluster (Nearest neighbor atau Transitive)

– Sebuah cluster merupakan himpunan titik sedemikian hingga sebuah titik dalam cluster mendekati (atau lebih serupa) dengan satu atau lebih titik lain dalam cluster tersebut dibandingkan dengan titik yang tidak berada pada cluster tersebut

8 contiguous clusters

Back

(16)

Tipe Clusters: Density-Based

Density-based

– Sebuah cluster merupakan suatu daerah titik yang padat, yang dipisahkan oleh daerah kepadatan rendah (low-density), dari daerah kepadatan tinggi (high density) yang lain.

– Digunakan ketika cluster-cluster tidak beraturan atau terjalin dan ketika terdapat noise dan outlier.

6 density-based clusters

Back

(17)

Tipe Clusters: Conceptual Clusters

Shared Property atau Conceptual Clusters

– Menemukan cluster-cluster yang membagi beberapa sifat umumnya atau menyatakan konsep tertentu.

. 2 Overlapping Circles

Back

(18)

Tipe Clusters: Objective Function

Cluster yang didefinisikan oleh suatu fungsi obyektif

– Menemukan cluster yang meminimalkan atau memaksimalkan suatu fungsi obyektif.

– Menghitung semua kemungkinan cara untuk membagi titik-titk ke dalam cluster dan

mengevaluasi ‘kebaikan’ dari tiap himpunan cluster yang potensial dengan menggunakan fungsi obyektif yang diberikan (NP Hard)

– Dapat mempunyai tujuan global atau lokal

Algoritma clustering Hierarchical mempunyai local objectives

Algoritma Partitional mempunyai global objectives

– Variasi dari pendekatan fungsi obyektif global adalah menyusun data menjadi sebuah model yang terukur (parameterized).

Parameter-parameter untuk model tersebut ditentukan dari data.

Model Campuran (Mixture model) mengasumsikan bahwa data merupakan suatu campuran bilangan yang terdistribusi secara statistik.

(19)

Tipe Clusters: Objective Function …

Pemetaan permasalahan clustering menjadi suatu domain yang berbeda dan menyelesaikan permasalahan yang terhubung dalam domain tersebut

– Matriks kedekatan (Proximity matrix) mendefinisikan suatu graph terboboti, dimana simpul-simpulnya merupakan titik yang diguguskan, dan sisi-sisi yang terboboti

menyatakan kedekatan dari titik-titik tersebut

– Clustering ekivalen dengan memecah graph ke dalam komponen-komponen yang terhubung (connected components), satu untuk tiap cluster.

– Berkeinginan untuk meminimalkan bobot rusuk antara cluster-cluster dan memaksimalkan bobot rusuk dalam cluster

(20)

Karakteristik dari data input

Tipe dari ukuran kedekatan atau kepadatan

Merupakan ukuran yang dihasilkan, dan merupakan pusat penggugusan

Kerenggangan Data (Sparseness)

Menyatakan tipe similaritas Menambah efisiensi

Tipe atribut

Menyatakan tipe similaritas

Tipe data

Menyatakan tipe similaritas

Karakteristik lain, yaitu autocorrelation

Dimensionalitas

Noise dan Outliers

Tipe dari distribusi

Referensi

Dokumen terkait

Algoritma Hierarchical Cluster merupakan salah satu algoritma teknik clustering yang dimulai dengan pemilihan secara acak K, yang merupakan banyaknya cluster yang

Menyediakan ruang untuk PERSPEKTIF YANG BERBEDA dalam suasana NON-KONFRONTATIF. Mempertajam

Penyimpanan data yang sama, dengan nama yang sama namun berada pada lokasi yang berbeda sehingga menyebabkan kerangkapan data, adalah pengertian untuk istilah …………. Suatu objek

pengelompokan sejumlah data atau objek ke dalam cluster (group) sehingga setiap dalam cluster tersebut akan berisi data yang semirip mungkin dan berbeda dengan

Analisis kelompok merupakan salah satu teknik data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat

Menurut Han & Kamber (2001), analisis cluster adalah suatu teknik data mining untuk mengelompokan himpunan objek (dataset) ke dalam beberapa cluster hanya

Berbeda halnya dengan unsupervised learning yang mana data tidak memiliki label, pengelompokan atau cluster adalah teknik yang umum dilakukan pada teknik jenis

Analisis klaster merupakan analisis yang bertujuan untuk mengelompokkan objek-objek ke dalam beberapa kelompok di mana objek-objek pada satu kelompok memiliki