MAKALAH
ANALISA CLUSTERING
oleh:
SIGIT PURNOMO (14.01.53.0061) ALI IMRON (14.01.53.0066) DICKY RYAN R (14.01.53.0080)
FAKULTAS TENOLOGI INFORMASI UNIVERSITAS STIKUBANK (UNISBANK)
SEMARANG
2018
BAB I
PENDAHULUAN
1.1 Latar Belakang
Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untukmengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis clustermengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya dengan objek lain berada dalam cluster yang sama.
Cluster-cluster yang terbentuk memiliki homogenitas internal yang tinggi dan heterogenitas eksternal yang tinggi. Berbeda dengan teknik multivariat
lainnya,analisis ini tidak mengestimasi set vaiabel secara empiris sebaliknya menggunakan set variabel yang ditentukan oleh peneliti itu sendiri. Fokus dari analisis cluster adalah membandingkan objek berdasarkan set variabel, hal inilah yang menyebabkan para ahli mendefinisikan set variabel sebagai tahap kritis dalam analisis cluster. Set variabel cluster adalah suatu set variabelyang mempresentasikan karakteristik yang dipakai objek-objek. Bedanya dengan analisis faktor adalah bahwa analisis cluster terfokus pada pengelompokan objek sedangkan analisis faktor terfokus pada kelompok variabel.
Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap penyelesaian/solusi tergantung pada beberapa elemen prosedur dan beberapa solusi yang berbeda dapat diperoleh dengan mengubah satu elemen atau lebih.
Solusi cluster secara keseluruhan bergantung pada variabel-variaabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau
pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasi analisisi cluster.
1.2 Rumusan Masalah
Berdasarkan latar belakang di atas, rumusan permasalahan dalam penulisan ini sebagai berikut :
1. Bagaimana kajian teoritis metode Klastering Data dalam pembentukan klaster
2. Bagaimana penerapan metode klastering data dalam pembentukan klaster pada show room mobil.
BAB II
TINJAUAN PUSTAKA
2.1 Definisi Analisi Cluster
Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis cluster mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya dengan objek lain berada dalam cluster yang sama. Cluster-cluster yang terbentuk memiliki homogenitas internal yang tinggi dan heterogenitas eksternal yang tinggi. Ada lima metode aglomerasi dalam pembentukan cluster, yatiu :
a. Pautan Tunggal (Single Linkage)
Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling pendek maka keduanya akan ditempatkan pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama
pendekatan tetangga terdekat.
b. Pautan Lengkap (Complete Linkage)
Disebut juga pendekatan tetangga terjauh. Dasarnya adalah jarak
maksimum.Dalam metode ini seluruh objek dalam suatu cluster dikaitkan satu sama lain pada suatu jarak maksimum atau dengan kesamaan minimum.
c. Metode Ward (Ward’s Method)
Dalam metode ini jarak antara dua cluster adalah jumlah kuadrat antara duacluster untuk seluruh variabel. Metode ini cenderung digunakan untuk mengkombinasi cluster-cluster dengan jumlah kecil.
d. Pautan Rata-rata (Average Linkage)
Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai daritengan atau pasangan observasi dengan jarak paling mendekati jarak rata- rata.
e. Metode Centroid
Jarak antara dua cluster adalah jarak antar centroid cluster tersebut.
Centroidcluster adalah nilai tengah observasi pada variabel dalam suatu set
variabel cluster. Keuntungannya adalah outlier hanya sedikit berpengaruh jika dibandingkan dengan metode lain.
BAB III
METODE PENELITIAN
3.1. Metode penelitian ini adalah library research (penelitian kepustakaan), yaitu penelitian yang dilaksanakn dengan menggunakan literatur (kepustakaan), baik berupa buku, catatan, maupun laporan, hasil penelitian dari penelitian terdahulu.
3.2. Dalam kegiatan pengumpulan data untuk penelitian ini digunakan metode pengumpulan studi pustaka yang mana pada metode ini kegiatan dilakukan adalah mempelajari, mencari dan mengumpulkan data yang berhubungan dengan penelitian ini. Data yang digunakan dalam pengelompokkan jenis mobil ini diperoleh dari data show room di area Semarang dimana penelitian ini dilakukan. Data yang diperoleh kemudian akan di olah menggunakan program klaster bahasa R dengan mengambil nilai – nilai dari setiap atribut pada data untuk mengelompokkan data jenis mobil.
3.3. Dalam penelitian studi literatur adalah kegiatan ilmiah yang dilakukan untuk menemukan jawaban satu permasalahan, dan yang tujuan akhirnya adalah memberikan kontribusi teoritis atau praktis pada pengembangan bidang ilmu yang bersangkutan. Studi literatur yang digunakan disini meliputi pengolahan data jenis mobil pada show room mobil di Semarang.
A.
BAB IV
HASIL DAN PEMBAHASAN
4.1 Analisis Cluster
Analisis cluster merupakan suatu teknik yang lebih sederhana bukandalam asumsinya yang memusatkan jumlah kelompok-kelompok
ataustruktur kelompok. Pengelompokkan setuju pada kesamaan dasar atau jarak (ketaksamaan). Masukan-masukan yang dibutuhkan merupakankesamaan ukuran atau data-data dari kesamaan-kesamaan yang dapat dihitung.
Untuk menggambarkan sifat yang sulit dalam pendefinisian suatu pengelompokkan dasar, misalnya pengurutan 16 kartu dalam permainankartu biasa ke dalam cluster dari kesamaan objek-objek. Beberapa pengelompokkan digambarkan dalam gambar 12.1, ini dengan jelas bahwa maksud pembagian- pembagian tergantung pada pendefinisiankesamaan.
Untuk permainan kartu contohnya, terdapat satu cara membentuk suatu kelompok tunggal pada 16 kartu; terdapat 32.767 cara untuk membagi kartu ke dalam dua kelompok (bermacam-macam ukuran );terdapat 7.141.686 cara untuk mengurutkan kartu-kartu ke dalam tigakelompok (bermacam-macam ukuran) dan seterusnya.
Dengan jelas, batasan waktu membuat ini tidak mungkin untuk
menetukan pengelompokkan terbaik pada kesamaan objek-objek darisuatu daftar dari semua struktur yang mungkin. Meskipun komputer-komputer besar dengan mudah meliputi jumlah kasus yang besar. Jadisatu kasus menyelesaikan
pencarian algoritma yang baik, tetapi tidak memenuhi yang terbaik dalam pengelompokkan. Kembali lagi, pertamaharus dikembangkan suatu ukuran kuantitatif untuk assosiasi (kesamaan) ukuran antara objek-objek.
Bagian 12.2 memberikan suatu pendiskusian pada kesamaanukuran.
Setelah bagian 12.2 dideskripsikan sedikitnya dari beberapaalgoritma umum untuk pengurutan objek-objek ke dalam kelompok-kelompok. Meskipun tanpa notasi yang tepat pada suatu pengelompokkan biasa, sering digunakan objek cluster dalam dua atau tigadimensi scatter plot, memiliki keuntungan pada kemampuan pemikiran untuk mengelompokkan objek-objek yang sama dan untuk memilih pengamatan-pengamatan terpencil, langkah grafik secara umum
baru-baruini dikembangkan untuk penggambaran dimensi tingkat tinggi
pengamatan- pengamatan dalam dua dimensi. Beberapa dari teknik langkahnya diberikan dalam bagian 12.5 dan 12.6.
4.2 Cara Kerja Analisis Cluster
Secara garis besar ada tiga hal yang harus terjawab dalam proses kerjaanalisis cluster, yaitu :
1. Bagaimana mengukur kesamaan ?
Ada tiga ukuran untuk mengukur kesamaaan antar objek, yaitu ukurankorelasi, ukuran jarak, dan ukuran asosiasi.
2. Bagaimana membentuk cluster ?
Prosedur yang diterapkan harus dapat mengelompokkan objek-objek yangmemiliki kesamaan yang tinggi ke dalam sutau cluster yang sama.
3. Berapa banyak cluster/kelompok yang akan dibentuk ?
Pada prinsipnya jika jumlah cluster berkurang maka homogenitas alamcluster secara otomatis akan menurun.
4.3 Proses Analisis Cluster
Sebagaimana teknik multivariat lain proses analisis cluster dapatdijelaskan dalam enam tahap sebagai berikut :
4.3.1 Tahap Pertama : Tujuan Analisi Cluster
Tujuan utama analisis cluster adalah mempartisi suatu set objek menjadi dua kelompok atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya.Dalam pembentukan kelompok/cluster dapat dicapai tiga tujuan, yaitu :
1. Deskripsi klasifikasi (taxonomy description)
Penerapan anallisis cluster secara tradisisonal bertujuan mengeksplorasi dan membentuk suatu klasisfikasi/taksonomi secara empiris. Karena kemampuan partisinya analisis cluster dapatditerapkan secara luas.
Meskipun secara empiris merupakan teknik eksplorasi analisis cluster dapat pula digunakan untuk tujuan konfirmasi.
4.3.2 Tahap Kedua : Desain Penelitian dalam Analisis Cluster Tiga hal penting dalam tahap ini adalah pendeteksian outlier,mengukur kesamaan, dan standarisasi data.
1. Pendeteksian Outlier
Outlier adlah suatu objek yang sangat berbeda dengan objek lainnya.Outlier dapat digambarkan sebagai observasi yang secara nyata kebiasaan, tidak mewakili populasi umum, dan adanya under sampling dapat pula memunculkan outlier. Outlier menyebabkan struktur yang tidak benar dan cluster yang terbentuk menjadi tidak representatif.
2. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang fundamental dalam analisis cluster.Kesamaan antar objek merupakan ukuran korespondensi antar objek.Ada tiga metode yang dapat diterapkan, yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi.
3. Standarisasi Data
a. Standarisasi Variabel
Bentuk paling umum dalam standarisasi variabel adalah konversisetiap variabel terhadap skor atandar (dikenal dengan Z score) dengan melakukan substraksi nilai tengan dan membaginya dengans tandar deviasi tiap variabel.
b. Standarisasi Data
Berbeda dengan standarisasi variabel, standarisasi ndata dilakukanterhadap observasi/objek yang akan
dikelompokkan.
4.3.3 Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster Seperti hal teknik analisis lain,analisis cluster juga
menetapkanadanya suatu asumsi. Ada dua asumsi dalam analisis cluster, yaitu :
1. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh ekelompok sampel. Sampel yang digunakan dalam analisis cluster
harus dapat mewakili populasi yang ingin dijelaskan, karena analisisini baik jika sampel representatif. Jumlah sampel yang diambiltergantung penelitinya, seorang peneliti harus yakin bahwa sampilyang diambil representatif terhadap populasi.
2. Pengaruh Multukolinieritas
Ada atau tidaknya multikolinieritas antar variabel sangatdiperhatikan dalam analisis cluster karena hal itu berpengaruh,sehingga variabel- variabel yang bersifat multikolinieritas secaraeksplisit
dipertimbangkan dengan lebih seksama.
4.3.4 Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan
Ada dua proses penting yaitu algoritma cluster dalam
pembentukancluster dan menentukan jumlah cluster yang akan dibentuk.
Keduanyamempunyai implikasi substansial tidak hanya pada hasil yang diperolehtetapi juga pada interpretasi yang akan dilakukan terhadap hasil tersebut.
Algoritma Cluster
Algoritma cluster harus dapat memaksimalkan perbedaan relatif cluster terhadap variasi dalam cluster. Dua metode paling umum
dalamalgoritma cluster adalahmetode hirarkhi dan metode non hirarkhi.Penentuan metode mana yag akan dipakai tergantung kepada peneliti dankonteks penelitian dengan tidak mengabaikan substansi, teori dan konsepyang berlaku.
Keduanya memiliki kelebihan sendiri-sendiri. Keuntungan metode hirarkhi adalah cepat dalam proses pengolahan sehingga
menghemat waktu, namun kelemahannya metode ini dapat menimbulkan kesalahan. Selain itu tidak baik diterapkan untuk menganalisis
sampeldengan ukuran besar. Metode Non Hirarkhi memiliki keuntungan lebihdaripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada data outlier, ukuran jarak yang digunakan, dan termasuk variabel tak relevanatau variabel yang tidak tepat. Keuntungannya hanya dengan menggunakan titik bakal nonrandom, penggunaan metode non hirarkhi
untuk titik bakal random secara nyata lebih buruk dari pada metodehirarkhi.
Alternatif lain adalah dengan mengkombinasikan kedua metode ini. Pertama gunakan metode hirarkhi kemudian dilanjutkan dengan metode non hirarkhi
1. Metode Hirarkhi
Tipe dasar dalam metode ini adalah aglomerasi dan
pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai cluster tersendiri sehingga terdapat cluster
sebanyak jumlah observasi. Kemudian dua cluster yang terdekat kesamaannyadigabung menjadi suatu cluster baru, sehingga jumlah cluster berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu cluster besar yang mengandung seluruh observasi,selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini dilakukan hinggatiap observasi menjadi cluster sendiri-sendiri.Hal penting dalam metode hirarkhi adalah bahwa hasil padatahap sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon.
2. Metode Non Hirarkhi
Masalah utama dalam metoda non hirarkhi adalah
bagaimanamemilih bakal cluster. Harus disadari pengaruh pemilihan bakal cluster terhadap hasil akhir analisis cluster. Bakal cluster pertama adalahobservasi pertama dalam set data tanpa missing value.
Bakal kedua adalahobservasi lengkap berikutnya (tanpa missing data) yang dipisahkan dari bakal pertama oleh jarak minimum khusus.
4.3.5 Tahap Kelima : Interpretasi terhadap Cluster
Tahap interpretasi meliputi pengujian tiap cluster dalam term untuk menamai dan menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian cluster. Proes ini dimulai dengan suatu ukuran yang sering digunakan yaitu centroid cluster. Membuat profil dan
interpretasi cluster tidak hanya tidak hanya untuk memperoleh suatu gambaran saja melainkan pertama, menyediakan suatu rata-rata untuk menilai korespondensi pada cluster yang terbentuk,kedua, profil cluster memberikan araha bagi penilainan terhadap signifikansi praktis.
4.4 Source Code Klastering
library(inline) library(pracma)
x <- mtcars["Honda Civic",]
y <- mtcars["Camaro Z28?,]
xy <-rbind(x,y)
dist(xy,method="euclidian") dist(xy,method="maximum") dist(xy,method="manhattan") dist(xy,method="canberra") dist(xy,method="binary") dist(xy,method="minkowski")
d <-dist(as.matrix(mtcars)) hc <-hclust(d)
plot(hc)
hc <-hclust(d,method="single") plot(hc)
hc <-hclust(d,method="average") plot(hc)
hc <-hclust(d,method="ward.D") plot(hc)
hc <-hclust(d,method="ward2.D") plot(hc)
hc <-hclust(d,method="centroid") plot(hc)
hc <-hclust(d,method="median") plot(hc)
library(ggplot2)
ggplot(mtcars, aes(mpg, cyl, color = cyl)) + geom_point() hasilk<-kmeans(mtcars,3)
hasilk$cluster setwd("C://")
write.csv(hasilk$cluster, file = "hasilklaster.csv") write.csv(hasilk$centers, file = "hasilpusat.csv")
Gambar 4.1 Cluster Dendogram (“complete”)
Gambar 4.2 Cluster Dendogram (“single”)
Gambar 4.3 Cluster Dendogram (“average”)
Gambar 4.4 Cluster Dendogram(“ward.D”)
Gambar 4.5 Cluster Dendogram(“centroid”)
Gambar 4.6 Cluster Dendogram(“median”)
Gambar 4.7 Cluster Dendogram (“mpg”)
BAB V KESIMPULAN
1. Analisis cluster dilakukan untuk mengelompokan objek-objek yang memiliki kemiripan (homogen). Berdasarkan karakteristik yangdimiliki,dengan analisis cluster sekelompok objek dapat dikelompokkan.
2. Metode pengelompokan pada dasarnya ada dua, yaitu pengelompokan hirarki (Hierarchical Clustering Method) dan pengelompokan non hirarki (Non Hierarchical Clustering Method).
DAFTAR PUSTAKA
Aji, Chandra.et al. Clustering.(Online).
Hartini,Entin. Metode Clustering Hirarki.(Online).
https://sindarku.wordpress.com/tag/document-clustering/ diakses pada tanggal 5 Januari 2018
http://www.batan.go.id/ppin/lokakarya/LKSTN_15/Entin.pdf (Unknown.Clustering.
(Online) diakses pada tanggal 5 Januari 2018