ANALISIS CLUSTER
KELOMPOK 03
Difa Ayu Balqist Ramadhani (25423025) Wahyu Hidayat (25423053)
Presented By :
KELOMPOK 10
Agung Pranawa Maheswara (25423009) Jenny Oktoviana Usior (25423039)
Afrinaldi (25423075)
Pengantar, Karakteristik, dan
Definisi Analisis Cluster
OUTLINE PEMBAHASAN
Similarity dan Distance dalam
Analisis Cluster
Proses Analisis Cluster
Metode Non- Hierarki Metode Hierarki
1
Tujuan dan Penggunaan Analisis Cluster
2 3
4 5 6
Apa yang terbayangkan saat mendengar kata “Klaster”?
Penganta
r
Apa yang terbayangkan saat mendengar kata “Klaster”?
Penganta r
ELIT NYAMAN
MEWAH SULTAN
SEJAHTERA
Penganta
r
Pra-Klastering
Post-
Klastering
B a n y a k y a n g m ir ip T id a k b e ra tu ra n G a k e b a y a n g a p a -a p a e u y
Karakteristik Analisis Cluster
ANALISA KLASTER YANG BAIK :
1. Adanya kesamaan (similarity) yang tinggi antar anggota yang berada dalam satu klaster
2. Adanya perbedaaan (dissimilarity) yang tinggi antar klaster 1 dengan
klaster yang lain
Karakteristik Analisis
Cluster
Perbedaannya dengan Analisis Faktor?
Responde n
Responde n Responde
n Responde
n Responde
n
Variabel
Variabel Variabel Variabel Variabel Klaster 1
Klaster 2
Faktor 1
Faktor 2
Analisis Klaster Analisis Faktor
Metode analisis yang digunakan untuk mengelompokkan data yang bersifat heterogen menjadi data yang bersifat homogen ditinjau dari karakteristik masing - masing data (Similarity)
Definisi Analisis Cluster
Tujuan dan Penggunaan
MANFAAT
1. Cancer Research, klasifikasi subgroup sesuai dengan ekspresi gen
2. Marketing, segmentasi pasar
3. City Planning, pola permukiman sesuai dengan nilai dan lokasi
4. Konservasi Lingkungan, habitat dan ekologi rentan 5. Landfill Sites Selection
TUJUAN
Untuk mengelompokkan suatu objek penelitian berdasaran
karakteristik yang dimilikinya
Menentukan Similarity dan Distance antar
Variabel
Proses Analisis Cluster (1)
0 1
0 2
0 3
0 4
Memilih Jenis Analisis Cluster
Melakukan Proses Standarisasi
Data Estimasi Jumlah
Cluster yang Terbentuk
• Euclidean Distance
• Manhattan Distance
• Minkowski Metric
• Pearson Correlation Distance
• Eisen Cosine Correlation Distance
• Spearman Correlation Distance
• Kendall Correlation Distance
• Hierarki
1. Agglomerative Nesting (AGNES)
2. Divisive Analysis (DIANA)
• Non Hieraki
1. K-Means 2. K-Medoids
3. Algoritma CLARA
0 5
0
Melakukan intepretasi 6
data (cluster) yang terbentuk
Melakukan validasi dan menentukan profile
masing – masing cluster
• Hopkin Statistics (Jika H>0,75 berarti Cocok)
• Visual Assessment of Cluster Tendency (VAT Algorithm)
Proses Analisis Cluster (2)
Menentukan Similarity Distance
Similarity measures Semakin besar angka perhitungan maka jarak antara
dua variabel semakin dekat
Distance measure Apabila hasil perhitungan distance measure = 0, maka kedekatan antara dua variabel akan
semakin dekat
0
1
Y2 Y1
X2 X1
Y2
Y1
X2 X1
Tipe Ukuran
Jarak (1)
• Pearson Correlation Distance
Bertujuan untuk menghitung derajat hubungan linier antara dua variabel
• Eisen Cosine Correlation Distance
Merupakan bentuk khusus (penyederhanaan) dari PCD dengan tujuan yang sama, dimana dan diganti dengan 0.
• Spearman Correlation Distance
Bertujuan untuk mengukur derajat hubungan antara ranking variabel x dan y.
• Kendall Corelation Distance
Bertujuan untuk mengukur hubungan antara ranking variabel x dan y.
Tipe Ukuran
Jarak (2)
Metode
Hierarki
Metode Cluster Analysis
0
3
Metode Cluster Analysis
HIERARCHICAL METHODS
Digunakan untuk mengelompokkan suatu pengamatan secara
terstruktur.
Ditinjau dari kemiripan sifat antar variabel (similarity)
Banyaknya cluster yang akan dibentuk masih belum diketahui (ditentukan oleh sistem)
Metode yang dimulai dengan menentukan jumlah cluster terlebih
dahulu, kemudian proses cluster ditentukan tanpa mengikuti proses
hierarki.
NON - HIERARCHICAL
METHODS
Metode Hierarki
(1) Divisive Analysis
(DIANA)) Agglomerative Nesting
(AGNES)
Pengelompokkan object yag pada awalnya berada pada satu cluster besar, kemudian cluster tersebut dibagi
menjad cluster yang lebih kecil sehingga setiap object membentuk
cluster masing-masing.
Pengelompokkan object dimulai dari banyaknya variabel yang mirip dikelompokkan menjadi satu cluster,
kemudian cluster – cluster tersebut dikelompokkan lagi menjadi cluster yg lebih besar sesuai dengan kemiripannya
antara satu sama lain hingga seluruh object tadi telah tergabung memiliki
cluster masing – masing.
A G N E S - B O T T O M U P D IA N A – T O P D O W N
Terdapat 2 tipe Model Hierarki : AGLOMERATIVE dan DIVISIVE Mengelompokkan data dalam suatu hierarki atau “pohon
cluster”
Metode Hierarki
(2)
Menghitung Jarak Objek dengan Cluster atau jarak antar cluster
Fungsi
Linkage
Estimasi Jumlah
Cluster (1)
Penentuan jumlah K (cluster) pada metode K-Means:1. Konteks masalah yang dihadapi, misalnya berdasarkan penelitian sebelumnya bahwa jumlah grup tertentu dalam data anda (anda memiliki ekspektasi atau hipotesis yang kuat)
2. Metode direct atau statistic : metode elbow, silhouette, gap statistic.
Elbow Method
Merupakan metode yang digunakan untuk menghasilkan informasi dalam menentukan jumlah cluster terbaik. Hal ini dilakukan dengan cara melihat hasil perbandingan antara jumlah cluster yang akan membentuk sebuah siku pada satu titik (dilihat dari penurunan paling besar antara satu cluster dengan satu cluster sebelumya).
Source: Merliana, N. P. E. Et al (2020)
Estimasi Jumlah
Cluster (2)
Tujuan dilakukannya analisis ini yakni untuk mengetahui :
Pengelompokkan Kabupaten / Kota yang memiliki karakteristik tingkat kemiskinan yang sama di Kalimantan Timur Tahun 2016
Studi Kasus SPSS
Studi Kasus SPSS
Keterangan Tabel :
i = Obyek Pengamatan 1 = Kota Balikpapan
2 = Kabupaten Kutai Kertanegara
3 = Kota Samarinda
4 = Kabupaten Penajam Paser Utara
5 = Kabupaten Paser
6 = Kabupaten Kutai Barat 7 = Kabupaten Kutai Timur 8 = Kabupaten Berau 9 = Kota Bontang
10 = Kabupaten Mahakam Ulu
X1= Persentase jumlah penduduk miskin usia 15 tahun ke atas yang tidak bekerja
(satuan dalam %).
X2 = Persentase jumlah rumah tangga yang pernah membeli beras raskin (satuan dalam %).
X3 = Persentase jumlah pengeluaran perkapita untuk non makanan (satuan dalam %).
X4 = Persentase jumlah penduduk miskin usia 15 tahun ke atas yang tidak tamat SD (satuan dalam %).
X5 = Persentase angka Melek huruf penduduk miskin usia 15-55 tahun (satuan dalam %).
X6= Persentase jumlah pengguna alat KB di rumah tangga miskin (satuan dalam %).
X7 = Persentase jumlah rumah tangga miskin dengan luas lantai perkapita
≤ 8 m2 (satuan dalam %).
X8 = Persentase jumlah rumah tangga miskin yang menggunakan air bersih.
(satuan dalam %).
X9 = Persentase jumlah rumah tangga miskin yang mendapatkan pelayanan jaminan kesehatan (satuan dalam %).
STANDARISASI DATA Melakukan rangkaian proses analisis pada SPSS
INPUT DATA PADA
SPSS
Tujuan dilakukannya analisis ini yakni untuk mengetahui :
“Pengelompokkan Kabupaten / Kota yang memiliki karakteristik tingkat kemiskinan yang sama di Kalimantan Timur Tahun 2016
” N
o
Nama Kabupaten/Kot
a X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
1 BALIKPAPAN 70.59 4.99 99.18 25.36 89.08 21.93 11.17 98.75 4.9 99.05 2 KUTAI 67.7 7.86 98.44 27.22 98.44 17.4 12.15 91.61 4.37 94.5 3 SAMARINDA 70.96 9.51 99.13 23.39 79.3 30.14 15.07 98.85 1.95 36.04 4 PENAJAM PASER
UTARA 66.9 32.27 99.48 24.31 89.38 31.69 13.34 84.04 12.89 96.6 5 PASER 68.13 12.46 95.78 25.43 90.63 20.59 17.4 73.96 6.54 86.01 6 KUTAI BARAT 67.46 27.1 98.29 26.46 99.46 34.61 15.37 70.86 6.06 73.05 7 KUTAI TIMUR 68.6 13.44 95.67 29.63 85.66 24.85 10.85 84.72 2.86 69.5 8 BERAU 67.02 3.63 97.15 30.1 84.15 36.17 15.33 79.9 3.08 87.95 9 BONTANG 68.79 12.66 97.94 20.35 65.94 43.91 16.23 95.27 9.66 91.07 10 MAHAKAM ULU 64.42 35.45 96.54 22.87 67.62 20.48 19.07 47.33 9.97 99.75
Studi Kasus SPSS
Studi Kasus SPSS
menunjukkan bahwasannya tidak ada data yang hilang saat dianalisis, alias data dianalisis 100%
Proximity Matrix (Euclidean Distance) menunjukkan jarak antar variabel. Semakin kecil jarak Euclidean, maka semakin mirip kedua
variable tersebut, sehingga dapat dibentuk sebuah cluster Case Processing Summary
Proximity Matrix (Euclidean Distance)
digunakan untuk menentukkan cluster yang terbentuk. Dapat dilihat pada tabel disamping, Stage 1 terbentuk dari 1 cluster yang terdiri dari objek nomor 1 dan 2 dengan
coefficients 2.113, karena proses aglomerasi dimulai dari 2 objek dengan jarak terdekat,
maka jarak tersebut adalah yang terdekat dari sekian kombinasi jarak 36 obyek yang ada. Cluster selanjutnya dibentuk melalui kolom next stage yaitu stage 4 yang terdiri
dari nomor 7.
Pada tabel Cluster Membership, kita bisa menetukan berapa banyak cluster yang
ingin kita bentuk, misalnya 4. Maka anggota masing – masing cluster dapat terwakilkan dengan angka yang terdapat di
kolom Case. Misal cluster 1 terdiri dari Kabupaten Balikpapan, Kutai, Penajam Paser
Utara, dsb. Kemudian Cluster 2 terdiri dari Kota Samarinda, Cluster 3 terdiri dari Kabupaten Bontang, dan Cluster 4 terdiri dari
Kabupaten Mahakam Ulu.
Agglomeration Schedule
Cluster
Membership
Stability VALIDASI
CLUSTER DAN INTEPRETASI
PENAMAAN CLUSTER
YANG TERBENTUK Berdasarkan hasil analisis yang telah diperoleh didapatkan hasil
pengelompokkan yang dibagi menjadi 4 Cluster, berdasarkan preferensi peneliti. Adapun 4 Cluster tersebut diantaranya :
Cluster
1 Cluster
2 Cluster
3 Cluster 4
Balikpapan Samarinda Bontang Mahakam Ulu Kutai
Penajam P.U.
Paser Kutai Barat Kutai Timur
Berau
Setelah cluster terbentuk, tahap selanjutnya adalah memberi ciri spesifik untuk menggambarkan keanggotaan dari masing-masing
cluster.
PENAMAAN CLUSTER
YANG TERBENTUK
CLUSTER 1 Balikpapan 52.50
50.44
Kutai 51.97
Penajam Paser
Ulu 46.43
Kutai Barat 55.09 Kutai Timur 46.69
Berau 51.87
Bontang 48.58
CLUSTER 2 Samarinda 50.45 50.45 CLUSTER 3 Bontang 52.18 52.18 CLUSTER 4 Mahakam Ulu 48.35 48.35
������� �������=52.50+51.97+46.43+55.09+46.69+51.87+48.58
7 =50.44
������� �����=50.45
1 =50.45
������� ������= 52.18
1 =52.18
������� �������= 48.35
1 =48.35
PENAMAAN CLUSTER
I = Indeks Kemiskinan Cukup Rendah II = Indeks Kemiskinan Cukup Tinggi III = Indeks Kemiskinan Timggi
IV = Indeks Kemiskinan Rendah
Penghitungan R Studio
● library(cluster)
● library(tidyverse)
● library(factoextra)
● library(clValid)
Install.packages”N”
data=read.delim(“clipboard”)/ import dataset dari environment
Standarisasi dengan data1=scale(N, [,2:11])
view=“data1”
summary=“data1”
str=“data1”
Jarak=dist(data1,method = "euclidean")
plot(klaster,data_cluster$kab_
kot)
klaster=hclust(d=jarak,method = "single")
fviz_dend(klaster, k_colors = "jco", rect = T,main = “Cluster Dendogram")
Menghitung Jarak dan Cluster
Internal1=clValid(data.frame(data1),nClust = 3:5,clMethods = "agnes",validation =
"internal",metric = "euclidean",method =
“single")
Summary(internal1)
fviz_nbclust(data1, FUN = hcut, method =
"silhouette", k.max=9)
fviz_nbclust(data1, FUN = hcut, method = “wss", k.max=9)
fviz_nbclust(data1, FUN = hcut, method =
“gap_stat", k.max=9) Jumlah Optimal
Cluster
Validasi Dunn dan Silhouette
Sihouette Index (S < 1 berarti metode cocok/valid)
Dunn Index (D semakin tinggi semakin bagus)
Interpretasi Dendogram
I
V III II
I
CLUSTER 1
Balikpapan 52.50
50.44
Kutai 51.97
Penajam Paser Ulu
46.43
Kutai Barat 55.09 Kutai Timur 46.69
Berau 51.87
Bontang 48.58 CLUSTER
2 Samarinda 50.45 50.45
CLUSTER
3 Bontang 52.18 52.18
CLUSTER
4 Mahakam Ulu 48.35 48.35
PENAMAAN CLUSTER
I = Indeks Kemiskinan Cukup Rendah II = Indeks Kemiskinan Cukup Tinggi III = Indeks Kemiskinan Timggi
IV = Indeks Kemiskinan Rendah
Metode Non-
Hierarki
Kelompok non-overlapping : Similarity (maksimal intra-
klaster)/ Dissimilarity (maksimal inter-klaster)
Perhitungan jarak secara iteratif Metode perhitungan jarak
untuk mendapatkan jarak similarity
Euclidean :
Selain Euclidean, metode perhitungan jarak lainnya : Manhattan, Minkowski, etc.
a,b : pusat centeroid x,y : variabel data Umum digunakan : SPSS K-Means Clustering adalah Algoritma
Bersifat iterative (perhitungan jarak rata-rata)
Kelompok non-overlapping berbeda
Jumlah K (Klaster) dimana setiap titik data hanya dimiliki oleh satu kelompok saja
K-Means Clustering :
Concept
LANGKAH-LANGKAH :
1. Tentukan jumlah klaster K
2. Pilih titik pusat (centeroid) secara acak sebanyak jumlah K
3. Hitung jarak antara masing-masing data ke titik pusat
4. Tentukan titik pusat baru dari rata- rata sebelumnya
5. Kembali ke Langkah 3, apabila masih ada data yang berpindah klaster atau perubahan nilai centeroid. Jika tidak ada, maka hentikan proses klastering
K-Means Clustering : Langkah-Langkah
Algoritma
Pasien Sakit A Sakit B
1 1 1
2 2 1
3 4 3
4 5 4
K-Means Clustering : Langkah-Langkah Algoritma
Jawab : Centeroid 1 d (p1,c1)
d ( p1,c1) =
√ ( 1 −1 ) 2 +( 1 −1 ) 2
Begitu selanjutnya perhitungan untuk d(p2,c1), d(p3,c1), d(p4,c1), diperoleh:
d(p2,c1) = 1 d(p3,c1) = 3,61 d(p4,c1) = 5
Centeroid 2 d (p1,c2)
d ( p1,c2) =
√ ( 1 −2 ) 2+(1 −1 ) 2
Begitu selanjutnya perhitungan untuk d(p2,c2), d(p3,c2), d(p4,c2), diperoleh:
d(p2,c2) = 0 d(p3,c2) = 2,83 d(p4,c2) = 4,24
Diketahui :
• Jumlah pasien (p) = 4
• Tentukan nilai K = 2
• Centeroid awal klaster 1 (CC-1) = {1,1}
• Centeroid awal klaster 2 (CC-2) = {2,1}
K-Means Clustering : Langkah-Langkah Algoritma (2)
Pasie
n Sakit
A Sakit
B d(p,c
1) d(p,c
2) C-1 C-2
1 1 1 0 1 √
2 2 1 1 0 √
3 4 3 3,61 2,83 √
4 5 4 5 4,24 √
MAKA DIPEROLEH CENTROID BARU
• Pada klaster 1 (C-1) terdapat 1 data pasien (pasien 1), maka nilai rata-rata pada klaster 1 adalah - Average (p1a) = average (1) = 1
- Average (p1b) = average (1) = 1
• Pada klaster 2 (C-2) terdapat 3 data pasien
(pasien 2,3,4), maka nilai rata-rata pada klaster 2 adalah
- Average (p2a+ p3a+ p4a) = average (2+4+5) = 3,67
- Average (p2b+ p3b+ p4b) = average (1+3+4) = 2,67
HASIL ITERASI 1
Centroid A B
1 1 1
2 3,67 2,67
- Centroid pada klaster 1 (cc-1) = {1,1}
- Centroid pada klaster 2 (cc-2) = {3,67 , 2,67}
Tahap selanjutnya:
Ulangi Langkah-Langkah menghitung jarak atara data dengan centroid baru seperti sebelumnya
K-Means Clustering : Langkah-Langkah Algoritma (3)
DIPEROLEH HASIL ITERASI KE 2Maka, diperoleh centroid baru
• Tahap selanjutnya menentukan centroid baru yang ketiga. Klaster 1 terdapat 2 data (data 1, 2) :
- Average (p1a,p2b) = average (1+2) = 1,5 - Average (p1b,p2b) = average (1+1) = 1
• Pada klaster 2 terdapat 2 data pasien (pasien 3,4), maka nilai rata-rata pada klaster 2 adalah
- Average (p3a+ p4a) = average (4+5) = 4,5 - Average (p3b+ p4b) = average (3+4) = 3,5
Centroi
d A B
1 1,5 1
2 4,5 3,5
- Centroid pada klaster 1 (cc-1) = {1,5 , 1}
- Centroid pada klaster 2 (cc-2) = {4,5 , 3,5}
Pasien Sakit A Sakit
B d(p,c1
) d(p,c2
) C-1 C-2
1 1 1 0 3,14 √
2 2 1 1 2,36 √
3 4 3 3,61 0,47 √
4 5 4 5 1,89 √
Tahap selanjutnya:
- Cek apakah centroid pada iterasi 2 sama dengan centroid pada iterasi 1 - Jika tetap/sama maka hentikan
perhitungan
- Jika beda, maka ulangi Langkah- Langkah iterasi seperti pada iterasi 2
K-Means Clustering : Langkah-Langkah Algoritma (4)
Centroid hasil iterasi 2
Tahap selanjutnya:
Cek apakah centroid pada iterasi 3 sama dengan centroid pada iterasi 2 --- TETAP
Centroid A B
1 1,5 1
2 4,5 3,5
Centroid hasil iterasi 3
Centroid A B
1 1,5 1
2 4,5 3,5
Maka iterasi dihentikan dan proses klastering menghasilkan :
• Klaster 1 berisi pasien 1 dan 2
• Klaster 2 berisi pasien 3 dan 4 B
A
1 2
p1 p2
p3 p4
Studi Kasus Analisis Non-Hierarki (K-Means)
Dari penelitian yang dilakukan terhadap 12 kota di Indonesia,
ingin mengetahui pengelompokan kota-kota tersebut berdasarkan kota besar, kota menengah dan kota kecil, berikut ditampilkan instrumen 5 variabel:
Jumlah pendapatan kota ( trilyun Rp)
Jumlah pinjaman pemerintah kota (milyar Rp)
Jumlah dana hibah yang dimiliki kota (milyar Rp)
Jumlah konsumsi pemerintah kota (milyar Rp)
Jumlah penduduk kota (juta jiwa)
Studi Kasus:Tahapan 1-
“Standardisasi/Transformasi”
Mengingat data yang terkumpul mempunyai variabilitas satuan, maka perlu dilakukan langkah standardisasi atau transformasi terhadap variabel yang relevan ke bentuk z- score
Sumber:
BPS,2023
Setelah keseluruhan data yang dikumpulkan tersebut diatas dientry dalam program SPSS, selanjutnya klik menu “analyze” dan pilih sub menu “Descriptives Statistics” lalu
“Descriptives” hingga muncul tampilan berikut ini :
Masukkan ke dalam kotak VARIABLES seluruh variabel instrumen penilai, yaitu variabel jumlah pendapatan, jumlah pinjaman, jumlah dana hibah, jumlah konsumsi, dan jumlah penduduk. (dalam hal ini variabel kota tidak dimasukkan karena data bertipe string).
Kemudian aktifkan bagian “Save standardized values as variables”. Abaikan bagian yang lain lalu tekan OK untuk menampilkan output aplikasi program SPSS.
Studi Kasus:Tahapan 1-
“Standardisasi/Transformasi”
Studi Kasus:Tahapan 1-
“Standardisasi/Transformasi”
N Minimu
m Maximu
m Mean Std.
Deviation jumlah pendapatan
(trilyun Rp) 12 55 90 72.58 12.965
jumlah pinjaman
(milyar Rp) 12 3.9 8.7 6.750 1.3708
jumlah dana hibah
(milyar Rp) 12 6 9 7.67 1.155
jumlah konsumsi
daerah (milyar Rp) 12 50 90 74.83 13.141
jumlah penduduk
(juta jiwa) 12 25 66 44.25 13.572
Valid N (listwise) 12
Descriptive Statistic
Sebagai Dasar Perhitungan Z-Score
Studi Kasus:Tahapan 1-
“Standardisasi/Transformasi”
Hasil Z- score
Untuk selanjutnya, hasil z-score inilah yang akan dipakai dasar analisis cluster. Namun apabila
data yang terkumpul tidak mempunyai variabilitas satuan, maka prose analisis cluster dapat langsung dilakukan tanpa terlebih dahulu
melakukan transformasi atau standardisasi.
Tampilan “Dataview”
Studi Kasus:Tahapan 2- “Analisis Cluster”
Metode K-Means Cluster (Non-Hirarki)
Dari tampilan data yang tertera (hasil standardisasi/transformasi), buka menu
“Analyze”, lalu pilih sub menu “Classify” dan pilih “K-Means Cluster”
Studi Kasus:Tahapan 2- “Analisis Cluster”
Aktifkan kedua kotak dalam menu Save, yaitu “Cluster membership” dan
“Distance from cluster center”.
Selanjutnya tekan tombol “Continue” untuk kembali ke menu utama.
Studi Kasus:Tahapan 2- “Analisis Cluster”
Pada bagian Statistics, aktifkan “Initial cluster centers” dan “ANOVA table”.
Abaikan bagian yang lain, lalu tekan
“Continue” untuk kembali ke menu
utama.
Studi Kasus:Tahapan 2- “Analisis Cluster”
Cluster
1 2 3
Zscore: jumlah pendapatan (trilyun
Rp)
1.34339 -1.27911 -1.12485 Zscore: jumlah
pinjaman (milyar Rp) .91188 .25533 -2.07908 Zscore: jumlah
dana hibah
(milyar Rp) 1.15470 -1.44338 -.57735 Zscore: jumlah
konsumsi daerah (milyar
1.15411 .84973 -1.12875 Zscore: jumlah
penduduk (juta jiwa) 1.60254 -1.12362 -.90258
Initial Cluster Centers
Tampilan pertama proses clustering data sebelum dilakukan iterasi
Studi Kasus:Tahapan 2- “Analisis Cluster”
Sistem melakukan iterasi sampai ke – 2, hingga didapatkan pengelompokkan yang tepat
Iteration Change in Cluster Centers
1 2 3
1 1.073 1.395 1.103
2 .000 .000 .000
Iteration History
Untuk mendeteksi berapa kali proses iterasi yang dilakukan dalam proses
clustering dari 12 obyek yang diteliti, dapat dilihat pad tabel berikut :
Studi Kasus:Tahapan 2- “Analisis Cluster”
Cluster
1 2 3
Zscore: jumlah
pendapatan (trilyun Rp) .98858 -.63634 -.75847 Zscore: jumlah pinjaman
(milyar Rp) .56172 .59576 -1.14896 Zscore: jumlah dana hibah
(milyar Rp) .63509 -.57735 -.36084 Zscore: jumlah konsumsi
daerah (milyar .78885 .08878 -1.05265 Zscore: jumlah penduduk
(juta jiwa) .89521 -.82890 -.49734
Final
Cluster Output Final Cluster Centers tersebut masih terkait dengan proses standardisasi data sebelumnya, yang mengacu pada z-score dengan ketentuan sebagai berikut :
Nilai negatif (-) berarti data berada di bawah rata-rata total.
Nilai positif (+)berarti data berada di atas rata- rata total.
X = μ + Z . σ
Rumus umum yang digunakan :
Dimana :
X : rata-rata sampel (variabel dalam cluster) μ : rata-rata populasi
Z : nilai standardisasi σ : standar deviasi
Contoh :
(Rata-rata Seluruh Kota) + (0,98858 x Standar deviasi rata-rata)
Jadi
= 72,58 + (0,98858 x 12,965) = 85,3969
Sehingga rata-rata jumlah pendapatan kota yang berada di cluster-1 adalah Rp 85,3969 trilyun. Demikian seterusnya dapat
diketahui rata-rata nilai masing-masing variabel dalam tiap cluster.
Studi Kasus:Tahapan 2- “Analisis Cluster”
1 Cluster2 3
Zscore: jumlah
pendapatan (trilyun Rp) .98858 -.63634 -.75847 Zscore: jumlah pinjaman
(milyar Rp) .56172 .59576 -1.14896 Zscore: jumlah dana hibah
(milyar Rp) .63509 -.57735 -.36084 Zscore: jumlah konsumsi
daerah (milyar .78885 .08878 -1.05265 Zscore: jumlah penduduk
(juta jiwa) .89521 -.82890 -.49734
Final Cluster
Cluster-1 Dalam cluster-1 ini berisikan kota-kota yang
mempunyai jumlah pendapatan kota, jumlah pinjaman, jumlah dana hibah, jumlah konsumsi, dan jumlah penduduk yang lebih dari rata-rata populasi kota yang diteliti.
Hal ini terbukti dari nilai positif (+) yang terdapat pada tabel Final Cluster Centers dalam keseluruhan variabel.
Dengan demikian, dapat diduga bahwa cluster-1 ini merupakan pengelompokan dari kota-kota besar
Studi Kasus:Tahapan 2- “Analisis Cluster”
1 Cluster2 3
Zscore: jumlah
pendapatan (trilyun Rp) .98858 -.63634 -.75847 Zscore: jumlah pinjaman
(milyar Rp) .56172 .59576 -1.14896 Zscore: jumlah dana hibah
(milyar Rp) .63509 -.57735 -.36084 Zscore: jumlah konsumsi
daerah (milyar .78885 .08878 -1.05265 Zscore: jumlah penduduk
(juta jiwa) .89521 -.82890 -.49734
Final Cluster
Karakteristik kota yang masuk dalam pengelompokan cluster-2 yaitu memiliki rata-rata jumlah pinjaman dan jumlah konsumsi yang melebihi rata-rata populasi kota yang diteliti.
Dengan demikian, dapat diduga sekumpulan kota-kota menengah berada pada cluster-2.
Studi Kasus:Tahapan 2- “Analisis Cluster”
1 Cluster2 3
Zscore: jumlah
pendapatan (trilyun Rp) .98858 -.63634 -.75847 Zscore: jumlah pinjaman
(milyar Rp) .56172 .59576 -1.14896 Zscore: jumlah dana hibah
(milyar Rp) .63509 -.57735 -.36084 Zscore: jumlah konsumsi
daerah (milyar .78885 .08878 -1.05265 Zscore: jumlah penduduk
(juta jiwa) .89521 -.82890 -.49734
Final Cluster
Sedangkan karakteristik kota-kota yang mengelompok pada cluster3 adalah keseluruhan instrumen
penilai berada pada posisi dibawah rata-rata populasi kota yang
diteliti.
Sehingga dapat diduga bahwa cluster-3 merupakan
pengelompokan kota-kota kecil.
Studi Kasus:Tahapan 2- “Analisis Cluster”
Uji F sebaiknya digunakan hanya untuk tujuan deskriptif karena cluster telah dipilih untuk memaksimalkan perbedaan antar kasus dalam cluster yang berbeda. Tingkat signifikansi yang diamati tidak dikoreksi untuk hal ini sehingga tidak dapat ditafsirkan
sebagai pengujian hipotesis bahwa rata-rata cluster adalah sama.
Langkah selanjutnya Melihat perbedaan variabel pada cluster yang terbentuk.
Dalam hal ini dapat dilihat dari nilai F dan nilai probabilitas (Sig) masing-masing variabel
ANOVA
Rumus:Semakin besar nilai F dan (sig < 0,05), maka semakin besar perbedaan variabel pada klaster yang terbentuk.
Studi Kasus:Tahapan 2- “Analisis Cluster”
Number of Cases in each Cluster
Terdiri atas 5 Kota Terdiri atas 3 Kota Terdiri atas 4 Kota
Data View
qcl_1 : Nomor Cluster
qcl_2 : Jarak antara objek dengan pusat Cluster
Keterangan:
Studi Kasus:Tahapan 2- “Analisis Cluster”
Kesimpula
n
CLUSTER I CLUSTER II CLUSTER III5 Kota 3 Kota 4 Kota
G , I , J , K, L B, F, H A, C, D, E
Keseluruhan variabel penilaian di atas rata – rata
Variabel pinjaman di atas rata – rata, variabel (dana hibah,
pendapatan, penduduk) dibawah rata – rata
Keseluruhan variabel penilaian dibawah rata – rata
Kota Besar Kota Menengah Kota Kecil
Studi Kasus:Tahapan 2- “Analisis Cluster”
Grafik Dot Plot
https://bit.ly/Kel3_MAP