Analisis Penggerombolan Metode Hirarki d

(1)

0

ANALISIS GEROMBOL

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

2016

Oleh:

Siswanto (G151150021)

Fizry L. Maulida (G151150251)

Abraham Madison Manurung (G151150311)

(2)

1 Latihan 1

Berikut akan diberikan contoh penggunaan analisis gerombol berhirarki yang diterapkan pada penggerombolan mamalia berdasarkan struktur giginya. Mamalia yang terlibat adalah :

BROWN BAT, MOLE, SILVER HAIR BAT, PIGMY BAT, HOUSE BAT, REDB AT, PIKA, RABBIT, BEAVER, GROUNDHOG, GRAYS QUIRREL, HOUSE MOUSE, PORCUPINE, WOLF, BEAR, RACCOON, MARTEN, WEASEL, WOLVERINE, BADGER, RIVER OTTER, SEA OTTER, JAGUAR, COUGAR, FURSEAL, SEALION, GREY SEAL, ELEPHANT SEAL, REINDEER, ELK, DEER, MOOSE Berikut adalah data yang digunakan dalam analisis gerombol. Ada 8 peubah yang berkenaan dengan gigi mamalia, yaitu V1 hingga V8.

title 'HIERARCHICAL CLUSTER ANALYSIS OF MAMMALS'' TEETH DATA';

title2 'Evaluating the Effects of Ties';

(3)

2

proc cluster data=teeth CCC method=single outtree= tree;

var v1-v8;

PROC CLUSTER menghasilkan analisis gerombol berhirarki sedangkan

menggunakan PROC FASTCLUS menghasilkan analisis gerombol tak berhirarki. Pada latihan 1 di atas menggunakan option yang dipilih adalah :

METHOD = single meminta PROC CLUSTER menggunakan analisis dengan

single linkage

OUTTREE menyebutkan nama gugus data SAS yang akan digunakan oleh

PROC TREE nanti

CCC meminta PROC CLUSTER untuk melakukan penghitungan dan menghasilkan cubic clustering criterion

Bentuk umum dari PROC CLUSTER adalah

PROC CLUSTER <options>;

ID variables;

Run;

(4)

3

Hasil Output dari sintaks di atas adalah :

(5)

4

Pada output di atas berisi beberapa hal penting. Salah satunya adalah pengelompokkan. Misakan ingin mengelompokkan objek pengamatan ke dalam 2 cluster saja, maka cluster 1 terdiri dari CL2 dan CL12 dimana CL12 terdiri dari MOOSE, DEER, ELK, REINDEER sedangkan sisanya masuk ke cluster 2 (dinamakan CL2). Begitu pula jika diinginkan untuk sejumlah cluster lainnya.

Kolom yang berlabel �� berisi cubic clustering criterion. Kaidah yang umum menyatakan bahwa puncak nilai terbesar dari indeks yang merupakan kandidat banyaknya gerombol yang pas. Sarle (1983) menjelaskan bahwa �� merupakan

perbandingan koefisien nilai pengamatan dari R2dengan pendekatan nilai harapan dari

2

R . Selain itu juga melakukan pengembangan terhadap ��, yang digunakan dalam

penentuan banyaknya gerombol. Nilai �� positif menunjukkan bahwa nilai R2 lebih

besar dari nilai harapan R2berarti dapat digunakan dalam penentuan banyak kelompok. Nilai �� lebih dari 2 atau 3 mengindikasikan bahwa gerombol yang terbentuk bagus. Nilai �� antara 0 dan 2 menunjukkan bahwa gerombol yang terbentuk potensial, sedangkan apabila nilai �� negatif yang besar menunjukkan adanya pencilan.

(6)

5

Terlihat bahwa nilai CCC berada di titik tertinggi yaitu lebih dari 2 saat jumlah cluster adalah 4 buah cluster. Dengan demikian, jika digunakan kriteria clustering kubik

(CCC) diperoleh jumlah cluster optimum adalah 4 buah cluster pada kasus ini.

(7)

6

jarak lain yang berbeda sehingga memungkinkan didapat jumlah cluster yang berbeda pula.

(8)

7 LATIHAN 2



Tentukan jumlah gerombol dari data pada tabel di atas menggunakan metode berhirarki!!



Gunakan metode K-means dengan 2 gerombol!



Jelaskan kesimpulan yang anda dapatkan dari penggerombolan tersebut

Persentase Keluarga Persentase Penduduk Banyaknya Industri Kecil Banyaknya Industri Pangsa Pasar Rokok Pangsa Pasar Rokok Pangsa Pasar Rokok

Pertanian Tidak Tamat SD dan Menengah Pengolahan Produksi Gudang Garam Produksi Sampoerna Produksi Djarum Kudus

Banyuwangi 21 30 166 55 2,7 10 13

Cianjur 26 35 220 206 6,9 10 12

Kulonprogo 7.1 13 404 48 14 18 18

Lumajang 38 33 71 146 4.5 1.1 8.5

Majalengka 22 24 114 197 12 20 18

Pacitan 24 29 152 79 6 13 8.1

Pamekasan 31 30 63 40 3.2 2.9 7.1

Pasuruan 21 5.2 40 38 19 26 16

Pati 11 7.2 447 160 11 18 16

Probolinggo 8.6 5.1 214 205 11 27 15

Rembang 9.9 4.9 111 17 9.9 25 17

Serang 6.9 18 467 189 5.9 25 17

Sleman 16 3.4 419 300 18 28 26

Sukabumi 22 34 215 183 9.2 2.7 12

(9)

8 Jawab :

 METODE BERHIRARKI

Dengan Menggunakan Program SPSS

 Buka Aplikasi SPSS, setelah itu buat variabel dan tipe datanya, seperti gambar di bawah ini

 Lakukan entri data sesuai dengan studi kasus di atas.

 Lakukan Transformasi atau standardisasi data tersebut. Klik menu Analyze

 Descriptives Statistics  Descriptives. Masukkan Seluruh variabel instrument penilai (dalam hal ini variabel kabupaten tidak dimasukkan karena

(10)

9

(11)

10

 Selanjutnya, klik menu Analyze  Classify  Hierarchical Cluster. Kemudian masukkan seluruh variabel yang telah distandardisasikan tadi

(Z-score) ke dalam kotak Variable(s). pada bagian Label Cases by isi degan

(12)

11

 Kemudian klik button Statistics, berikan centang pada Agglomeration

Schdule dan Proximity matrix. Kemudian tekan tombol Continue untuk

kembali ke menu utama.

 Kemudian klik button Plots. Aktifkan pilihan Dendogram, kemudian pada bagian Icicle pilih None. Selanjutnya klik Continue untuk kembali ke menu utama.

 Kemudian klik button Method. Pada bagian Cluster Method pilih Nearest

Neighbor. Pada Measure pilih Euclidean distance dan pada Transform

Values pilih Z-score. Lalu tekan tombol Continue untuk kembali ke menu

(13)

12 Hasil Output Dengan Menggunakan Metode Single Linkage

(14)

13

Hasil output di atas menunjukkan pengelompokkan objek pengamatan terhadap 5 cluster yang telah diset di awal. Tidak ada alasan khusus mengapa memilih 5 cluster. Hal ini dilakukan agar hasil lebih terpusat pada 2, 3, 4, atau 5 cluster sehingga mudah dibaca. Misalkan jika digunakan 2 cluster maka Banyuwangi, Cianjur, Jombang, Lumajang, Majalengka, Pacitan, Pamekasan, dan Sukabumi berada pada cluster 1 sedangkan kabupaten lainnya dikelompokkan pada cluster 2. Begitu pula untuk jumlah cluster sebanyak 3, 4 atau 5.

Untuk 5 cluster, diperoleh pengelompokkan yaitu cluster 1 terdiri dari Banyuwangi, Cianjur, Jombang, Lumajang, Pacitan, Pamekasan, dan Sukabumi. Cluster 2 terdiri dari Jember, Kediri, Kudus, dan Sleman. Cluster 3 terdiri dari Jepara, Kulonprogo, Pati, Probolinggo, Rembang, dan Serang. Cluster 4 yaitu Majalengka. Cluster 5 : Pasuruan.

Hasil output di atas merupakan dendogram hasil analisis cluster dengan metode

(15)

14

kecil. Dari dendogram di atas dengan jarak lebih dari 25 maka diperoleh 1 cluster (tidak terjadi pengelompokkan), sedangkan jika jaraknya 25 maka didapat 2 cluster yaitu cluster 1 terdiri dari Cianjur, Sukabumi, Banyuwangi, Pacitan, Jombang, Lumajang, Pamekasan, dan Majalengka sedangkan kabupaten lainnya masuk ke cluster 2. Hasil ini serupa dengan tabel output sebelumnya (tabel cluster membership) jika yang dipilih adalah 2 cluster. Begitu pula jika kita mengambil jaraknya adalah 20 maka terdapat 3 cluster, dimana cluster 1 terdiri dari Jember, Kediri, Kudus, dan Sleman, cluster 2 terdiri dari Cianjur, Sukabumi, Banyuwangi, Pacitan, Jombang, Lumajang, Pamekasan, dan Majalengka, sedangkan kabupaten sisanya masuk ke cluster 3. Begitu pula untuk jarak lainnya yang menghasilnya jumlah cluster yang kemungkinan berbeda satu sama lain. Semakin banyak cluster yang terbentuk maka jaraknya semakin kecil. Artinya, semakin memiliki kemiripan yang besar di dalam cluster dan memiliki ketidakmiripan antarcluster.

Catatan bahwa hasil dendogram pada metode hirarki tidak ditentukan jumlah clusternya. Hasil atau output dendogram dengan jumlah cluster tertentu ditentukan oleh jaraknya sampai hanya terbentuk 2 cluster. Pada dendogram di atas, jarak maksimumnya adalah 25 (yaitu hingga hanya terbentuk 2 cluster). Berbeda dengan metode non-hirarki seperti

K-Means yang terlebih dahulu sudah ditentukan jumlah clusternya.

Dengan Menggunakan R

d<-dist(mydata, method = "euclidean") # distance matrix fit<-hclust(d, method="single")

plot(fit) # display dendogram

(16)

15 Hasil Output metode Single Linkage dengan Program R

(17)

16

Selanjutnya adalah hasil output jika digunakan metode complete linkage (hirarki) dengan menggunakan SPSS :

Hasil Output Dengan Menggunakan Metode Complete Linkage

Cluster Membership

Sama dengan metode single linkage, untuk complete linkage juga digunakan range cluster antara 2 hingga 5. Misalkan yang menjadi pusat perhatian adalah 5 cluster, maka diperoleh pengelompokkan sebagai berikut :

Cluster 1 : Banyuwangi, Cianjur, Jombang, Majalengka, Pacitan, dan Sukabumi. Cluster 2 : Jember, Kediri, Kudus, dan Sleman.

Cluster 3 : Jepara, Kulonprogo, Pati, Probolinggo, dan Serang. Cluster 4 : Lumajang dan Pamekasan.

(18)

17

Pada dendogram di atas, jika dipotong pada jarak 9, maka diperoleh 5 cluster, yaitu : Cluster 1 : Banyuwangi, Cianjur, Jombang, Majalengka, Pacitan, dan Sukabumi. Cluster 2 : Jember, Kediri, Kudus, dan Sleman.

Cluster 5 : Pasuruan dan Rembang.

Hasil ini SAMA dengan tabel sebelumnya.

data<-read.csv('C:/Users/Asus/Documents/gerombol.csv',header=TRUE, sep=',')

data

data1<-(data[-1]) data1

(19)

18 data2

mydata<-scale(data2) mydata

#complete Hierarchical Clustering

d<-dist(mydata, method = "euclidean") # distance matrix fit<-hclust(d, method="complete")

groups <- cutree(fit, k=5) # cut tree into 5 clusters # draw dendogram with red borders around the 5 clusters rect.hclust(fit, k=5, border="yellow")

Hasil Output metode Complete Linkage dengan Program R

Pada dendogram di atas, diperoleh 5 cluster (ditandai dengan kotak berwarna kuning), yaitu :

Cluster 1 : Banyuwangi (1), Cianjur (2), Jombang (5), Majalengka (10), Pacitan (11), dan Sukabumi (19).

(20)

19

Cluster 3 : Jepara (4), Kulonprogo (8), Pati (14), Probolinggo (15), dan Serang (17). Cluster 4 : Lumajang (9) dan Pamekasan (12).

Cluster 5 : Pasuruan (13) dan Rembang (16).

Hasil ini SAMA dengan hasil SPSS.

Selanjutnya adalah hasil output jika digunakan metode centroid linkage (hirarki) dengan menggunakan SPSS :

Hasil Output Dengan Menggunakan Metode Centroid Linkage

Cluster Membership

Sama dengan metode sebelum-sebelumnya, untuk centroid linkage juga digunakan range cluster antara 2 hingga 5. Misalkan yang menjadi pusat perhatian adalah 5 cluster, maka diperoleh pengelompokkan sebagai berikut :

(21)

20

Cluster 2 : Jember, Jepara, Kediri, Kudus, Kulonprogo, Pati, Probolinggo, Serang, dan Sleman.

Cluster 3 : Majalengka. Cluster 4 : Pasuruan. Cluster 5 : Rembang.

Pada dendogram di atas, jika dipotong pada jarak 17, maka diperoleh 5 cluster, yaitu : Cluster 1 : Banyuwangi, Cianjur, Jombang, Lumajang, Pacitan, Pamekasan, dan Sukabumi.

Cluster 2 : Jember, Jepara, Kediri, Kudus, Kulonprogo, Pati, Probolinggo, Serang, dan Sleman.

Cluster 3 : Majalengka.

Cluster 4 : Pasuruan. Cluster 5 : Rembang.

(22)

21

d<-dist(mydata, method = "euclidean") # distance matrix fit<-hclust(d, method="centroid")

groups <- cutree(fit, k=5) # cut tree into 5 clusters # draw dendogram with red borders around the 5 clusters rect.hclust(fit, k=5, border="blue")

Hasil Output metode Centroid Linkage dengan Program R

(23)

22

Cluster 1 : Banyuwangi (1), Cianjur (2), Jombang (5), Lumajang (9), Pacitan (11), Pamekasan (12), dan Sukabumi (19).

Cluster 2 : Jember (3), Jepara (4), Kediri (6), Kudus (7), Kulonprogo (8), Pati (14), Probolinggo (15), Serang (17), dan Sleman (18).

Cluster 3 : Majalengka (10). Cluster 4 : Pasuruan (13). Cluster 5 : Rembang (16).

Hasil ini SAMA dengan hasil SPSS.

Selanjutnya adalah hasil output jika digunakan metode centroid linkage (hirarki) dengan menggunakan SPSS :

Hasil Output Dengan Menggunakan Metode Ward Linkage

(24)

23

Sama dengan metode sebelumya, untuk ward linkage juga digunakan range cluster antara 2 hingga 5. Misalkan yang menjadi pusat perhatian adalah 5 cluster, maka diperoleh pengelompokkan sebagai berikut :

(25)

24

Pada dendogram di atas, jika dipotong pada jarak 4, maka diperoleh 5 cluster (walaupun pengelompokkan metode ward sama dengan metode complete, tetapi jarak yang dihasilkan keduanya berbeda, dengan pengelompokkan cluster yaitu :

Hasil ini SAMA dengan tabel sebelumnya.

d<-dist(mydata, method = "euclidean") # distance matrix fit<-hclust(d, method="ward.D2")

(26)

25 Hasil Output metode Ward Linkage dengan Program R

Pada dendogram di atas, diperoleh 5 cluster (ditandai dengan kotak berwarna biru), yaitu: Cluster 1 : Banyuwangi (1), Cianjur (2), Jombang (5), Majalengka (10), Pacitan (11), dan Sukabumi (19).

Cluster 2 : Jember (3), Kediri (6), Kudus (7), dan Sleman (18).

Cluster 3 : Jepara (4), Kulonprogo (8), Pati (14), Probolinggo (15), dan Serang (17). Cluster 4 : Lumajang (9) dan Pamekasan (12).

Cluster 5 : Pasuruan (13) dan Rembang (16).

(27)

26

Selanjutnya adalah hasil output jika digunakan metode median linkage (hirarki) dengan menggunakan SPSS :

Hasil Output Dengan Menggunakan Metode Median Linkage

Cluster Membership diperoleh pengelompokkan sebagai berikut :

Cluster 1 : Banyuwangi, Cianjur, Jombang, Lumajang, Pacitan, Pamekasan, dan Sukabumi.

Cluster 2 : Jember, Kediri, Kudus, dan Sleman.

Cluster 3 : Jepara, Kulonprogo, Pati, Probolinggo, Rembang, dan Serang. Cluster 4 : Majalengka.

Cluster 5 : Pasuruan.

(28)

27

Pada dendogram di atas, jika dipotong pada jarak 11, maka diperoleh 5 cluster (walaupun pengelompokkan metode median sama dengan metode single, tetapi jarak yang dihasilkan keduanya berbeda, dengan pengelompokkan cluster yaitu :

Cluster 1 : Banyuwangi, Cianjur, Jombang, Lumajang, Pacitan, Pamekasan, dan Sukabumi.

Cluster 2 : Jember, Kediri, Kudus, dan Sleman.

Cluster 3 : Jepara, Kulonprogo, Pati, Probolinggo, Rembang, dan Serang. Cluster 4 : Majalengka.

Cluster 5 : Pasuruan.

(29)

28

data

data1<-(data[-1]) data1

data2<-as.matrix(data1) data2

mydata<-scale(data2) mydata

#median Hierarchical Clustering

d<-dist(mydata, method = "euclidean") # distance matrix fit<-hclust(d, method="median")

groups <- cutree(fit, k=5) # cut tree into 5 clusters # draw dendogram with red borders around the 5 clusters rect.hclust(fit, k=5, border="green")

(30)

29

Untuk 5 cluster (ditandai dengan kotak berwarna hijau), diperoleh pengelompokkan yaitu:

Cluster 1 : Banyuwangi (1), Cianjur (2), Jombang (5), Lumajang (9), Pacitan (11), Pamekasan (12), dan Sukabumi (19).

Cluster 2 : Jember (3), Kediri (6), Kudus (7), dan Sleman (18).

Cluster 3 : Jepara (4), Kulonprogo (8), Pati (14), Probolinggo (15), Rembang (16), dan Serang (17).

Cluster 4 : Majalengka (10). Cluster 5 : Pasuruan (13).

Hasil ini SAMA dengan hasil menggunakan SPSS.

 METODE TAK BERHIRARKI

Dengan Menggunakan Program SPSS

 Buka Aplikasi SPSS, setelah itu buat variabel dan tipe datanya,

 Lakukan entri data sesuai dengan studi kasus di atas,

 Lakukan Transformasi atau standardisasi data tersebut. Klik menu Analyze

 Descriptives Statistics  Descriptives. Masukkan Seluruh variabel instrument penilai (dalam hal ini variabel kabupaten tidak dimasukkan karena

(31)

30

 Selanjutnya, klik menu Analyze  Classify  K-Means Cluster. Kemudian masukkan seluruh variabel yang telah distandardisasi ke dalam kotak

Variable(s). pada bagian Label Cases by isi degan variabel Kabupaten

(32)

31

Hasil Output dengan Menggunkan SPSS

Initial Cluster Centers

Cluster

1 2

Zscore(PKP) 1.57974 -.71566

Zscore(PPTTSD) 1.05707 -.96604

Zscore(BIKDM) -1.14604 1.35711

Zscore(BIP) -1.24232 1.22720

Zscore(PPRPGG) -1.40078 1.47465

Zscore(PPRPS) -1.58876 1.06757

Zscore(PPRPDK) -1.51685 1.76416

Final Cluster Centers

Cluster

1 2

Zscore(PKP) .92391 -.67194

Zscore(PPTTSD) 1.05707 -.76878

Zscore(BIKDM) -.76200 .55418

Zscore(BIP) -.26599 .19345

Zscore(PPRPGG) -.78248 .56908

Zscore(PPRPS) -.98447 .71598

Zscore(PPRPDK) -.83880 .61004

Iteration Historya

Iteration

Change in Cluster Centers

1 2

1 1.655 2.007

2 .000 .000

a. Convergence achieved due to no or

small change in cluster centers. The

maximum absolute coordinate change for

any center is .000. The current iteration is

2. The minimum distance between initial

centers is 6.915.

Number of Cases in each

Cluster

Cluster 1 8.000

2 11.000

Valid 19.000

Missing .000

Seperti yang telah dijelaskan sebelumnya, maka metode non-hirarki adalah metode clustering dimana jumlah cluster nya diketahui. Pada kasus ini jumlah cluster ditentukan sebanyak 2 cluster. Dari output di atas terlihat bahwa banyaknya objek di cluster pertama sebanyak 8 kabupaten sedangkan sisanya (11 kabupaten) dikelompokkan ke cluster 2.

Output Pada Data View :

Kabupaten No Cluster

(33)

32

Rembang 2

Serang 2

Sleman 2

Sukabumi 1

Dari hasil di atas dapat dilihat bahwa :

Cluster 1 : Banyuwangi, Cianjur, Jombang, Lumajang, Majalengka, Pacitan, Pamekasan, dan Sukabumi.

Cluster 2 : Jember, Jepara, Kediri, Kudus, Kulonprogo, Pasuruan, Pati, Probolinggo, Rembang, Serang, dan Sleman

Dengan Menggunakan Program R

# Determine number of clusters

wss<-(nrow(mydata)-1)*sum(apply(mydata,2,var))

for (i in 2:15) wss[i] <- sum(kmeans(mydata, centers=i)$withinss)

plot(1:15, wss, type="b", xlab="Number of Clusters",ylab="Within groups sum of squares")

# K-Means Cluster Analysis

fit<-kmeans(mydata, 2) # 2 cluster solution # get cluster means

aggregate(mydata,by=list(fit$cluster),FUN=mean) # append cluster assignment

mydata<-data.frame(mydata, fit$cluster)run; # Show the cluster membership

(34)

33

Hasil Output dengan menggunakan R

Dari output di atas, dapat diperoleh bahwa jika jumlah cluster adalah 2 cluster maka jumlah kuadratnya sebesar 60. Akan lebih baik jika digunakan cluster sebanyak 3 buah sehingga jumlah kuadratnya menurun sekitar 40 dan setelah cluster ketiga, garis mulai melandai. Hal ini menunjukkan jumlah cluster sebanyak 2 sudah cukup baik tetapi jika jumlahnya adalah 3 cluster maka lebih baik lagi (semakin besar tingkat kemiripannya).

Group.1 PKP PPTTSD BIKDM BIP PPRPGG PPRPS

Kabupaten No Cluster

(35)

34

Rembang 2

Serang 2

Sleman 2

Sukabumi 1

Dari hasil di atas dapat dilihat bahwa :

Cluster 2 : Jember, Jepara, Kediri, Kudus, Kulonprogo, Pasuruan, Pati, Probolinggo, Rembang, Serang, dan Sleman

Hasil cluster membership menggunakan R SAMA dengan hasil menggunakan

SPSS.

 Akan dibandingkan jika menggunakan metode hirarki dan metode K-Means (nonhirarki).

Pada pembahasan sebelumnya, dengan menggunakan SPSS dan R diperoleh hasil cluster dengan metode K-Means sebagai berikut :

Kabupaten No cluster

1:Banyuwangi 1

(36)

35

Jika digunakan SPSS maka diperoleh hasil cluster untuk metode hirarki jika ditentukan 2 cluster sebagai berikut :

Kabupaten Single Complete Centroid Ward Median

1:Banyuwangi 1 1 1 1 1

Jika digunakan SPSS, dari kelima teknik pada metode hirarki, jika dibandingkan dengan hasil clustering dengan metode k-means, didapat bahwa HASIL CLUSTER pada metode hirarki yang SAMA dengan hasil pada metode k-means adalah teknik single, complete, centroid, dan ward linkage. Teknik median linkage menghasilkan cluster yang berbeda dengan k-means.

(37)

36 1. Metode Single Linkage

Kabupaten Single

(38)

37 2. Metode Complete Linkage

Kabupaten Complete

(39)

38 3. Metode Centroid Linkage

Kabupaten Centroid

(40)

39 4. Metode Ward Linkage

(41)

40 5. Metode Median Linkage

Kabupaten Median