Modified Method of Selection Initial Centroid in K-Means Clustering

(1)

MODIFIKASI METODE PEMILIHAN TITIK PUSAT AWAL

DARI METODE GEROMBOL K-RATAAN

ROSE MAWATI

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

(2)

(3)

PERNYATAAN MENGENAI TESIS DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*

Dengan ini saya menyatakan bahwa tesis berjudul Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode Gerombol K-Rataan adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

(4)

RINGKASAN

ROSE MAWATI. Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode Gerombol K-Rataan. Dibimbing oleh I MADE SUMERTAJAYA dan FARIT MOCHAMAD AFENDI.

Analisis gerombol merupakan salah satu teknik peubah ganda, yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan atau ketidakmiripan karakteristik-karakteristiknya sehingga pengamatan-pengamatan yang terdapat di dalam suatu gerombol memiliki kesamaan yang tinggi sesuai dengan kriteria pemilihan yang ditentukan. Metode penggerombolan memiliki dua pendekatan, yaitu metode hirarki dan metode tidak berhirarki. Penentuan jumlah gerombol yang terbentuk untuk dua metode ini dilakukan sesuai dengan keinginan peneliti atau berdasarkan literatur.

Salah satu metode dalam gerombol tak berhirarki yaitu metode k-rataan. K-rataan merupakan metode gerombol yang paling sederhana dan umum. Karakteristik k-rataan yaitu kinerja komputasi yang baik, serta cepat dalam proses penggerombolan, tetapi k-rataan sangat sensitif pada pembangkitan titik pusat awal secara acak sehingga hasil penggerombolan dengan k-rataan bersifat tidak unik.

Pada penelitian ini, k-rataan dibandingkan dengan metode modifikasi pemilihan titik pusat awal dari k-rataan. Menurut Sona dan Sujatha (2013) metode ini difokuskan untuk memilih titik pusat awal dalam meningkatkan kinerja dari algoritma penggerombolan k-rataan. Kinerja penggerombolan metode modifikasi pemilihan titik pusat dari k-rataan ini akan dibandingkan melalui data simulasi, dan selanjutnya menerapkan metode modifikasi pemilihan titik pusat awal dari k-rataan pada penggerombolan desa di Provinsi Bengkulu.

Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan dari sebaran normal ganda (μ,Ʃ) yang berguna untuk mengukur kinerja metode modifikasi titik pusat awal dari k-rataan dan metode k-rataan dalam mengelompokkan objek/pengamatan. Data sekunder yang digunakan dalam penelitian ini berupa dokumentasi tertulis data Potensi Desa (Podes) yang diperoleh dari BPS untuk Provinsi Bengkulu tahun 2011.

Data simulasi yang digunakan dalam penelitian ini merupakan data dengan sebaran normal ganda, dan tipe data numerik yang terdiri dari tiga gerombol, dan masing-masing gerombol terdiri dari tiga peubah. Pembangkitan data simulasi yang digunakan terbagi dalam tiga kondisi jarak antar pusat gerombol. Kondisi jarak antar pusat gerombol yang digunakan yaitu pusat antar gerombol berdekatan, pusat antar gerombol memiliki jarak sedang, dan pusat antar gerombol jauh. Setiap kasus diterapkan untuk data ukuran kecil (n=300), sedang (n=900), dan besar (n=1500).

(5)

Hasil penggerombolan data dengan metode modifikasi ini ditentukan berdasarkan tujuan penggerombolan yang menggunakan data potensi desa, dalam melihat kelengkapan sarana dan prasarana di desa pada Provinsi Bengkulu. Penggerombolan ini ditetapkan menjadi tiga gerombol, yaitu: desa yang memiliki sarana dan prasarana yang memadai; gerombol yang anggotanya adalah desa dengan sarana dan prasarana yang kurang memadai; dan gerombol ketiga beranggotakan desa memiliki sarana prasarana cukup memadai.

(6)

SUMMARY

ROSE MAWATI. Modified Method of Selection Initial Centroid in K-Means Clustering. Supervised by I MADE SUMERTAJAYA and FARIT MOCHAMAD AFENDI.

Cluster analysis is one of multivariate technique, clustering is a process of classifying object into groups which have similarity. The result of clustering will show that objects in one cluster will be more homogeneous than others. There are two methods in classic clustering analysis i.e. hierarchical clusters method and non-hierarchical cluster method. Determination of the number of clusters which formed by them is done subjectively or based on literature.

One of the non-hierarchical cluster method is k-means clustering. Characteristics of means clustering is a good computational performance, but k-means clustering is very sensitive to select initial centroid because k-k-means method select initial centroid random from data so that the results of the k-means clustering are not unique.

In this research, k-means method was compared with modified method of selection initial centroid in k-means. According to Sona and Sujatha (2013), the method of centroid selection is focused on improving performance of k-means clustering algorithm. Performance of modification method in selecting initial centroid will be compared in simulation data, and then apply the modified method in secondary data.

The data in this research consist of two sources i.e. simulated data and secondary data. Simulated data were generated data multivariate normal distribution (μ,Ʃ) which useful to measure the performance of modified method of selection initial centroid in k-means and k-means method. Secondary data

Modification method of selection initial centroid in k-means has better performance than k-means clustering method. It is based on number iterations is formed, there is no member of each clusters that switch positions (convergent). The number of iterations on the modified method of selection initial centroid in k-means method will increase if the variance from data is enhanced.

(7)

(8)

© Hak Cipta Milik IPB, Tahun 2014

Hak Cipta Dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB

(9)

i

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Sains

pada

Program Studi Statistika

MODIFIKASI METODE PEMILIHAN TITIK PUSAT AWAL DARI METODE

GEROMBOL K-RATAAN

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

BOGOR 2014

(10)

ii

(11)

iii Judul Tesis : Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode

Gerombol K-Rataan Nama : Rose Mawati NRP : G151110051

Disetujui oleh Komisi Pembimbing

Dr Ir I Made Sumertajaya, MSi Ketua

Dr Farit M Afendi, SSi, MSi Anggota

Diketahui oleh

Ketua Program Studi Statistika

Dr Ir Anik Djuraidah, MS

Dekan Sekolah Pascasarjana

Dr Ir Dahrul Syah, MScAgr

(12)

(13)

iv

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah yang berjudul Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode Gerombol K-Rataan berhasil diselesaikan.

Terima kasih penulis ucapkan kepada

1. Bapak Dr. Ir. I Made Sumertajaya, M.Si selaku pembimbing I dan ketua program studi Pascasarjana Statistika dan Bapak Dr. Farit M Afendi, S.Si, M.Si selaku pembimbing II, yang telah banyak memberikan bimbingan dan saran dalam penyusunan karya ilmiah ini. 2. Penguji luar komisi ibu Dr. Ir. Indahwati, M.Si pada ujian tesis, yang

telah memberikan kritik dan saran dalam perbaikan penyusunan karya ilmiah ini.

3. Kedua orangtua, papa dan mama, serta seluruh keluarga, atas segala doa dan kasih sayangnya.

4. Sahabat mahasiswa pascasarjana Statistika dan Statistika Terapan IPB 2011 atas kebersamaannya.

Semoga karya ilmiah ini bermanfaat.

(14)

v

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vii

DAFTAR LAMPIRAN viii

1 PENDAHULUAN 1

Latar Belakang 1

Tujuan Penelitian 2

2 METODE PENELITIAN 2

Data 2

Data Simulasi 3

Skenario Simulasi 3

Metode Simulasi 4

Data Sekunder 5

Metode Analisis 6

Penerapan metode modifikasi pemilihan titik pusat awal dari k-rataan

pada data sekunder 8

3 HASIL DAN PEMBAHASAN 8

Kondisi jarak antar pusat gerombol dekat 9

Kondisi jarak antar pusat gerombol sedang 12

Kondisi jarak antar pusat gerombol jauh 16

Penerapan metode modifikasi titik pusat awal k-rataan pada data sekunder17 Hasil penggerombolan desa dengan metode modifikasi titik pusat awal 18

4 SIMPULAN DAN SARAN 20

Simpulan 20

Saran 20

DAFTAR PUSTAKA 21

LAMPIRAN 22

(15)

vi

DAFTAR TABEL

1 Kombinasi data simulasi 4

2 Indikator kelengkapan sarana dan prasarana di desa 5 3 Perbandingan jumlah iterasi pada jarak antar pusat gerombol dekat 12 4 Perbandingan jumlah iterasi pada jarak antar pusat gerombol sedang 16 5 Perbandingan jumlah iterasi pada jarak antar pusat gerombol jauh 17

6 Nilai koefisien korelasi antar peubah 18

(16)

vii

DAFTAR GAMBAR

1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam kecil tidak ada korelasi, (b) ragam

kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil

korelasi tinggi 9

2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam sedang

korelasi tinggi 10

3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar

korelasi tinggi 11

4 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam kecil tidak ada korelasi, (b) ragam kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil

korelasi tinggi 13

5 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam

sedang korelasi tinggi 14

6 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar

(17)

viii

DAFTAR LAMPIRAN

1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam kecil tidak ada korelasi, (b) ragam kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam

kecil korelasi tinggi 22

2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam

sedang korelasi tinggi 22

3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam

besar korelasi tinggi 23

4 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat

gerombol dekat 24

gerombol sedang 24

(18)

1 PENDAHULUAN

Latar Belakang

Analisis gerombol merupakan salah satu teknik peubah ganda, yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan karakteristik dari pengamatan, sehingga dalam suatu gerombol memiliki kesamaan karakteristik yang tinggi sesuai dengan kriteria penggerombolan yang ditentukan (Hair et al. 1998). Pengamatan tersebut akan diklasifikasikan dalam satu atau beberapa gerombol sehingga pengamatan yang berada dalam gerombol yang sama akan mempunyai kemiripan satu dengan yang lain. Hasil dari penggerombolan akan menunjukkan bahwa pengamatan yang berada dalam satu gerombol akan lebih homogen dibandingkan antar gerombol.

Menurut Johnson dan Wichern (2007), dalam metode penggerombolan dikenal dua pendekatan, yaitu metode hirarki dan metode tidak berhirarki. Metode penggerombolan hirarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Sedangkan metode penggerombolan tidak berhirarki digunakan jika banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya. Salah satu metode dalam gerombol tak berhirarki yaitu metode k-rataan. K-rataan merupakan metode gerombolyang paling sederhana dan umum. K-rataan ini menggerombolkan objek berdasarkan kedekatan ukuran jarak terhadap titik pusat masing-masing gerombol (Anderberg 1973).

Karakteristik k-rataan yaitu kinerja komputasi yang baik, serta cepat dalam proses penggerombolan, tetapi k-rataan sangat sensitif pada pembangkitan titik pusat awal secara acak sehingga hasil penggerombolan dengan k-rataan bersifat tidak unik (selalu berubah-ubah), terkadang baik, terkadang jelek dan memungkinkan suatu gerombol tidak mempunyai anggota (Andayani 2007). Penentuan nilai pusat yang dibangkitkan secara acak ini menghasilkan gerombol yang tidak optimal. Alternatif dari permasalahan tersebut diperlukan suatu rancangan atau modifikasi cara pemilihan titik pusat dari metode k-rataan (Bhatia dan Khurana 2013).

Metode dengan memodifikasi pemilihan titik pusat awal pada k-rataan ini digunakan untuk meningkatkan kinerja dari metode k-rataan, dengan memperbaiki kekurangan metode k-rataan dalam pemilihan titik pusat awal secara acak. Metode ini dibagi dalam dua tahapan, tahap pertama digunakan untuk menentukan titik pusat awal, dan tahapan kedua digunakan untuk menentukan anggota dari pengamatan pada masing-masing gerombol. Modifikasi dari metode k-rataan dapat cepat mencapai konvergensi sehingga waktu komputasi relatif lebih cepat dan akurat dalam hasil penggerombolan dibandingkan dengan metode k-rataan.

(19)

2

dengan metode k-rataan, dan metode pemilihan titik pusat awal dengan mempartisi data dengan keragaman terbesar, metode ini juga diterapkan pada data bunga Iris.

Pada penelitian ini akan dibandingkan kinerja penggerombolan metode k-rataan dan metode modifikasi dalam penentuan titik pusat awal dari k-k-rataan melalui data simulasi, dan selanjutnya diterapkan pada data potensi desa yang ada di provinsi Bengkulu sebagai data sekunder dengan menggunakan metode modifikasi pemilihan titik pusat awal dari k-rataan.

Tujuan Penelitian

Berdasarkan latar belakang diatas, tujuan dari penelitian ini, yaitu:

1. Mengevaluasi dan membandingkan metode penggerombolan k-rataan, dan metode modifikasi dalam pemilihan titik pusat awal dari k-rataan pada data simulasi dengan beberapa kondisi jarak antar pusat gerombol.

2. Menerapkan metode modifikasi pemilihan titik pusat awal k-rataan pada data potensi desa yang ada di provinsi Bengkulu.

2 METODE PENELITIAN

Data

Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data sekunder yang digunakan dalam penelitian ini berupa dokumentasi tertulis data Potensi Desa (Podes) yang diperoleh dari BPS untuk Provinsi Bengkulu tahun 2011.

Data Simulasi

Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan dari sebaran normal ganda (μ,Ʃ) yang berguna untuk mengukur kinerja waktu komputasi melalui proses iterasi dari metode modifikasi pemilihan titik pusat awal dari k-rataan dan metode k-rataan.

Skenario Simulasi

Pembangkitan data simulasi yang digunakan terbagi dalam tiga kondisi jarak antar pusat gerombol mengacu pada Anggriyani (2011). Kondisi jarak antar pusat gerombol yang digunakan yaitu pusat antar gerombol berdekatan, pusat antar gerombol memiliki jarak sedang, dan pusat antar gerombol jauh. Setiap gerombol terdiri atas 3 peubah yaitu X1, X2, dan X3. Gugus data yang

(20)

3 masing-masing gerombol k=1,2,3, sehingga Ʃk nk = n. Penggunaan jumlah

amatan yang berbeda bertujuan untuk mengetahui efektifitas analisis gerombol pada jumlah amatan kecil, sedang, dan besar. Setiap kasus simulasi dilakukan hanya satu kali ulangan.

Data simulasi yang dibangkitkan merupakan data dari sebaran normal ganda, dengan menggunakan metode Singular Value Decomposition (SVD). Data ini terlebih dahulu dibangkitkan dari p peubah acak normal baku yang saling bebas, yaitu Z ~ Np(0,I). Peubah X tersebut kemudian ditransformasi menjadi peubah X = ZQ + 1µT ~ N(µ,Ʃ). Matriks Q dapat diperoleh melalui metode SVD, yaitu dengan menyatakan Ʃ sebagai

Ʃ=UDVT

dengan

Ʃ = matriks ragam peragam berukuran pxp

U = matriks orthogonal yang kolom-kolomnya merupakan vektor ciri dari

Hasil dekomposisi matriks Ʃ tersebut digunakan untuk memperoleh matriks

Q=UD1/2VT.

Guna melihat pengaruh tingkat korelasi antara peubah terhadap hasil akhir penggerombolan, dicobakan empat tingkat korelasi yaitu tidak ada korelasi (0), korelasi rendah (0,3), korelasi sedang (0,5), dan korelasi tinggi (0,8). Selain melihat pengaruh korelasi antar peubah, dalam penelitian ini dilihat juga pengaruh dari keragamannya. Keragaman memiliki pengaruh besar terhadap pola penyebaran dari data, semakin besar keragaman yang ditetapkan maka pola penyebaran data akan semakin acak atau saling tumpang tindih. Keragaman yang ditetapkan dalam penelitian ini dibagi menjadi tiga tingkat yaitu keragaman kecil, keragaman sedang, dan keragaman besar. Skenario simulasi ini merupakan kombinasi dari tiga kondisi jarak antar pusat gerombol, dengan ukuran korelasi yang berbeda, serta kombinasi dari tiga keragaman. Kombinasi data yang digunakan dalam kajian simulasi ditunjukkan pada Tabel 1.

Metode Simulasi

Tahapan yang dilakukan dalam membangkitkan data simulasi adalah sebagai berikut:

1. Menentukan banyak gerombol (k=3), banyak peubah (p=3) dan banyak amatan setiap gerombol (n1=n2=n3=100), dan setiap peubah dalam gerombol

bersebaran normal ganda.

2. Menentukan parameter sebaran masing-masing gerombol, yaitu vektor rataan (µ1,µ2,µ3), dan matriks peragam (1,2,3). Matriks peragam tersebut

diperoleh dengan cara:

a. Menentukan matriks Sk1/2 yang merupakan matriks diagonal dengan

(21)

4

b. Menentukan matriks Rk yang merupakan matriks korelasi antar

peubah.

c. Menghitung matriks peragam k = Sk1/2RkSk1/2.

Tabel 1 Kombinasi data simulasi Jarak Ukuran data

(nk)

Ragam Korelasi Kasus

(22)

5

a. Menentukan matriks othogonal U yang kolom-kolomnya merupakan vektor ciri dari matriks T.

U = [eu1, eu2, …, eup]

b. Menentukan matriks orthogonal V yang kolom-kolomnya merupakan vektor ciri dari matriksT.

V = [ev1, ev2, …, evp]

c. Menentukan matriks diagonal D yang unsur-unsur diagonalnya merupakan akar ciri dari matriks .

D = diag[λ1, λ2, …,λp]

5. Menentukan matriks Q yang diperoleh dari hasil dekomposisi pada langkah 4 dengan formula:

Q=UD1/2VT

6. Membangkitkan peubah acak normal ganda G1 sebanyak n1 untuk gerombol

1, dengan G1 ~ Np(µ1,1) dengan rumus:

G1=Z1Q+1µT

G2=Z2Q+1µT

G3=Z3Q+1µT

9. Menggabungkan ketiga gerombol tersebut menjadi sebuah kasus simulasi. 10.Ulangi tahap 2 – 9 untuk kondisi penggerombolan yang telah ditentukan.

Data Sekunder

Data sekunder yang digunakan dalam penelitian ini berupa dokumentasi tertulis dari data Potensi Desa (Podes) yang diperoleh dari BPS untuk Provinsi Bengkulu tahun 2011. Indikator yang digunakan untuk melihat kelengkapan fasilitas dan sarana prasarana yang terdapat di desa disajikan pada Tabel 2.

(23)

6

Tabel 2 Indikator demografi dan fasilitas sarana prasarana yang terdapat di desa

Faktor Indikator Satuan

Kependudukan dan ketenagakerjaan

X1 Jumlah Keluarga Keluarga

X2 Jumlah Keluarga Tani Keluarga

X3 Jumlah Keluarga Buruh Tani Keluarga

X4 Jumlah Warga yang Bekerja sebagai TKI Orang

Perumahan dan Lingkungan

Hidup

X5 Jumlah Keluarga Pengguna Listrik Keluarga

Pendidikan dan Kesehatan

X6 Jumlah Fasilitas Pendidikan Unit

X7 Jumlah Sarana Kesehatan Unit

X8 Jumlah Tenaga Kesehatan Orang

X9 Jumlah Penderita Wabah Penyakit Orang

X10 Jumlah Penderita Gizi Buruk Orang X13 Jumlah Warga Penerima JAMKESMAS Orang

Ekonomi X14 Jumlah Industri Kecil dan Mikro Unit

Metode Analisis

Metode penelitian dibagi ke dalam beberapa tahapan yang dilakukan berkaitan dengan tujuan penelitian yaitu eksplorasi dan deskriptif data bangkitan, analisis gerombol dengan modifikasi pemilihan titik pusat dari k-rataan dan metode k-k-rataan, serta analisis tingkat kebaikan klasifikasi pada masing-masing metode penggerombolan.

1. Eksplorasi data

Membuat plot dua komponen utama pada setiap kasus simulasi, guna melihat pola data dan mengidentifikasi penggerombolan objek. Selain itu, juga untuk menunjukkan sebaran data bangkitan, tingkat kekonsistenan rataan, korelasi, dan ragam-peragam data bangkitan.

2. Penggerombolan dengan metode k-rataan

Penggerombolan data dengan menggunakan metode k-rataan dengan langkah-langkah (Mattjik dan Sumertajaya 2011):

i. Menentukan sebanyak gerombol yang ingin dibentuk sebagai titik pusat awal secara acak dari keseluruhan pengamatan.

(24)

7

p = banyaknya peubah yang diamati

iii. Menghitung kembali pusat gerombol dengan keanggotaan gerombol yang baru. Pusat gerombol merupakan rata-rata dari seluruh data dalam gerombol tertentu.

iv. Menugaskan kembali setiap objek dengan menggunakan pusat gerombol yang baru. Jika pusat gerombol sudah tidak berubah lagi, maka proses penggerombolan selesai. Atau kembali lagi ke langkah iii sampai pusat gerombol tidak berubah.

3. Penggerombolan data dengan menggunakan metode modifikasi pemilihan titik pusat awal darik-rataan terdiri dari dua tahapan (Sujatha dan Sona 2013):

a. Tahap 1: menentukan titik pusat awal gerombol dengan menggunakan algoritma 1.

Masukkan:

L = {l1, l2,…, ln} (titik pengamatan sejumlah n)

k = jumlah gerombol yang ingin dibentuk. n = banyaknya pengamatan.

Hasil: titik pusat untuk setiap gerombol. Proses:

1. Menentukan jumlah gerombol k yang ingin dibentuk sebanyak Am (1<=m<=k).

2. Memilih anggota dari A1 dari L.

3. Menghitung jarak masing-masing titik pengamatan terhadap keseluruhan pengamatan di L dengan menggunakan jarak Euclid.

4. Menempatkan sepasang titik dari L ke dalam anggota dari A1,

keluarkan pasangan titik dengan jarak terdekat tersebut dari L. 5. Menghitung kembali jarak antar masing-masing pengamatan di

L terhadap anggota dari A1, kemudian memilih titik

pengamatan kembali yang menghasilkan jarak terdekat. Perhitungan dalam penentuan anggota dari A1 akan berhenti

saat A1 berjumlah 0,75*(n/k).

6. Jika m<k, maka proses perhitungan dilakukan kembali menggunakan langkah 2-5 dengan menggunakan sisa pengamatan dari L.

7. Menentukan nilai titik pusat awal berdasarkan rata-rata aritmetik untuk setiap Am.

(25)

8

Algoritma 2 ini memiliki konsep perhitungan yang sama dengan konsep gerombol k-rataan, yang membedakan algoritma 2 menggunakan algoritma 1 dalam penentuan pemilihan titik pusat awal, sedangkan konsep gerombol k-rataan menetapkan titik pusat awal secara acak dari D.

Masukkan:

1. Menghitung jarak Euclid untuk masing-masing titik pengamatan di (1<=i<=n) terhadap semua titik pusat cj

(1<=j<=k) sebagai d(li,cj).

2. Menentukan titik pengamatan yang merupakan anggota gerombol j, berdasarkan jarak terdekat terhadap titik pusat cj.

3. Menentukan anggota dari gerombol ke-j.

4. Menentukan titik pengamatan dalam suatu gerombol berdasarkan jarak terdekat d(li,cj).

5. Untuk masing-masing gerombol j (1<=j<=k), menghitung kembali titik pusat.

6. Menghitung kembali jarak untuk masing-masing titik pengamatan di,

7.1.Menghitung jarak dari titik pusat menuju gerombol terdekat.

7.2.Jika jarak kecil dari atau sama dengan jarak perhitungan sebelumnya, maka titik pengamatan tetap berada pada gerombol yang sama.

7.2.1. Untuk setiap titik pusat cj (1<=j<=k) hitung jarak

d(li,cj).

7.2.2. Menentukan titik pengamatan di gerombol dengan

cj menuju titik pusat terdekat.

7.2.3. Menentukan anggota dari gerombol ke-j. 7.2.4. Menentukan kembali jarak terdekat d(di,cj).

8. Untuk setiap gerombol j (1<=j<=k), hitung kembali titik pusat sampai tidak ada lagi anggota dari gerombol yang berpindah. 4. Membandingkan hasil pengerombolan k-rataan dan metode modifikasi

pemilihan titik pusat awal dari k-rataan, dengan cara menghitung jumlah iterasi yang diperlukan sampai anggota dari masing-masing gerombol tidak ada lagi yang berpindah (konvergen), dan menghitung persentase kebaikan hasil penggerombolan dari setiap kasus.

(26)

9

Penerapan Metode Modifikasi Pemilihan Titik Pusat Awal dari K-Rataan pada Data Sekunder

Penerapan metode modifikasi ini terdiri atas tiga tahap yaitu:

1. Menstandarisasikan gugus peubah data potensi desa di Provinsi Bengkulu. 2. Menerapkan metode analisis gerombol k-rataan yang telah dimodifikasi

dengan menggunakan software Matlab 2010a.

3. Interpretasi dan eksplorasi hasil penggerombolan yang terbentuk dari hasil penggeromboloan metode modifikasi dari k-rataan.

3 HASIL DAN PEMBAHASAN

Eksplorasi Data Hasil Bangkitan

Data yang dibangkitkan terdiri dari 36 kasus data simulasi, dengan setiap kasus data simulasi terdiri dari tiga gerombol. Kasus data simulasi tersebut dibedakan atas jarak antar pusat gerombol, ragam setiap peubah pada setiap gerombol, nilai korelasi, dan banyak data. Data simulasi yang telah dibangkitkan menggunakan metode SVD kemudian dilakukan pemeriksaan kembali untuk melihat kesesuaian hasil bangkitan data, dengan setiap kasus yang ditetapkan pada data tersebut. Berdasarkan hasil pemeriksaan data simulasi mempunyai sebaran, nilai rataan, korelasi, dan ragam-peragam yang konsisten dengan nilai yang ditetapkan sebelumnya.

Berdasarkan plot skor dua komponen utama yang dihasilkan untuk setiap kasus simulasi, dapat diketahui kondisi yang terbentuk dari ketiga gerombol yang dibangkitkan. Terdapat tiga macam kondisi yang terbentuk dari ketiga gerombol yang dibangkitkan dalam simulasi. Tiga kondisi yang dilihat yaitu pertama jarak titik pusat yang berdekatan antar gerombol, kemudian jarak antar titik pusat antar gerombol sedang, serta jarak antar titik pusat gerombol yang berjauhan. Pengaruh korelasi dan ragam juga dilihat pada setiap kondisi data simulasi.

Kondisi Jarak antar Pusat Gerombol Dekat

Kondisi jarak antar pusat gerombol dekat dapat diartikan bahwa setiap gerombol yang terbentuk terpisah dalam jarak yang relatif dekat. Berikut contoh plot dua komponen utama hasil klasifikasi pada berbagai tingkat korelasi mulai dari tidak ada korelasi, korelasi rendah, sedang dan tinggi dengan jumlah amatan untuk tiap gerombol 100, dapat dilihat pada Gambar 1, 2, dan 3.

(27)

10

gerombol dapat terpisah dengan jelas. Ukuran korelasi antar peubah berpengaruh pada kondisi ini.

Gambar 1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam kecil tidak ada korelasi, (b) ragam kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil korelasi tinggi.

Kasus simulasi dengan kondisi jarak antar setiap gerombol dekat dan ragam setiap peubah kecil, menghasilkan gerombol yang terpisah secara tegas. Hal ini disebabkan karena besarnya ragam setiap peubah besar mempengaruhi pola penyebaran amatan yang menyebar disekitar rataan, sehingga jika jarak antar pusat gerombol dekat maka ketiga gerombol akan terpisah. Ukuran korelasi yang semakin besar antar peubah akan menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol.

Guna melihat perbandingan tingkat kebaikan klasifikasi yang dihasilkan pada kasus jarak antar pusat gerombol dekat melalui metode modifikasi pemilihan titik pusat dari k-rataan dan metode k-rataan secara lengkap dapat dilihat pada Lampiran 4. Hasil penggerombolan ini dilakukan dengan jumlah gerombol n=300, 900, dan 1500. Setiap kasus hanya dilakukan satu kali ulangan. Hasil yang diperoleh dari perbandingan tingkat kebaikan klasifikasi pada kedua metode pada Lampiran 4 menghasilkan tingkat kebaikan yang tidak jauh berbeda atau dapat dikatakan bahwa kedua metode memiliki tingkat kebaikan klasifikasi yang sama untuk kasus jarak antar gerombol dekat.

(c) (d)

(28)

11

Gambar 2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam sedang korelasi tinggi.

Gambar 2 memperlihatkan kasus simulasi dengan kondisi jarak antar setiap gerombol dekat dan ragam setiap peubah sedang, menghasilkan satu gerombol. Hal ini disebabkan karena besarnya ragam setiap peubah besar mempengaruhi pola penyebaran amatan yang menyebar jauh dari rataan, sehingga jika jarak antar pusat gerombol dekat maka ketiga gerombol akan tumpang tindih. Ukuran korelasi yang semakin besar antar peubah akan menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol.

Gambar 3 memperlihatkan kasus simulasi dengan kondisi jarak antar setiap gerombol dekat dan ragam setiap peubah besar. Korelasi antar peubah rendah dan jarak antar pusat gerombol dekat menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol sehingga menghasilkan satu gerombol, sebaliknya pada kondisi korelasi antar peubah tinggi dan jarak antar pusat gerombol dekat menyebabkan amatan menyebar sesuai dengan titik pusat masing-masing gerombol sehingga menghasilkan tiga gerombol. Dimensi pengamatan akan berpengaruh dalam hasil plot untuk skor dua komponen, semakin besar dimensi maka plot skor komponen akan sulit menunjukkan hasil gerombol sebenarnya dapat terbentuk karena keterbatasan software dalam menyajikan apabila dimensi data lebih dari dua.

(a) (b)

(29)

12

Gambar 3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar korelasi tinggi.

Kasus simulasi dengan kondisi jarak antar setiap gerombol dekat dan ragam setiap peubah besar, menghasilkan gerombol yang saling tumpang tindih. Hal ini disebabkan karena besarnya ragam setiap peubah besar mempengaruhi pola penyebaran amatan yang menyebar jauh disekitar rataan, sehingga jika jarak antar pusat gerombol dekat maka ketiga gerombol akan tumpang tindih. Ukuran korelasi yang semakin besar antar peubah akan menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol.

Tabel 3 memperlihatkan bahwa jumlah iterasi yang dibutuhkan oleh kedua metode sangat berbeda jauh. Hal ini tentunya sangat mempengaruhi waktu yang digunakan dalam proses penggerombolan. Metode modifikasi pemilihan titik pusat awal jauh lebih unggul bila dilihat dari perbandingan jumlah proses iterasi pada penerapan untuk berbagai kasus dengan ukuran data yang berbeda, yaitu n=300, 900, dan 1500.

(a) (b)

(30)

13 Tabel 3 Perbandingan jumlah iterasi pada jarak antar pusat gerombol dekat

Data tidak mempengaruhi jumlah iterasi pada kedua metode. Jumlah iterasi juga dipengaruhi oleh besarnya keragaman. Semakin besar ukuran keragaman yang dicobakan maka semakin besar jumlah iterasi pada kedua metode. Hal ini karena pola penyebaran data membuat amatan akan menyebar jauh dari rataan. Ukuran korelasi yang besar menghasilkan jumlah iterasi pada kedua metode lebih kecil, karena penyebaran data mengumpul disekitar pusat gerombol.

Kondisi Jarak antar Pusat Gerombol Sedang

Kondisi jarak antar pusat gerombol sedang dapat diartikan bahwa setiap gerombol yang terbentuk terpisah dalam jarak relatif sedang. Berikut contoh plot dua komponen utama hasil klasifikasi pada berbagai tingkat korelasi mulai dari tidak ada korelasi, korelasi rendah, sedang dan tinggi dengan jumlah amatan untuk tiap gerombol 100.

(31)

14

Gambar 4 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam kecil tidak ada korelasi, (b) ragam kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil korelasi tinggi.

Gambar 4 memperlihatkan kasus simulasi dengan kondisi jarak antar setiap gerombol sedang, ragam setiap peubah kecil akan menghasilkan tiga gerombol. Jika ragam setiap peubah untuk setiap gerombol kecil, amatan dapat dipisahkan sesuai dengan gerombol masing-masing. Ukuran korelasi yang tinggi menyebabkan amatan dapat terpisah dengan jelas sesuai dengan gerombolnya.

Kasus simulasi dengan kondisi jarak antar setiap gerombol sedang dan ragam setiap peubah kecil, menghasilkan gerombol yang saling tepisah. Hal ini disebabkan karena besarnya ragam setiap peubah besar mempengaruhi pola penyebaran amatan yang menyebar dekat disekitar rataan, sehingga jika jarak antar pusat gerombol sedang maka ketiga gerombol akan terpisah. Ukuran korelasi yang semakin besar antar peubah akan menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol.

(a) (b)

(32)

15

Gambar 5 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam sedang korelasi tinggi.

Gambar 5 memperlihatkan kasus simulasi dengan kondisi ragam setiap peubah untuk setiap gerombol sedang, ukuran korelasi memiliki pengaruh yang besar dalam pemisahan gerombol, semakin tinggi korelasi maka gerombol yang terbentuk semakin terpisah sesuai dengan gerombolnya.

Kasus simulasi dengan kondisi jarak antar setiap gerombol sedang dan ragam setiap peubah sedang, menghasilkan gerombol yang saling tumpang tindih. Hal ini disebabkan karena besarnya ragam setiap peubah besar mempengaruhi pola penyebaran amatan yang menyebar jauh disekitar rataan, sehingga jika jarak antar pusat gerombol sedang maka ketiga gerombol akan tumpang tindih. Ukuran korelasi yang semakin besar antar peubah akan menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol.

(a) (b)

(33)

16

Gambar 6 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar korelasi tinggi.

Gambar 6 memperlihatkan kasus simulasi dengan kondisi jarak sedang, ragam yang besar, korelasi yang digunakan rendah maka akan dihasilkan satu gerombol dikarenakan amatan menyebar dekat dengan pusat gerombol sehingga membuat amatan saling tumpang tindih, sebaliknya jika ukuran korelasi yang digunakan tinggi maka akan dihasilkan tiga gerombol dikarenakan amatan menyebar dekat dengan pusat gerombol masing–masing, sehingga walaupun kondisi yang terbentuk saling tumpang tindih amatan dapat terpisah sesuai dengan gerombolnya.

Tabel 4 di bawah ini memperlihatkan bahwa jumlah iterasi yang dibutuhkan oleh kedua metode sangat berbeda jauh. Hal ini tentunya sangat mempengaruhi waktu yang digunakan dalam proses penggerombolan. Metode modifikasi pemilihan titik pusat awal jauh lebih unggul bila dilihat dari perbandingan jumlah proses iterasi pada penerapan untuk berbagai kasus dengan ukuran data yang berbeda, yaitu n=300, 900, dan 1500.

(a) (b)

(34)

17 Tabel 4 Perbandingan jumlah iterasi pada jarak antar pusat gerombol sedang

Data tidak mempengaruhi jumlah iterasi pada kedua metode. Jumlah iterasi juga dipengaruhi oleh besarnya keragaman. Semakin besar ukuran keragaman yang dicobakan maka semakin besar jumlah iterasi pada kedua metode. Hal ini karena pola penyebaran data membuat amatan akan menyebar jauh dari rataan. Ukuran korelasi yang besar menghasilkan jumlah iterasi pada kedua metode lebih kecil, karena penyebaran data mengumpul disekitar pusat gerombol.

Kondisi Jarak antar Pusat Gerombol Jauh

Kondisi jarak antar pusat gerombol jauh dapat diartikan bahwa setiap gerombol yang terbentuk terpisah dalam jarak relatif jauh. Plot skor dua komponen utama untuk n=300 yang dibuat pada satu kali ulangan dengan jarak antar gerombol berjauhan dan keragaman yang ditetapkan kecil, serta ukuran korelasi yang berbeda dan semakin meningkat, secara lengkap dapat dilihat pada Lampiran 1. Plot skor komponen utama untuk jarak antar gerombol jauh, keragaman sedang serta ukuran korelasi yang semakin meningkat, secara lengkap dapat dilihat pada Lampiran 2. Kondisi jarak yang antar pusat gerombol jauh ini juga diterapkan untuk kondisi keragaman yang besar serta ukuran korelasi yang semakin meningkat, plot skor dua komponen utama pada kasus ini dapat dilihat pada Lampiran 3.

Guna melihat perbandingan tingkat kebaikan klasifikasi yang dihasilkan pada kasus jarak antar pusat gerombol jauh melalui metode modifikasi pemilihan titik pusat dari k-rataan dan metode k-rataan secara lengkap dapat dilihat pada Lampiran 6. Hasil penggerombolan ini dilakukan dengan jumlah gerombol n=300, 900, dan 1500. Setiap kasus hanya dilakukan satu kali ulangan. Hasil yang diperoleh dari perbandingan tingkat kebaikan klasifikasi pada kedua metode pada Lampiran 6 menghasilkan tingkat kebaikan yang tidak jauh berbeda atau dapat dikatakan bahwa kedua metode memiliki tingkat kebaikan klasifikasi yang sama untuk kasus jarak antar gerombol jauh.

(35)

18

berbeda jauh, hal ini tentunya sangat mempengaruhi waktu yang digunakan dalam proses penggerombolan. Hasil perbandingan jumlah iterasi yang diperoleh pada kondisi jarak antar pusat gerombol jauh sama halnya dengan hasil jumlah iterasi yang diperoleh pada kondisi jarak antar pusat gerombol dekat dan sedang. Dengan demikian semakin jauh jarak antar pusat gerombol maka pada kondisi ragam kecil akan menghasilkan tiga gerombol yang terpisah dengan jelas. Ukuran korelasi yang tinggi menyebabkan amatan dapat terpisah dengan jelas sesuai dengan gerombolnya.

Tabel 5 Perbandingan jumlah iterasi pada jarak antar pusat gerombol jauh Data

Metode modifikasi pemilihan titik pusat awal dilihat dari perbandingan jumlah proses iterasi jauh lebih unggul pada penerapan untuk berbagai kasus jarak antara pusat gerombol jauh, dan berbagai ukuran data (kecil, sedang, besar), dan juga pada ukuran korelasi. Besarnya keragaman yang mempengaruhi pola penyebaran data sehingga membuat amatan akan menyebar jauh dari rataan, jika jarak antar pusat gerombol dekat maka ketiga gerombol akan tumpang tindih, hal ini mempengaruhi jumlah iterasi dari metode metode modifikasi pemilihan titik pusat awal dari k-rataan. Jumlah iterasi akan semakin meningkat apabila penyebaran data semakin acak.

Penerapan Metode Modifikasi Titik Pusat pada K-Rataan pada Data Sekunder

(36)

19 antar peubah, skor komponen yang telah diperoleh selanjutnya digunakan untuk proses penggerombolan.

Tabel 6 Nilai koefisien korelasi antar peubah

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14

Pada Tabel 6 di bawah ini, terdapat peubah yang memiliki korelasi tinggi, yaitu peubah X1 (jumlah penduduk), dengan X5 (keluarga pengguna listrik). Ini

menunjukkan bahwa peubah tersebut memiliki hubungan yang kuat, dan memiliki pengaruh yang sama.

Hasil Penggerombolan Desa dengan Metode Modifikasi Titik Pusat K-Rataan

Hasil penggorombolan data potensi desa di Provinsi Bengkulu ini telah ditetapkan sebelumnya. Jumlah gerombol yang akan terbentuk ini berdasarkan kemiripan karakteristik dalam suatu gerombol dengan menggunakan ukuran jarak Euclid. Penggerombolan dengan konsep k-rataan ini. Adapun ekplorasi peubah-peubah tiap gerombol sebagai berikut:

(37)

20

Tabel 7 Eksplorasi peubah tiap gerombol

Gerombol 1 Gerombol 2 Gerombol 3

rataan simp baku rataan simp baku rataan simp baku

X1 204.1 103.5 510.0 200.0 1556.1 869.0 yang ada di Provinsi Bengkulu. Kelompok ini anggotanya terdiri dari desa yang terdapat di kabupaten Bengkulu, Bengkulu Selatan, Bengkulu Tengah, Bengkulu Utara, Kaur, Kepahiang, Lebong, Mukomuko, Rejang Lebong, dan Seluma. Gerombol ini tergolong memiliki sarana dan prasarana yang kurang memadai. Berdasarkan aspek kependudukan dan ketenagakerjaan terlihat bahwa pekerjaan penduduk di gerombol ini adalah sebagai buruh tani, dan pada aspek pendidikan dan sarana kesehatan yang jauh lebih sedikit dibandingkan gerombol lainnya, sehingga berdampak pada aspek kesehatan, gerombol ini memiliki proporsi penderita wabah penyakit, jumlah kematian balita dan jumlah penderita gizi buruk yang paling besar dibandingkan gerombol lainnya.

(38)

21

4 SIMPULAN DAN SARAN

Simpulan

Metode dengan memodifikasi pemilihan titik pusat awal pada k-rataan ini dibagi dalam dua tahapan, tahap pertama digunakan untuk menentukan titik pusat awal, dan tahapan kedua digunakan untuk menentukan anggota dari masing-masing gerombol. Perbedaan mendasar antara metode k-rataan dengan metode modifikasi pemilihan titik pusat awal adalah pada pemilihan titik pusat awal, metode k-rataan memlilih titik pusat secara acak, sedangkan metode modifikasi memilih titik pusat awal dengan menggunakan tahap pertama. Modifikasi dari metode k-rataan jauh lebih unggul dibandingkan dengan metode k-rataan berdasarkan jumlah iterasi yang terbentuk, sehingga waktu komputasi relatif lebih cepat dalam hasil penggerombolan dibandingkan dengan metode k-rataan.

Hasil penggerombolan data dengan metode modifikasi ini ditentukan secara subjektif, dan berdasarkan tujuan penggerombolan yang menggunakan data potensi desa, dalam melihat kelengkapan sarana dan prasarana di desa pada Provinsi Bengkulu. Penggerombolan ini ditetapkan menjadi tiga gerombol, yaitu desa yang memiliki sarana dan prasarana yang memadai, gerombol yang anggotanya adalah desa dengan sarana dan prasarana yang kurang memadai, dan gerombol ketiga beranggotakan desa memiliki sarana prasarana cukup memadai.

Saran

(39)

22

DAFTAR PUSTAKA

Andayani S. 2007. Pembentukan Cluster dalam Knowledge Discovery in Database dengan Algoritma K-Means [Internet]. [diunduh 2013 Feb 1].

Tersedia pada:

http://staff.uny.ac.id/Pembentukan/cluster/dlm/KDD/dgn/Algoritma/kmeans .pdf.

Anggriyani IR. 2011. Kajian Analisis Gerombol Berbasis Model pada Data yang Menyebar Normal Ganda [tesis]. Bogor: Ilmu Komputer. FMIPA IPB. Anderberg MR. 1973. Cluster Analysis for Application. New York: Academic

Press.

Bhatia MPS, Khurana D. Experimental Study of Data Clustering using K-Means and Modified Algorithms. International Journal of Data Mining of Knowledge Management Process (IJDKP) Vol. 3. No. 3. 2013.

Badan Pusat Statistik. 2006. Potensi Desa. Jakarta: BPS.

Hair JF Jr, Anderson RE, Tatham RL, Black WC. 1998. Applied Multivariate Statistical Analysis. Ed ke-5. New Jersey: Prentice-Hall.

Jia YB. 2013. Singular Value Decomposition [Internet]. [diunduh 2014 Maret 1]. Tersedia pada: www.cs.iastate.edu/~cs577/handouts/svd.pdf.

Johnson RA, Wichern DW. 2007. Applied Multivariate Statistical Analysis. Ed ke-6. New Jersey: Pearson education, inc.

Mattjik AA, Sumertajaya IM. 2011. Sidik Peubah Ganda dengan Menggunakan SAS. Bogor: Departemen Statistika. FMIPA IPB.

Nazeer KAA, Sebastian MP. Improving the Accuracy and Efficiency of the K-Means Clustering Algorithm. Proceedings of the World Congress on Engineering (WCE) Vol. 1. 2009.

Su MC, Chou CH. 2001. A Modified Version of the K-Means Algorithm with A Distance Based on Cluster Symmetry. International Journal of Engineering Research & Technology (IJERT) 2278-0181.

(40)

23 Lampiran 1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam kecil tidak ada korelasi, (b) ragam kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil korelasi tinggi.

(a) (b)

(41)

24

Lampiran 2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam sedang korelasi tinggi.

(a)

(c)

(b)

(42)

25 Lampiran 3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar korelasi tinggi.

(b) (a)

(43)

26

Lampiran 4 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat gerombol dekat

(44)

27

(45)

28