MODIFIKASI METODE PEMILIHAN TITIK PUSAT AWAL
DARI METODE GEROMBOL K-RATAAN
ROSE MAWATI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa tesis berjudul Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode Gerombol K-Rataan adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
RINGKASAN
ROSE MAWATI. Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode Gerombol K-Rataan. Dibimbing oleh I MADE SUMERTAJAYA dan FARIT MOCHAMAD AFENDI.
Analisis gerombol merupakan salah satu teknik peubah ganda, yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan atau ketidakmiripan karakteristik-karakteristiknya sehingga pengamatan-pengamatan yang terdapat di dalam suatu gerombol memiliki kesamaan yang tinggi sesuai dengan kriteria pemilihan yang ditentukan. Metode penggerombolan memiliki dua pendekatan, yaitu metode hirarki dan metode tidak berhirarki. Penentuan jumlah gerombol yang terbentuk untuk dua metode ini dilakukan sesuai dengan keinginan peneliti atau berdasarkan literatur.
Salah satu metode dalam gerombol tak berhirarki yaitu metode k-rataan. K-rataan merupakan metode gerombol yang paling sederhana dan umum. Karakteristik k-rataan yaitu kinerja komputasi yang baik, serta cepat dalam proses penggerombolan, tetapi k-rataan sangat sensitif pada pembangkitan titik pusat awal secara acak sehingga hasil penggerombolan dengan k-rataan bersifat tidak unik.
Pada penelitian ini, k-rataan dibandingkan dengan metode modifikasi pemilihan titik pusat awal dari k-rataan. Menurut Sona dan Sujatha (2013) metode ini difokuskan untuk memilih titik pusat awal dalam meningkatkan kinerja dari algoritma penggerombolan k-rataan. Kinerja penggerombolan metode modifikasi pemilihan titik pusat dari k-rataan ini akan dibandingkan melalui data simulasi, dan selanjutnya menerapkan metode modifikasi pemilihan titik pusat awal dari k-rataan pada penggerombolan desa di Provinsi Bengkulu.
Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan dari sebaran normal ganda (μ,Ʃ) yang berguna untuk mengukur kinerja metode modifikasi titik pusat awal dari k-rataan dan metode k-rataan dalam mengelompokkan objek/pengamatan. Data sekunder yang digunakan dalam penelitian ini berupa dokumentasi tertulis data Potensi Desa (Podes) yang diperoleh dari BPS untuk Provinsi Bengkulu tahun 2011.
Data simulasi yang digunakan dalam penelitian ini merupakan data dengan sebaran normal ganda, dan tipe data numerik yang terdiri dari tiga gerombol, dan masing-masing gerombol terdiri dari tiga peubah. Pembangkitan data simulasi yang digunakan terbagi dalam tiga kondisi jarak antar pusat gerombol. Kondisi jarak antar pusat gerombol yang digunakan yaitu pusat antar gerombol berdekatan, pusat antar gerombol memiliki jarak sedang, dan pusat antar gerombol jauh. Setiap kasus diterapkan untuk data ukuran kecil (n=300), sedang (n=900), dan besar (n=1500).
Hasil penggerombolan data dengan metode modifikasi ini ditentukan berdasarkan tujuan penggerombolan yang menggunakan data potensi desa, dalam melihat kelengkapan sarana dan prasarana di desa pada Provinsi Bengkulu. Penggerombolan ini ditetapkan menjadi tiga gerombol, yaitu: desa yang memiliki sarana dan prasarana yang memadai; gerombol yang anggotanya adalah desa dengan sarana dan prasarana yang kurang memadai; dan gerombol ketiga beranggotakan desa memiliki sarana prasarana cukup memadai.
SUMMARY
ROSE MAWATI. Modified Method of Selection Initial Centroid in K-Means Clustering. Supervised by I MADE SUMERTAJAYA and FARIT MOCHAMAD AFENDI.
Cluster analysis is one of multivariate technique, clustering is a process of classifying object into groups which have similarity. The result of clustering will show that objects in one cluster will be more homogeneous than others. There are two methods in classic clustering analysis i.e. hierarchical clusters method and non-hierarchical cluster method. Determination of the number of clusters which formed by them is done subjectively or based on literature.
One of the non-hierarchical cluster method is k-means clustering. Characteristics of means clustering is a good computational performance, but k-means clustering is very sensitive to select initial centroid because k-k-means method select initial centroid random from data so that the results of the k-means clustering are not unique.
In this research, k-means method was compared with modified method of selection initial centroid in k-means. According to Sona and Sujatha (2013), the method of centroid selection is focused on improving performance of k-means clustering algorithm. Performance of modification method in selecting initial centroid will be compared in simulation data, and then apply the modified method in secondary data.
The data in this research consist of two sources i.e. simulated data and secondary data. Simulated data were generated data multivariate normal distribution (μ,Ʃ) which useful to measure the performance of modified method of selection initial centroid in k-means and k-means method. Secondary data
Modification method of selection initial centroid in k-means has better performance than k-means clustering method. It is based on number iterations is formed, there is no member of each clusters that switch positions (convergent). The number of iterations on the modified method of selection initial centroid in k-means method will increase if the variance from data is enhanced.
© Hak Cipta Milik IPB, Tahun 2014
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB
i
Tesis
sebagai salah satu syarat untuk memperoleh gelar Magister Sains
pada
Program Studi Statistika
MODIFIKASI METODE PEMILIHAN TITIK PUSAT AWAL DARI METODE
GEROMBOL K-RATAAN
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
BOGOR 2014
ii
iii Judul Tesis : Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode
Gerombol K-Rataan Nama : Rose Mawati NRP : G151110051
Disetujui oleh Komisi Pembimbing
Dr Ir I Made Sumertajaya, MSi Ketua
Dr Farit M Afendi, SSi, MSi Anggota
Diketahui oleh
Ketua Program Studi Statistika
Dr Ir Anik Djuraidah, MS
Dekan Sekolah Pascasarjana
Dr Ir Dahrul Syah, MScAgr
iv
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah yang berjudul Modifikasi Metode Pemilihan Titik Pusat Awal dari Metode Gerombol K-Rataan berhasil diselesaikan.
Terima kasih penulis ucapkan kepada
1. Bapak Dr. Ir. I Made Sumertajaya, M.Si selaku pembimbing I dan ketua program studi Pascasarjana Statistika dan Bapak Dr. Farit M Afendi, S.Si, M.Si selaku pembimbing II, yang telah banyak memberikan bimbingan dan saran dalam penyusunan karya ilmiah ini. 2. Penguji luar komisi ibu Dr. Ir. Indahwati, M.Si pada ujian tesis, yang
telah memberikan kritik dan saran dalam perbaikan penyusunan karya ilmiah ini.
3. Kedua orangtua, papa dan mama, serta seluruh keluarga, atas segala doa dan kasih sayangnya.
4. Sahabat mahasiswa pascasarjana Statistika dan Statistika Terapan IPB 2011 atas kebersamaannya.
Semoga karya ilmiah ini bermanfaat.
v
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vii
DAFTAR LAMPIRAN viii
1 PENDAHULUAN 1
Latar Belakang 1
Tujuan Penelitian 2
2 METODE PENELITIAN 2
Data 2
Data Simulasi 3
Skenario Simulasi 3
Metode Simulasi 4
Data Sekunder 5
Metode Analisis 6
Penerapan metode modifikasi pemilihan titik pusat awal dari k-rataan
pada data sekunder 8
3 HASIL DAN PEMBAHASAN 8
Kondisi jarak antar pusat gerombol dekat 9
Kondisi jarak antar pusat gerombol sedang 12
Kondisi jarak antar pusat gerombol jauh 16
Penerapan metode modifikasi titik pusat awal k-rataan pada data sekunder17 Hasil penggerombolan desa dengan metode modifikasi titik pusat awal 18
4 SIMPULAN DAN SARAN 20
Simpulan 20
Saran 20
DAFTAR PUSTAKA 21
LAMPIRAN 22
vi
DAFTAR TABEL
1 Kombinasi data simulasi 4
2 Indikator kelengkapan sarana dan prasarana di desa 5 3 Perbandingan jumlah iterasi pada jarak antar pusat gerombol dekat 12 4 Perbandingan jumlah iterasi pada jarak antar pusat gerombol sedang 16 5 Perbandingan jumlah iterasi pada jarak antar pusat gerombol jauh 17
6 Nilai koefisien korelasi antar peubah 18
vii
DAFTAR GAMBAR
1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam kecil tidak ada korelasi, (b) ragam
kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil
korelasi tinggi 9
2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam sedang
korelasi tinggi 10
3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar
korelasi tinggi 11
4 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam kecil tidak ada korelasi, (b) ragam kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil
korelasi tinggi 13
5 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam
sedang korelasi tinggi 14
6 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar
viii
DAFTAR LAMPIRAN
1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam kecil tidak ada korelasi, (b) ragam kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam
kecil korelasi tinggi 22
2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam
sedang korelasi tinggi 22
3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam
besar korelasi tinggi 23
4 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat
gerombol dekat 24
5 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat
gerombol sedang 24
6 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat
1 PENDAHULUAN
Latar Belakang
Analisis gerombol merupakan salah satu teknik peubah ganda, yang tujuan utamanya adalah mengelompokkan objek berdasarkan kemiripan karakteristik dari pengamatan, sehingga dalam suatu gerombol memiliki kesamaan karakteristik yang tinggi sesuai dengan kriteria penggerombolan yang ditentukan (Hair et al. 1998). Pengamatan tersebut akan diklasifikasikan dalam satu atau beberapa gerombol sehingga pengamatan yang berada dalam gerombol yang sama akan mempunyai kemiripan satu dengan yang lain. Hasil dari penggerombolan akan menunjukkan bahwa pengamatan yang berada dalam satu gerombol akan lebih homogen dibandingkan antar gerombol.
Menurut Johnson dan Wichern (2007), dalam metode penggerombolan dikenal dua pendekatan, yaitu metode hirarki dan metode tidak berhirarki. Metode penggerombolan hirarki digunakan jika banyaknya gerombol yang akan dibentuk belum diketahui sebelumnya. Sedangkan metode penggerombolan tidak berhirarki digunakan jika banyaknya gerombol yang akan dibentuk sudah diketahui sebelumnya. Salah satu metode dalam gerombol tak berhirarki yaitu metode k-rataan. K-rataan merupakan metode gerombolyang paling sederhana dan umum. K-rataan ini menggerombolkan objek berdasarkan kedekatan ukuran jarak terhadap titik pusat masing-masing gerombol (Anderberg 1973).
Karakteristik k-rataan yaitu kinerja komputasi yang baik, serta cepat dalam proses penggerombolan, tetapi k-rataan sangat sensitif pada pembangkitan titik pusat awal secara acak sehingga hasil penggerombolan dengan k-rataan bersifat tidak unik (selalu berubah-ubah), terkadang baik, terkadang jelek dan memungkinkan suatu gerombol tidak mempunyai anggota (Andayani 2007). Penentuan nilai pusat yang dibangkitkan secara acak ini menghasilkan gerombol yang tidak optimal. Alternatif dari permasalahan tersebut diperlukan suatu rancangan atau modifikasi cara pemilihan titik pusat dari metode k-rataan (Bhatia dan Khurana 2013).
Metode dengan memodifikasi pemilihan titik pusat awal pada k-rataan ini digunakan untuk meningkatkan kinerja dari metode k-rataan, dengan memperbaiki kekurangan metode k-rataan dalam pemilihan titik pusat awal secara acak. Metode ini dibagi dalam dua tahapan, tahap pertama digunakan untuk menentukan titik pusat awal, dan tahapan kedua digunakan untuk menentukan anggota dari pengamatan pada masing-masing gerombol. Modifikasi dari metode k-rataan dapat cepat mencapai konvergensi sehingga waktu komputasi relatif lebih cepat dan akurat dalam hasil penggerombolan dibandingkan dengan metode k-rataan.
2
dengan metode k-rataan, dan metode pemilihan titik pusat awal dengan mempartisi data dengan keragaman terbesar, metode ini juga diterapkan pada data bunga Iris.
Pada penelitian ini akan dibandingkan kinerja penggerombolan metode k-rataan dan metode modifikasi dalam penentuan titik pusat awal dari k-k-rataan melalui data simulasi, dan selanjutnya diterapkan pada data potensi desa yang ada di provinsi Bengkulu sebagai data sekunder dengan menggunakan metode modifikasi pemilihan titik pusat awal dari k-rataan.
Tujuan Penelitian
Berdasarkan latar belakang diatas, tujuan dari penelitian ini, yaitu:
1. Mengevaluasi dan membandingkan metode penggerombolan k-rataan, dan metode modifikasi dalam pemilihan titik pusat awal dari k-rataan pada data simulasi dengan beberapa kondisi jarak antar pusat gerombol.
2. Menerapkan metode modifikasi pemilihan titik pusat awal k-rataan pada data potensi desa yang ada di provinsi Bengkulu.
2 METODE PENELITIAN
Data
Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data sekunder yang digunakan dalam penelitian ini berupa dokumentasi tertulis data Potensi Desa (Podes) yang diperoleh dari BPS untuk Provinsi Bengkulu tahun 2011.
Data Simulasi
Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan dari sebaran normal ganda (μ,Ʃ) yang berguna untuk mengukur kinerja waktu komputasi melalui proses iterasi dari metode modifikasi pemilihan titik pusat awal dari k-rataan dan metode k-rataan.
Skenario Simulasi
Pembangkitan data simulasi yang digunakan terbagi dalam tiga kondisi jarak antar pusat gerombol mengacu pada Anggriyani (2011). Kondisi jarak antar pusat gerombol yang digunakan yaitu pusat antar gerombol berdekatan, pusat antar gerombol memiliki jarak sedang, dan pusat antar gerombol jauh. Setiap gerombol terdiri atas 3 peubah yaitu X1, X2, dan X3. Gugus data yang
3 masing-masing gerombol k=1,2,3, sehingga Ʃk nk = n. Penggunaan jumlah
amatan yang berbeda bertujuan untuk mengetahui efektifitas analisis gerombol pada jumlah amatan kecil, sedang, dan besar. Setiap kasus simulasi dilakukan hanya satu kali ulangan.
Data simulasi yang dibangkitkan merupakan data dari sebaran normal ganda, dengan menggunakan metode Singular Value Decomposition (SVD). Data ini terlebih dahulu dibangkitkan dari p peubah acak normal baku yang saling bebas, yaitu Z ~ Np(0,I). Peubah X tersebut kemudian ditransformasi menjadi peubah X = ZQ + 1µT ~ N(µ,Ʃ). Matriks Q dapat diperoleh melalui metode SVD, yaitu dengan menyatakan Ʃ sebagai
Ʃ=UDVT
dengan
Ʃ = matriks ragam peragam berukuran pxp
U = matriks orthogonal yang kolom-kolomnya merupakan vektor ciri dari
Hasil dekomposisi matriks Ʃ tersebut digunakan untuk memperoleh matriks
Q=UD1/2VT.
Guna melihat pengaruh tingkat korelasi antara peubah terhadap hasil akhir penggerombolan, dicobakan empat tingkat korelasi yaitu tidak ada korelasi (0), korelasi rendah (0,3), korelasi sedang (0,5), dan korelasi tinggi (0,8). Selain melihat pengaruh korelasi antar peubah, dalam penelitian ini dilihat juga pengaruh dari keragamannya. Keragaman memiliki pengaruh besar terhadap pola penyebaran dari data, semakin besar keragaman yang ditetapkan maka pola penyebaran data akan semakin acak atau saling tumpang tindih. Keragaman yang ditetapkan dalam penelitian ini dibagi menjadi tiga tingkat yaitu keragaman kecil, keragaman sedang, dan keragaman besar. Skenario simulasi ini merupakan kombinasi dari tiga kondisi jarak antar pusat gerombol, dengan ukuran korelasi yang berbeda, serta kombinasi dari tiga keragaman. Kombinasi data yang digunakan dalam kajian simulasi ditunjukkan pada Tabel 1.
Metode Simulasi
Tahapan yang dilakukan dalam membangkitkan data simulasi adalah sebagai berikut:
1. Menentukan banyak gerombol (k=3), banyak peubah (p=3) dan banyak amatan setiap gerombol (n1=n2=n3=100), dan setiap peubah dalam gerombol
bersebaran normal ganda.
2. Menentukan parameter sebaran masing-masing gerombol, yaitu vektor rataan (µ1,µ2,µ3), dan matriks peragam (1,2,3). Matriks peragam tersebut
diperoleh dengan cara:
a. Menentukan matriks Sk1/2 yang merupakan matriks diagonal dengan
4
b. Menentukan matriks Rk yang merupakan matriks korelasi antar
peubah.
c. Menghitung matriks peragam k = Sk1/2RkSk1/2.
Tabel 1 Kombinasi data simulasi Jarak Ukuran data
(nk)
Ragam Korelasi Kasus
5
a. Menentukan matriks othogonal U yang kolom-kolomnya merupakan vektor ciri dari matriks T.
U = [eu1, eu2, …, eup]
b. Menentukan matriks orthogonal V yang kolom-kolomnya merupakan vektor ciri dari matriksT.
V = [ev1, ev2, …, evp]
c. Menentukan matriks diagonal D yang unsur-unsur diagonalnya merupakan akar ciri dari matriks .
D = diag[λ1, λ2, …,λp]
5. Menentukan matriks Q yang diperoleh dari hasil dekomposisi pada langkah 4 dengan formula:
Q=UD1/2VT
6. Membangkitkan peubah acak normal ganda G1 sebanyak n1 untuk gerombol
1, dengan G1 ~ Np(µ1,1) dengan rumus:
G1=Z1Q+1µT
7. Membangkitkan peubah acak normal ganda G2 sebanyak n2 untuk gerombol
2, dengan G2 ~ Np(µ2,2) dengan rumus:
G2=Z2Q+1µT
8. Membangkitkan peubah acak normal ganda G3 sebanyak n3 untuk gerombol
3, dengan G3 ~ Np(µ3,3) dengan rumus:
G3=Z3Q+1µT
9. Menggabungkan ketiga gerombol tersebut menjadi sebuah kasus simulasi. 10.Ulangi tahap 2 – 9 untuk kondisi penggerombolan yang telah ditentukan.
Data Sekunder
Data sekunder yang digunakan dalam penelitian ini berupa dokumentasi tertulis dari data Potensi Desa (Podes) yang diperoleh dari BPS untuk Provinsi Bengkulu tahun 2011. Indikator yang digunakan untuk melihat kelengkapan fasilitas dan sarana prasarana yang terdapat di desa disajikan pada Tabel 2.
6
Tabel 2 Indikator demografi dan fasilitas sarana prasarana yang terdapat di desa
Faktor Indikator Satuan
Kependudukan dan ketenagakerjaan
X1 Jumlah Keluarga Keluarga
X2 Jumlah Keluarga Tani Keluarga
X3 Jumlah Keluarga Buruh Tani Keluarga
X4 Jumlah Warga yang Bekerja sebagai TKI Orang
Perumahan dan Lingkungan
Hidup
X5 Jumlah Keluarga Pengguna Listrik Keluarga
Pendidikan dan Kesehatan
X6 Jumlah Fasilitas Pendidikan Unit
X7 Jumlah Sarana Kesehatan Unit
X8 Jumlah Tenaga Kesehatan Orang
X9 Jumlah Penderita Wabah Penyakit Orang
X10 Jumlah Penderita Gizi Buruk Orang X13 Jumlah Warga Penerima JAMKESMAS Orang
Ekonomi X14 Jumlah Industri Kecil dan Mikro Unit
Metode Analisis
Metode penelitian dibagi ke dalam beberapa tahapan yang dilakukan berkaitan dengan tujuan penelitian yaitu eksplorasi dan deskriptif data bangkitan, analisis gerombol dengan modifikasi pemilihan titik pusat dari k-rataan dan metode k-k-rataan, serta analisis tingkat kebaikan klasifikasi pada masing-masing metode penggerombolan.
1. Eksplorasi data
Membuat plot dua komponen utama pada setiap kasus simulasi, guna melihat pola data dan mengidentifikasi penggerombolan objek. Selain itu, juga untuk menunjukkan sebaran data bangkitan, tingkat kekonsistenan rataan, korelasi, dan ragam-peragam data bangkitan.
2. Penggerombolan dengan metode k-rataan
Penggerombolan data dengan menggunakan metode k-rataan dengan langkah-langkah (Mattjik dan Sumertajaya 2011):
i. Menentukan sebanyak gerombol yang ingin dibentuk sebagai titik pusat awal secara acak dari keseluruhan pengamatan.
7
p = banyaknya peubah yang diamati
iii. Menghitung kembali pusat gerombol dengan keanggotaan gerombol yang baru. Pusat gerombol merupakan rata-rata dari seluruh data dalam gerombol tertentu.
iv. Menugaskan kembali setiap objek dengan menggunakan pusat gerombol yang baru. Jika pusat gerombol sudah tidak berubah lagi, maka proses penggerombolan selesai. Atau kembali lagi ke langkah iii sampai pusat gerombol tidak berubah.
3. Penggerombolan data dengan menggunakan metode modifikasi pemilihan titik pusat awal darik-rataan terdiri dari dua tahapan (Sujatha dan Sona 2013):
a. Tahap 1: menentukan titik pusat awal gerombol dengan menggunakan algoritma 1.
Masukkan:
L = {l1, l2,…, ln} (titik pengamatan sejumlah n)
k = jumlah gerombol yang ingin dibentuk. n = banyaknya pengamatan.
Hasil: titik pusat untuk setiap gerombol. Proses:
1. Menentukan jumlah gerombol k yang ingin dibentuk sebanyak Am (1<=m<=k).
2. Memilih anggota dari A1 dari L.
3. Menghitung jarak masing-masing titik pengamatan terhadap keseluruhan pengamatan di L dengan menggunakan jarak Euclid.
4. Menempatkan sepasang titik dari L ke dalam anggota dari A1,
keluarkan pasangan titik dengan jarak terdekat tersebut dari L. 5. Menghitung kembali jarak antar masing-masing pengamatan di
L terhadap anggota dari A1, kemudian memilih titik
pengamatan kembali yang menghasilkan jarak terdekat. Perhitungan dalam penentuan anggota dari A1 akan berhenti
saat A1 berjumlah 0,75*(n/k).
6. Jika m<k, maka proses perhitungan dilakukan kembali menggunakan langkah 2-5 dengan menggunakan sisa pengamatan dari L.
7. Menentukan nilai titik pusat awal berdasarkan rata-rata aritmetik untuk setiap Am.
8
Algoritma 2 ini memiliki konsep perhitungan yang sama dengan konsep gerombol k-rataan, yang membedakan algoritma 2 menggunakan algoritma 1 dalam penentuan pemilihan titik pusat awal, sedangkan konsep gerombol k-rataan menetapkan titik pusat awal secara acak dari D.
Masukkan:
1. Menghitung jarak Euclid untuk masing-masing titik pengamatan di (1<=i<=n) terhadap semua titik pusat cj
(1<=j<=k) sebagai d(li,cj).
2. Menentukan titik pengamatan yang merupakan anggota gerombol j, berdasarkan jarak terdekat terhadap titik pusat cj.
3. Menentukan anggota dari gerombol ke-j.
4. Menentukan titik pengamatan dalam suatu gerombol berdasarkan jarak terdekat d(li,cj).
5. Untuk masing-masing gerombol j (1<=j<=k), menghitung kembali titik pusat.
6. Menghitung kembali jarak untuk masing-masing titik pengamatan di,
7.1.Menghitung jarak dari titik pusat menuju gerombol terdekat.
7.2.Jika jarak kecil dari atau sama dengan jarak perhitungan sebelumnya, maka titik pengamatan tetap berada pada gerombol yang sama.
7.2.1. Untuk setiap titik pusat cj (1<=j<=k) hitung jarak
d(li,cj).
7.2.2. Menentukan titik pengamatan di gerombol dengan
cj menuju titik pusat terdekat.
7.2.3. Menentukan anggota dari gerombol ke-j. 7.2.4. Menentukan kembali jarak terdekat d(di,cj).
8. Untuk setiap gerombol j (1<=j<=k), hitung kembali titik pusat sampai tidak ada lagi anggota dari gerombol yang berpindah. 4. Membandingkan hasil pengerombolan k-rataan dan metode modifikasi
pemilihan titik pusat awal dari k-rataan, dengan cara menghitung jumlah iterasi yang diperlukan sampai anggota dari masing-masing gerombol tidak ada lagi yang berpindah (konvergen), dan menghitung persentase kebaikan hasil penggerombolan dari setiap kasus.
9
Penerapan Metode Modifikasi Pemilihan Titik Pusat Awal dari K-Rataan pada Data Sekunder
Penerapan metode modifikasi ini terdiri atas tiga tahap yaitu:
1. Menstandarisasikan gugus peubah data potensi desa di Provinsi Bengkulu. 2. Menerapkan metode analisis gerombol k-rataan yang telah dimodifikasi
dengan menggunakan software Matlab 2010a.
3. Interpretasi dan eksplorasi hasil penggerombolan yang terbentuk dari hasil penggeromboloan metode modifikasi dari k-rataan.
3 HASIL DAN PEMBAHASAN
Eksplorasi Data Hasil Bangkitan
Data yang dibangkitkan terdiri dari 36 kasus data simulasi, dengan setiap kasus data simulasi terdiri dari tiga gerombol. Kasus data simulasi tersebut dibedakan atas jarak antar pusat gerombol, ragam setiap peubah pada setiap gerombol, nilai korelasi, dan banyak data. Data simulasi yang telah dibangkitkan menggunakan metode SVD kemudian dilakukan pemeriksaan kembali untuk melihat kesesuaian hasil bangkitan data, dengan setiap kasus yang ditetapkan pada data tersebut. Berdasarkan hasil pemeriksaan data simulasi mempunyai sebaran, nilai rataan, korelasi, dan ragam-peragam yang konsisten dengan nilai yang ditetapkan sebelumnya.
Berdasarkan plot skor dua komponen utama yang dihasilkan untuk setiap kasus simulasi, dapat diketahui kondisi yang terbentuk dari ketiga gerombol yang dibangkitkan. Terdapat tiga macam kondisi yang terbentuk dari ketiga gerombol yang dibangkitkan dalam simulasi. Tiga kondisi yang dilihat yaitu pertama jarak titik pusat yang berdekatan antar gerombol, kemudian jarak antar titik pusat antar gerombol sedang, serta jarak antar titik pusat gerombol yang berjauhan. Pengaruh korelasi dan ragam juga dilihat pada setiap kondisi data simulasi.
Kondisi Jarak antar Pusat Gerombol Dekat
Kondisi jarak antar pusat gerombol dekat dapat diartikan bahwa setiap gerombol yang terbentuk terpisah dalam jarak yang relatif dekat. Berikut contoh plot dua komponen utama hasil klasifikasi pada berbagai tingkat korelasi mulai dari tidak ada korelasi, korelasi rendah, sedang dan tinggi dengan jumlah amatan untuk tiap gerombol 100, dapat dilihat pada Gambar 1, 2, dan 3.
10
gerombol dapat terpisah dengan jelas. Ukuran korelasi antar peubah berpengaruh pada kondisi ini.
Gambar 1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam kecil tidak ada korelasi, (b) ragam kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil korelasi tinggi.
Kasus simulasi dengan kondisi jarak antar setiap gerombol dekat dan ragam setiap peubah kecil, menghasilkan gerombol yang terpisah secara tegas. Hal ini disebabkan karena besarnya ragam setiap peubah besar mempengaruhi pola penyebaran amatan yang menyebar disekitar rataan, sehingga jika jarak antar pusat gerombol dekat maka ketiga gerombol akan terpisah. Ukuran korelasi yang semakin besar antar peubah akan menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol.
Guna melihat perbandingan tingkat kebaikan klasifikasi yang dihasilkan pada kasus jarak antar pusat gerombol dekat melalui metode modifikasi pemilihan titik pusat dari k-rataan dan metode k-rataan secara lengkap dapat dilihat pada Lampiran 4. Hasil penggerombolan ini dilakukan dengan jumlah gerombol n=300, 900, dan 1500. Setiap kasus hanya dilakukan satu kali ulangan. Hasil yang diperoleh dari perbandingan tingkat kebaikan klasifikasi pada kedua metode pada Lampiran 4 menghasilkan tingkat kebaikan yang tidak jauh berbeda atau dapat dikatakan bahwa kedua metode memiliki tingkat kebaikan klasifikasi yang sama untuk kasus jarak antar gerombol dekat.
(c) (d)
11
Gambar 2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam sedang korelasi tinggi.
Gambar 2 memperlihatkan kasus simulasi dengan kondisi jarak antar setiap gerombol dekat dan ragam setiap peubah sedang, menghasilkan satu gerombol. Hal ini disebabkan karena besarnya ragam setiap peubah besar mempengaruhi pola penyebaran amatan yang menyebar jauh dari rataan, sehingga jika jarak antar pusat gerombol dekat maka ketiga gerombol akan tumpang tindih. Ukuran korelasi yang semakin besar antar peubah akan menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol.
Gambar 3 memperlihatkan kasus simulasi dengan kondisi jarak antar setiap gerombol dekat dan ragam setiap peubah besar. Korelasi antar peubah rendah dan jarak antar pusat gerombol dekat menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol sehingga menghasilkan satu gerombol, sebaliknya pada kondisi korelasi antar peubah tinggi dan jarak antar pusat gerombol dekat menyebabkan amatan menyebar sesuai dengan titik pusat masing-masing gerombol sehingga menghasilkan tiga gerombol. Dimensi pengamatan akan berpengaruh dalam hasil plot untuk skor dua komponen, semakin besar dimensi maka plot skor komponen akan sulit menunjukkan hasil gerombol sebenarnya dapat terbentuk karena keterbatasan software dalam menyajikan apabila dimensi data lebih dari dua.
(a) (b)
12
Gambar 3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol dekat (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar korelasi tinggi.
Kasus simulasi dengan kondisi jarak antar setiap gerombol dekat dan ragam setiap peubah besar, menghasilkan gerombol yang saling tumpang tindih. Hal ini disebabkan karena besarnya ragam setiap peubah besar mempengaruhi pola penyebaran amatan yang menyebar jauh disekitar rataan, sehingga jika jarak antar pusat gerombol dekat maka ketiga gerombol akan tumpang tindih. Ukuran korelasi yang semakin besar antar peubah akan menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol.
Tabel 3 memperlihatkan bahwa jumlah iterasi yang dibutuhkan oleh kedua metode sangat berbeda jauh. Hal ini tentunya sangat mempengaruhi waktu yang digunakan dalam proses penggerombolan. Metode modifikasi pemilihan titik pusat awal jauh lebih unggul bila dilihat dari perbandingan jumlah proses iterasi pada penerapan untuk berbagai kasus dengan ukuran data yang berbeda, yaitu n=300, 900, dan 1500.
(a) (b)
13 Tabel 3 Perbandingan jumlah iterasi pada jarak antar pusat gerombol dekat
Data tidak mempengaruhi jumlah iterasi pada kedua metode. Jumlah iterasi juga dipengaruhi oleh besarnya keragaman. Semakin besar ukuran keragaman yang dicobakan maka semakin besar jumlah iterasi pada kedua metode. Hal ini karena pola penyebaran data membuat amatan akan menyebar jauh dari rataan. Ukuran korelasi yang besar menghasilkan jumlah iterasi pada kedua metode lebih kecil, karena penyebaran data mengumpul disekitar pusat gerombol.
Kondisi Jarak antar Pusat Gerombol Sedang
Kondisi jarak antar pusat gerombol sedang dapat diartikan bahwa setiap gerombol yang terbentuk terpisah dalam jarak relatif sedang. Berikut contoh plot dua komponen utama hasil klasifikasi pada berbagai tingkat korelasi mulai dari tidak ada korelasi, korelasi rendah, sedang dan tinggi dengan jumlah amatan untuk tiap gerombol 100.
14
Gambar 4 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam kecil tidak ada korelasi, (b) ragam kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil korelasi tinggi.
Gambar 4 memperlihatkan kasus simulasi dengan kondisi jarak antar setiap gerombol sedang, ragam setiap peubah kecil akan menghasilkan tiga gerombol. Jika ragam setiap peubah untuk setiap gerombol kecil, amatan dapat dipisahkan sesuai dengan gerombol masing-masing. Ukuran korelasi yang tinggi menyebabkan amatan dapat terpisah dengan jelas sesuai dengan gerombolnya.
Kasus simulasi dengan kondisi jarak antar setiap gerombol sedang dan ragam setiap peubah kecil, menghasilkan gerombol yang saling tepisah. Hal ini disebabkan karena besarnya ragam setiap peubah besar mempengaruhi pola penyebaran amatan yang menyebar dekat disekitar rataan, sehingga jika jarak antar pusat gerombol sedang maka ketiga gerombol akan terpisah. Ukuran korelasi yang semakin besar antar peubah akan menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol.
(a) (b)
15
Gambar 5 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam sedang korelasi tinggi.
Gambar 5 memperlihatkan kasus simulasi dengan kondisi ragam setiap peubah untuk setiap gerombol sedang, ukuran korelasi memiliki pengaruh yang besar dalam pemisahan gerombol, semakin tinggi korelasi maka gerombol yang terbentuk semakin terpisah sesuai dengan gerombolnya.
Kasus simulasi dengan kondisi jarak antar setiap gerombol sedang dan ragam setiap peubah sedang, menghasilkan gerombol yang saling tumpang tindih. Hal ini disebabkan karena besarnya ragam setiap peubah besar mempengaruhi pola penyebaran amatan yang menyebar jauh disekitar rataan, sehingga jika jarak antar pusat gerombol sedang maka ketiga gerombol akan tumpang tindih. Ukuran korelasi yang semakin besar antar peubah akan menyebabkan amatan menyebar dekat dengan rataan dari ketiga gerombol.
(a) (b)
16
Gambar 6 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol sedang (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar korelasi tinggi.
Gambar 6 memperlihatkan kasus simulasi dengan kondisi jarak sedang, ragam yang besar, korelasi yang digunakan rendah maka akan dihasilkan satu gerombol dikarenakan amatan menyebar dekat dengan pusat gerombol sehingga membuat amatan saling tumpang tindih, sebaliknya jika ukuran korelasi yang digunakan tinggi maka akan dihasilkan tiga gerombol dikarenakan amatan menyebar dekat dengan pusat gerombol masing–masing, sehingga walaupun kondisi yang terbentuk saling tumpang tindih amatan dapat terpisah sesuai dengan gerombolnya.
Tabel 4 di bawah ini memperlihatkan bahwa jumlah iterasi yang dibutuhkan oleh kedua metode sangat berbeda jauh. Hal ini tentunya sangat mempengaruhi waktu yang digunakan dalam proses penggerombolan. Metode modifikasi pemilihan titik pusat awal jauh lebih unggul bila dilihat dari perbandingan jumlah proses iterasi pada penerapan untuk berbagai kasus dengan ukuran data yang berbeda, yaitu n=300, 900, dan 1500.
(a) (b)
17 Tabel 4 Perbandingan jumlah iterasi pada jarak antar pusat gerombol sedang
Data tidak mempengaruhi jumlah iterasi pada kedua metode. Jumlah iterasi juga dipengaruhi oleh besarnya keragaman. Semakin besar ukuran keragaman yang dicobakan maka semakin besar jumlah iterasi pada kedua metode. Hal ini karena pola penyebaran data membuat amatan akan menyebar jauh dari rataan. Ukuran korelasi yang besar menghasilkan jumlah iterasi pada kedua metode lebih kecil, karena penyebaran data mengumpul disekitar pusat gerombol.
Kondisi Jarak antar Pusat Gerombol Jauh
Kondisi jarak antar pusat gerombol jauh dapat diartikan bahwa setiap gerombol yang terbentuk terpisah dalam jarak relatif jauh. Plot skor dua komponen utama untuk n=300 yang dibuat pada satu kali ulangan dengan jarak antar gerombol berjauhan dan keragaman yang ditetapkan kecil, serta ukuran korelasi yang berbeda dan semakin meningkat, secara lengkap dapat dilihat pada Lampiran 1. Plot skor komponen utama untuk jarak antar gerombol jauh, keragaman sedang serta ukuran korelasi yang semakin meningkat, secara lengkap dapat dilihat pada Lampiran 2. Kondisi jarak yang antar pusat gerombol jauh ini juga diterapkan untuk kondisi keragaman yang besar serta ukuran korelasi yang semakin meningkat, plot skor dua komponen utama pada kasus ini dapat dilihat pada Lampiran 3.
Guna melihat perbandingan tingkat kebaikan klasifikasi yang dihasilkan pada kasus jarak antar pusat gerombol jauh melalui metode modifikasi pemilihan titik pusat dari k-rataan dan metode k-rataan secara lengkap dapat dilihat pada Lampiran 6. Hasil penggerombolan ini dilakukan dengan jumlah gerombol n=300, 900, dan 1500. Setiap kasus hanya dilakukan satu kali ulangan. Hasil yang diperoleh dari perbandingan tingkat kebaikan klasifikasi pada kedua metode pada Lampiran 6 menghasilkan tingkat kebaikan yang tidak jauh berbeda atau dapat dikatakan bahwa kedua metode memiliki tingkat kebaikan klasifikasi yang sama untuk kasus jarak antar gerombol jauh.
18
berbeda jauh, hal ini tentunya sangat mempengaruhi waktu yang digunakan dalam proses penggerombolan. Hasil perbandingan jumlah iterasi yang diperoleh pada kondisi jarak antar pusat gerombol jauh sama halnya dengan hasil jumlah iterasi yang diperoleh pada kondisi jarak antar pusat gerombol dekat dan sedang. Dengan demikian semakin jauh jarak antar pusat gerombol maka pada kondisi ragam kecil akan menghasilkan tiga gerombol yang terpisah dengan jelas. Ukuran korelasi yang tinggi menyebabkan amatan dapat terpisah dengan jelas sesuai dengan gerombolnya.
Tabel 5 Perbandingan jumlah iterasi pada jarak antar pusat gerombol jauh Data
Metode modifikasi pemilihan titik pusat awal dilihat dari perbandingan jumlah proses iterasi jauh lebih unggul pada penerapan untuk berbagai kasus jarak antara pusat gerombol jauh, dan berbagai ukuran data (kecil, sedang, besar), dan juga pada ukuran korelasi. Besarnya keragaman yang mempengaruhi pola penyebaran data sehingga membuat amatan akan menyebar jauh dari rataan, jika jarak antar pusat gerombol dekat maka ketiga gerombol akan tumpang tindih, hal ini mempengaruhi jumlah iterasi dari metode metode modifikasi pemilihan titik pusat awal dari k-rataan. Jumlah iterasi akan semakin meningkat apabila penyebaran data semakin acak.
Penerapan Metode Modifikasi Titik Pusat pada K-Rataan pada Data Sekunder
19 antar peubah, skor komponen yang telah diperoleh selanjutnya digunakan untuk proses penggerombolan.
Tabel 6 Nilai koefisien korelasi antar peubah
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14
Pada Tabel 6 di bawah ini, terdapat peubah yang memiliki korelasi tinggi, yaitu peubah X1 (jumlah penduduk), dengan X5 (keluarga pengguna listrik). Ini
menunjukkan bahwa peubah tersebut memiliki hubungan yang kuat, dan memiliki pengaruh yang sama.
Hasil Penggerombolan Desa dengan Metode Modifikasi Titik Pusat K-Rataan
Hasil penggorombolan data potensi desa di Provinsi Bengkulu ini telah ditetapkan sebelumnya. Jumlah gerombol yang akan terbentuk ini berdasarkan kemiripan karakteristik dalam suatu gerombol dengan menggunakan ukuran jarak Euclid. Penggerombolan dengan konsep k-rataan ini. Adapun ekplorasi peubah-peubah tiap gerombol sebagai berikut:
20
Tabel 7 Eksplorasi peubah tiap gerombol
Gerombol 1 Gerombol 2 Gerombol 3
rataan simp baku rataan simp baku rataan simp baku
X1 204.1 103.5 510.0 200.0 1556.1 869.0 yang ada di Provinsi Bengkulu. Kelompok ini anggotanya terdiri dari desa yang terdapat di kabupaten Bengkulu, Bengkulu Selatan, Bengkulu Tengah, Bengkulu Utara, Kaur, Kepahiang, Lebong, Mukomuko, Rejang Lebong, dan Seluma. Gerombol ini tergolong memiliki sarana dan prasarana yang kurang memadai. Berdasarkan aspek kependudukan dan ketenagakerjaan terlihat bahwa pekerjaan penduduk di gerombol ini adalah sebagai buruh tani, dan pada aspek pendidikan dan sarana kesehatan yang jauh lebih sedikit dibandingkan gerombol lainnya, sehingga berdampak pada aspek kesehatan, gerombol ini memiliki proporsi penderita wabah penyakit, jumlah kematian balita dan jumlah penderita gizi buruk yang paling besar dibandingkan gerombol lainnya.
21
4 SIMPULAN DAN SARAN
Simpulan
Metode dengan memodifikasi pemilihan titik pusat awal pada k-rataan ini dibagi dalam dua tahapan, tahap pertama digunakan untuk menentukan titik pusat awal, dan tahapan kedua digunakan untuk menentukan anggota dari masing-masing gerombol. Perbedaan mendasar antara metode k-rataan dengan metode modifikasi pemilihan titik pusat awal adalah pada pemilihan titik pusat awal, metode k-rataan memlilih titik pusat secara acak, sedangkan metode modifikasi memilih titik pusat awal dengan menggunakan tahap pertama. Modifikasi dari metode k-rataan jauh lebih unggul dibandingkan dengan metode k-rataan berdasarkan jumlah iterasi yang terbentuk, sehingga waktu komputasi relatif lebih cepat dalam hasil penggerombolan dibandingkan dengan metode k-rataan.
Hasil penggerombolan data dengan metode modifikasi ini ditentukan secara subjektif, dan berdasarkan tujuan penggerombolan yang menggunakan data potensi desa, dalam melihat kelengkapan sarana dan prasarana di desa pada Provinsi Bengkulu. Penggerombolan ini ditetapkan menjadi tiga gerombol, yaitu desa yang memiliki sarana dan prasarana yang memadai, gerombol yang anggotanya adalah desa dengan sarana dan prasarana yang kurang memadai, dan gerombol ketiga beranggotakan desa memiliki sarana prasarana cukup memadai.
Saran
22
DAFTAR PUSTAKA
Andayani S. 2007. Pembentukan Cluster dalam Knowledge Discovery in Database dengan Algoritma K-Means [Internet]. [diunduh 2013 Feb 1].
Tersedia pada:
http://staff.uny.ac.id/Pembentukan/cluster/dlm/KDD/dgn/Algoritma/kmeans .pdf.
Anggriyani IR. 2011. Kajian Analisis Gerombol Berbasis Model pada Data yang Menyebar Normal Ganda [tesis]. Bogor: Ilmu Komputer. FMIPA IPB. Anderberg MR. 1973. Cluster Analysis for Application. New York: Academic
Press.
Bhatia MPS, Khurana D. Experimental Study of Data Clustering using K-Means and Modified Algorithms. International Journal of Data Mining of Knowledge Management Process (IJDKP) Vol. 3. No. 3. 2013.
Badan Pusat Statistik. 2006. Potensi Desa. Jakarta: BPS.
Hair JF Jr, Anderson RE, Tatham RL, Black WC. 1998. Applied Multivariate Statistical Analysis. Ed ke-5. New Jersey: Prentice-Hall.
Jia YB. 2013. Singular Value Decomposition [Internet]. [diunduh 2014 Maret 1]. Tersedia pada: www.cs.iastate.edu/~cs577/handouts/svd.pdf.
Johnson RA, Wichern DW. 2007. Applied Multivariate Statistical Analysis. Ed ke-6. New Jersey: Pearson education, inc.
Mattjik AA, Sumertajaya IM. 2011. Sidik Peubah Ganda dengan Menggunakan SAS. Bogor: Departemen Statistika. FMIPA IPB.
Nazeer KAA, Sebastian MP. Improving the Accuracy and Efficiency of the K-Means Clustering Algorithm. Proceedings of the World Congress on Engineering (WCE) Vol. 1. 2009.
Su MC, Chou CH. 2001. A Modified Version of the K-Means Algorithm with A Distance Based on Cluster Symmetry. International Journal of Engineering Research & Technology (IJERT) 2278-0181.
23 Lampiran 1 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam kecil tidak ada korelasi, (b) ragam kecil korelasi rendah, (c) ragam kecil korelasi sedang, (d) ragam kecil korelasi tinggi.
(a) (b)
24
Lampiran 2 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam sedang tidak ada korelasi, (b) ragam sedang korelasi rendah, (c) ragam sedang korelasi sedang, (d) ragam sedang korelasi tinggi.
(a)
(c)
(b)
25 Lampiran 3 Plot skor dua komponen utama hasil klasifikasi pada jarak antar pusat gerombol jauh (a) ragam besar tidak ada korelasi, (b) ragam besar korelasi rendah, (c) ragam besar korelasi sedang, (d) ragam besar korelasi tinggi.
(b) (a)
26
Lampiran 4 Perbandingan tingkat kebaikan klasifikasi pada jarak antar pusat gerombol dekat
27
28