ANALISIS KELOMPOK DENGAN ALGORITMA
FUZZY C-MEANS
DAN
GATH-GEVA CLUSTERING
Studi Kasus Pengelompokkan Desa/Kelurahan di Kabupaten
Kutai Kartanegara
Oleh
Rudy Ramadani Syoer NRP: 1310 201 704
Pembimbing : Dr. Muhammad Mashuri, MT
Program Studi Magister - Jurusan Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Teknologi Sepuluh Nopember Surabaya, 19 Desember 2011
OUTLINE
PENDAHULUAN
TINJAUAN PUSTAKA DAN DASAR TEORI
METODE PENELITIAN
HASIL DAN PEMBAHASAN
KESIMPULAN DAN SARAN
Pendahuluan
Analisis pengelompokkan atau
cluster analysis
adalah salah satu
teknik statistik multivariat untuk mengelompokkan observasi/
objek yang banyak digunakan dalam berbagai disiplin ilmu
(
Shihab, 2000
) dan penelitian (
Maxwell, Pryor and
Smith, 2002
), (
Wang
et all
., 2005
).
Fuzzy clustering
melakukan pembobotan terhadap tingkat
keanggotaan himpunan
fuzzy
-nya (Bezdek dan
Dunn, 1975), termasuk teknik ini:
Fuzzy C-means
(Bezdek, 1981),
Gustafson-Kessel
(1979) dan
Gath-Geva
(1989)
mampu mendeteksi
cluster
dalam bentuk yang berbeda-beda.
Penelitian: Kab.Kutai Kartanegara adalah salah satu kabupaten dgn
APBD terbesar dan penghasil migas terbesar tetapi memiliki
penduduk miskin tertinggi di Kaltim (Kaltim Dalam Angka 2010).
Pendahuluan
Rumusan Masalah
Perbandingan algoritma
FCM dan GG
clustering
Penentuan jumlah
cluster
yang tepat berdasarkan
indeks validitas
cluster
Rancangan aplikasi GUI
Tujuan Penelitian
Mengkaji perbandingan
hasil pengelompokkkan
dengan algoritma FCM dan
GG
clustering
Merekomendasikan jumlah
cluster
yang tepat
berdasarkan indeks
validitas
cluster
sehingga
dapat mengelompokkkan
wilayah desa/kelurahan di
Kab. Kutai Kartanegara
Membangun aplikasi GUI
untuk FCM dan GG
Data:
X=kumpulan vektor pengamatan dimana: N=Jumlah objek penelitian
n=Jumlah variabel penelitian
Cluster: sekelompok objek yang lebih “mirip” satu sama lain daripada anggota cluster lainnya
→ kemiripan merupakan fundamen dalam definisi cluster → penetapan “ukuran kemiripan”
berupa norma jarak antara dua pola yaitu bentuk vektor data dengan objek cluster → belum
diketahui, dicari dengan algoritma cluster
Matlab → defaultnya Euclidean (bentuk spherical),
bentuk lain dengan norma jarak : Mahalanobis → non spherical (hyperellipsoidal)
Partisi Cluster:
Hard Partition(Partisi Keras): didefinisikan sebagai keluarga himpunan bagian, yang
sifat-sifatnya sebagai berikut: Nilai derajat keanggotaan, uik, adalah 0 atau 1, data secara tegas dinyatakan sebagai anggota clusteryang satu dan tidak menjadi anggota cluster lainnya.
Fuzzy Partition (Partisi Lunak): masing-masing data item diberikan nilai kemungkinan untuk bisa
bergabung ke setiap cluster yang ada, yang memungkinkan uikmencapai nilai riil [0,1].
KAJIAN PUSTAKA
11 12 1 21 22 2 1 2 n n N N Nn x x x x x x x x x X = 2 2 1 1 , c c ik k i k i k i i i x v
x v
x v D D
0,1 , 1 , 1 , ik i c k N u 1 1 0,1, 1, 1 , 0 1, 1 , 2 , c N ik ik ik i k k N N i c c N
u u u5
FCM
clustering:
Didasarkan pada konsep fuzzy (Zadeh, 1965)
diusulkan oleh Dunn (1974) dan dikembangkan oleh
Bezdek (1981)
mengalokasikan kembali data ke dalam
masing-masing cluster
dengan cara fuzzy
memperkenalkan suatu variabel m yang merupakan
weighting exponent dari membership function
KAJIAN PUSTAKA
KAJIAN PUSTAKA :
Algoritma FCM
clustering
1.
Menentukan inisial jumlah
cluster
, misalkan
c.
2.
Inisiasi U awal secara random
dan menghitung
centroid
:
3.
Menghitung
distance measure
.
4.
Menghitung nilai fungsi keanggotaan
data di masing-masing
cluster
dan
hitung
centroid
baru:
5.
Kembali ke langkah 2, apabila perubahan nilai fungsi keanggotaan
data masih di atas nilai
threshold
(
ε
), atau perubahan nilai fungsi
objektif masih di atas nilai
threshold
yang ditentukan (
ε
). Nilai
threshold
adalah suatu nilai yang sangat kecil mendekati 0 (misal
0,000001).
GG
clustering
:
Pertama kali diusulkan oleh Bezdek dan Dunn
(1975), kemudian Gath dan Geva (1989) meneliti
lebih lanjut bahwa algoritma ini mampu mendeteksi
cluster
dari berbagai bentuk, ukuran dan kepadatan
Algoritma
fuzzy clustering
ini menggunakan norma
jarak
fuzzy maximum likelihood estimates
(FMLE).
Berbeda dengan algoritma
Gustafson-Kessel
(GK), norma jarak ini melibatkan aspek eksponensial
menurunkan lebih cepat norma dalam
produk, sehingga partisi menjadi lebih
fuzzy
KAJIAN PUSTAKA
1.
Menentukan inisial jumlah
cluster
, misalkan
c.
2.
Inisiasi U awal secara random
dan menghitung
centroid
:
3.
Menghitung
distance measure
.
4.
Menghitung nilai fungsi keanggotaan
data di masing-masing
cluster
dan
hitung
centroid
baru:
5.
Kembali ke langkah 2, apabila perubahan nilai fungsi keanggotaan
data masih di atas nilai
threshold
(
ε
), atau perubahan nilai fungsi
objektif masih di atas nilai
threshold
yang ditentukan (
ε
). Nilai
threshold
adalah suatu nilai yang sangat kecil mendekati 0 (misal
0,000001).
( / 2) 2 (2 ) det 1 exp 1/ 2 T wi ik k i wi k i i F F
x v x v DKAJIAN PUSTAKA :
Algoritma GG
clustering
9
Indeks Validitas
Cluster :
Kriteria untuk menentukan jumlah
cluster
yang optimal dapat
menggunakan indeks validitas
cluster
(Abonyi dan Feil, 2007)
Bezdek (1974) menyarankan dua indeks validitas
cluster
untuk
fuzzy
clustering
, yaitu
partition coefficient
(PC)
dan
classification entropy
(CE) yang
didefinisikan sebagai berikut:
Partition Index
(PI): untuk membandingkan hasil pengelompokkan
di mana setiap kelompok memiliki banyak objek yang sama.
Kelompok yang optimum diberikan oleh nilai PI yang
minimum, sebagai berikut:
2 1 11
( )
c N ik i kPC c
u
N
1 1 1 ( ) log c N ik ik i k CE c u u N
2 1 2 1 1 , ( ) , N m ik ik k i c k c i i i j i u PI c N
x v v v DKAJIAN PUSTAKA
10
KAJIAN PUSTAKA
Berbeda dengan
partition index
,
separation index
(SI) menggunakan minimum
jarak antar pusat
cluster
. Kriteria yang diberikan adalah sama, yaitu banyaknya
kelompok yang optimum diberikan oleh nilai
SI yang minimum, sebagai berikut:
Xie and Beni (1991). Indeks ini bertujuan mengukur rasio dari total variasi dalam
cluster
dan pemisahan
cluster
. Jumlah optimal dari
cluster
dengan meminimalkan
nilai indeks. Formulanya mirip dengan
separation index
, hanya saja nilai
m
dapat
berubah-ubah. Indeks ini direkomendasikan oleh Duo, dkk (2007) karena dianggap
memiliki ketepatan dan keandalan yang cukup tinggi
pada metode
hard
maupun
fuzzy partition
.
Indeks Dunn (DI). Indeks ini, asalnya diusulkan untuk mengidentifikasi
kekompakan dan pemisahan
cluster
, sehingga hasil dari
cluster
dapat dihitung
kembali sebagai algoritma partisi keras.
Formulanya adalah sebagai berikut:
2 2 1 1 2 , 1 , ( ) min , c N ik ik k i i k c i k k i i u SI c N
x v v v D 2 1 1 2 , , ( ) min , c N m ik ik k i i k i k k i u XB c N
x v v v D
,
, , min ( , ) ( ) min min max max ( , ) i j x C y C i c j c i j k c x y C d x y DI c d x y 11
Analisis Faktor
Analisis faktor merupakan salah satu teknik statistik untuk
menyederhanakan deskripsi dari suatu set data (variabel) yang banyak dan
saling berkorelasi menjadi set data yang ringkas dan tidak lagi berkorelasi.
Analisis ini berguna untuk meneliti keterkaitan peubah-peubah dalam satu
set data. Analisis faktor pada dasarnya bertujuan untuk mendapatkan
sejumlah kecil faktor (Johnson and Wichern, 2007), notasi dalam matriks
ditulis sbb:
Menurut Kaiser dalam Morrison (1978), syarat untuk dapat melakukan
analisis faktor adalah data dari peubah-peubah yang dianalisis harus
memiliki nilai statistik
Kaiser-Meyer-Olkin
(KMO) minimal sebesar 0,5.
Seringkali variabel memiliki nilai yang hampir sama dan nampak tidak
mempunyai korelasi dengan faktor manapun, sehingga dilakukan suatu rotasi
sampai struktur yang lebih sederhana diperoleh, dengan cara merotasi
matriks
loading
yaitu antara lain dengan: rotasi
orthogonal varimax
yaitu
rotasi yang menyederhanakan kolom dalam matriks faktor.
KAJIAN PUSTAKA
( x ) ( x1) ( x1) ( x1)p p m m p X L F 12
Fuzzy
Toolbox
dan Aplikasi GUI
Perangkat lunak Matlab dapat digunakan sebagai alat bantu untuk
pembuatan program aplikasi berupa
toolbox
dan semacamnya menggunakan
bantuan
Mathworks toolbox
.
Perangkat lunak Matlab juga mendukung
Graphical User Interface
(GUI)
dengan modul yang dimilikinya yaitu GUI Builer atau GUIDE.
Berdasarkan
Matworks Toolbox
yang dapat diundah secara gratis pada
laman Matlab yang lebih dikenal sebagai MATLAB CENTRAL yang
merupakan situs resmi dari The MathWorks Inc., produsen pembuat
software
Matlab, menyediakan berbagai
toolbox
yang berkaitan dengan
metode
clustering
dan dapat dipergunakan untuk analisis penglompokkan
menggunakan bermacam-macam algoritma yang berbeda-beda seperi
K-means
,
K-medoid
,
Fuzzy C-means
(FCM),
Gustafson-Kessel
(GK), dan
Gath-Geva
(GG) termasuk pula
cluster validity
-nya.
Penggunaan algoritma FCM dan GG dalam tulisan ini, didasarkan pada
Clustering and Data Analysis Toolbox
yang diterbitkan oleh Janos
Abonyi dkk. pada April 2005 (Abonyi, J., Feil, B., dan Balasko, B., 2005).
KAJIAN PUSTAKA
Metode Penelitian
Skrip Matlab (
Pure Script
):
Menjalankan skrip Matlab secara langsung. Cara ini terdiri dari beberapa kumpulan
m-files
sebagai berikut:
FCMcall.m
,
FCMclust.m
,
Data_normalize.m
,
Clusteval.m
,
Validity.m
,
GGcall.m
,
GGcl
ust.m
, dan
Grouping.m
, untuk mengelompokkan matriks U sehingga dapat digunakan
untuk mencari besaran rasio S
W/S
B. Perintah untuk menjalankan programnya yaitu
dengan menginputkan parameter berikut ke dalam
syntax
program FCMcall (untuk
pengolahan menggunakan FCM) atau GGcall (untuk pengolahan menggunkanan GG).
Misalnya jika ingin mengelompokkan objek menjadi 5
cluster
, maka pada baris
program dapat diinputkan data beserta parameter sebagai berikut:
Aplikasi GUI menggunakan GUIDE Matlab:
ada perbedaan sedikit dalam pembuatan
m-files
maupun modifikasinya untuk pogram
aplikasi GUI karena menggunakan interface yang berbeda yaitu dengan menggunakan
file figure.
KAJIAN PUSTAKA
Identifikasi Variabel menurut Kriteria BPS
Badan Pusat Statistik (BPS) dari tahun 1976 telah melakukan penghitungan
jumlah dan persentase penduduk miskin.
BPS melakukan penghitungan desa tertinggal sebagai proksi identifikasi
daerah kantong-kantong kemiskinan. Untuk itu, pada tahun 2003, BPS
melakukan penentuan desa-desa tertinggal.
Untuk membangun suatu model desa tertinggal diperlukan data
PODES, berdasarkan faktor penentu ketertinggalan. Faktor tersebut
selanjutnya dijabarkan berdasarkan variabel-variabel yang ada dalam data
PODES, yang diidentifikasi mencakup 45 variabel. Pemilihan dilandasi bahwa
secara substantif variabel tersebut merupakan karakteristik dan determinan
kemiskinan suatu wilayah (Mubyarto dkk (1999), Irawan, (2003), dan Word
Bank Institute (2002)).
Tidak semua data bisa diolah, karena jenis datanya bersifat kategorik .
Contoh : variabel klasifikasi desa (data kategorik) dan variabel persen
keluarga tinggal di lahan kritis (data ini tidak tersedia dalam PODES 2008).
Sehingga akhirnya, ditetapkan variabel penelitian sebanyak 21 buah.
KAJIAN PUSTAKA
Metode Penelitian
Jenis dan Sumber Data:
Data yang digunakan dalam penelitian ini adalah data hasil pendataan
Potensi Desa (PODES) di Kabupaten Kutai Kartanegara tahun 2008.
Perapihan data dilakukan dengan menggunakan
software Statistical
Package for Social Science
(SPSS)
17 for windows
dan algoritma
clustering
dibuat menggunakan
software
Matlab versi 7.8 (2009b).
Variabel Penelitian:
Pengelompokkan desa berdasarkan kondisi desa yang diharapkan mampu
menerangkan keragaman antar desa semaksimal mungkin, dapat
diidentifikasi menjadi dua faktor yaitu : 1) faktor sarana prasarana dan
akses, dan 2) faktor sosial ekonomi penduduk. Kedua faktor tersebut
selanjutnya dijabarkan berdasarkan variabel-variabel yang ada dalam
PODES 2008 dan dipilih berdasarkan pada penelitian BPS yang
menyatakan secara
substantif
karakteristik dan determinan ketertinggalan
atau kemiskinan suatu wilayah (BPS, 2005).
Metode Penelitian
Setelah diidentifikasi dan dievaluasi menjadi sebanyak 21 variabel, sebagai berikut:
X1 = Jarak dari desa ke ibukota kecamatan yang membawahi.
X2 = Ketersediaan sarana pendidikan (Jumlah SD Negeri/sederajat). X3 = Ketersediaan sarana kesehatan (Jumlah Posyandu).
X4 = Ketersediaan tenaga kesehatan (Jumlah Bidan). X5 = Persen keluarga berlangganan telepon kabel.
X6 = Industri kecil dan kerajinan rumahtangga (Industri kayu). X7 = Pasar tanpa bangunan.
X8 = Jumlah Mini market. X9 = Restoran/rumah makan.
X10 = Jumlah Toko/warung kelontong. X11 = Penginapan/motel/losmen. X12 = Jumlah Koperasi.
X13 = Kualitas bangunan rumah permanen. X14 = Persen keluarga pertanian.
X15 = Persen keluarga pengguna listrik (PLN).
X16 = Persen keluarga yang bertempat tinggal di bantaran/tepi sungai.
X17 = Persen keluarga yang bertempat tinggal di bawah jaringan Listrik tegangan tinggi (>500 KV). X18 = Persen keluarga tinggal di pemukiman kumuh.
X19 = Persen penderita gizi buruk dalam 3 tahun terakhir.
X20= Persen keluarga yang menerima kartu ASKESKIN dalam setahun Terakhir X21 = Jumlah tempat ibadah.
Metode Penelitian
Tahapan Analisis Data:
Mengkaji Hasil Pengelompokkan
a.
Perapihan data (standarisasi dan faktorisasi)
b.Menyajikan data dalam matriks ukuran
N
x
n
c.
Inputing
data dan parameter
d.
Penerapan algoritma FCM
clustering
e.
Ulangi langkah d untuk algoritma GG
clustering
Merekomendasikan Jumlah
Cluster
Optimal
a.
Menghitung nilai indeks validitas
b.Ulangi untuk
c
=3 sampai
c
maxc.
Rekomendasi jumlah kelompok optimum berdasarkan langkah a dan b
Membangun Aplikasi GUI
a.
Perancangan antarmuka untuk aplikasi FCM dan GG
b.Membuat
m-files
dan
file figure
aplikasi GUI
c.
Inputing
data dan parameter dari Aplikasi GUI
19
NAMA APLIKASI : FCM
DAN GG CLUSTERING PANEL
INPUT:panggil data, jumlah cluster, Fuzzifier, batas toleransi, maksimum iterasi DATA YANG DIGUNAKAN GRAFIK PENGELOMPOKKAN FCM HASIL PENGEL OMPOK KAN FCM MATRIKS DERAJAT KEANGGOTAAN FCM GRAFIK PENGELOMPOKKAN GG PANEL METODE: - FCM -Gath-Geva MATRIKS DERAJAT KEANGGOTAAN GG HASIL PENGEL OMPOK KAN GG GRAFIK FUNGSI OBJEKTIF GG GRAFIK FUNGSI OBJEKTIF FCM
PANEL OUTPUT1: Ukuran Hasil
Kelompok PANEL OUTPUT2: indeks validitas cluster
Tombol Keluar
Hasil dan Pembahasan
•
melalui bantuan GUI builder (GUIDE) yang ada dalam perangkat
lunak Matlab, dapat dihasilkan program aplikasi sebagai berikut:
Hasil dan Pembahasan
Cara kerja Aplikasi:
•
Setelah masuk ke Matlab, buka
m-files
“AplikasiFCMdanGG.m” lalu
jalankan program aplikasi dengan cara menekan tombol F5 atau
tombol dari Editor Toolbar Matlab.
•
Setelah muncul aplikasi, lalu tekan tombol berikut.
Maka program akan meminta memasukkan file untuk data yang
berekstensi txt (*.txt). Setelah memasukkan data, maka tabel “data”
otomatis akan berisi file txt tersebut.
Hasil dan Pembahasan
•
Selanjutnya isikan jumlah kelompok, derajat keanggotaan, batas
toleransi dan jumlah iterasi maksimal yang diinginkan, jika tidak
diisi, maka secara
default
akan berisi nilai 2, 2, 0.000001 dan 1000
sebagai berikut:
•
Kemudian tekan tombol
popupmenu
Metode Clustering untuk memilih metode
apa yang akan digunakan, misalnya dipilih
metode Gath-Geva sebagai berikut:
Hasil dan Pembahasan
•
Lalu terakhir, tekan tombol start berikut , maka tampilan
program aplikasi akan berbentuk sebagai berikut:
Hasil dan Pembahasan
•
Deskripsi dan reduksi variabel
•
Interpretasi dan Reduksi Variabel dengan Analisis Faktor:
Tabel4.2 Total Varians yang Dapat Dijelaskan•
Penentuan
Factor Score
:
Komponen Inisial Eigenvalues Total Persentase Varians Persentase Kumulatif 1 5,557 30,872 30,872 2 1,692 9,403 40,275 3 1,317 7,314 47,589 4 1,199 6,658 54,247 5 1,021 5,672 59,919 Variabel Komponen 1 2 3 4 5 X1 -0,046 -0,060 -0,158 -0,745 -0,015 X2 0,742 0,055 0,287 0,180 0,191 X3 0,651 0,332 0,234 0,367 0,122 X4 0,357 0,555 0,405 0,184 0,133 X5 0,040 0,738 0,216 0,124 -0,023 X6 0,421 0,135 0,100 -0,100 0,414 X7 0,645 0,361 -0,138 0,026 -0,060 X8 0,164 0,317 0,769 0,054 0,031 X9 0,078 0,118 0,737 0,133 -0,054 X10 0,470 0,340 0,508 0,101 0,311 X11 -0,012 0,558 0,367 -0,039 0,085 X12 0,300 0,308 -0,267 0,134 0,528 X13 0,413 0,676 -0,024 0,153 -0,036 X14 0,038 -0,512 -0,250 -0,344 -0,317 X15 0,081 0,173 0,031 0,704 0,363 X16 -0,209 -0,108 0,018 -0,559 0,376 X20 -0,016 0,046 -0,055 -0,056 -0,653 X21 0,829 -0,125 0,101 0,030 -0,002
26
Hasil dan Pembahasan
•
Rekomendasi Metode
Clustering
Terbaik
FCM
GG
Jumlah Kelompok Jumlah Iterasi Fungsi Objektif Waktu Komputasi (detik) Rasio SW/SB 2 56 5,75 0,1760 0,5695 3 49 4,92 0,2233 0,6100 4 122 4,61 0,1971 0,4706 5 62 4,19 0,2095 0,4015 6 104 4,07 0,2506 0,3818 7 223 3,86 0,2592 0,3639 8 182 3,69 0,2446 0,3518 9 561 3,61 0,3900 0,3342 10 171 3,44 0,2850 0,3027 11 219 3,47 0,3078 0,3068 12 98 3,23 0,2678 0,2389 Jumlah Kelompok Jumlah Iterasi Fungsi Objektif Waktu Komputasi (detik) Rasio SW/SB 2 75 1928,50 0,7423 0,6658 3 111 2229,50 0,8045 0,6279 4 155 2624,00 0,3845 0,3610 5 356 2402,50 0,3936 0,4196 6 96 2891,50 0,3513 0,4188 7 131 3274,80 0,4457 0,3837 8 129 3328,90 0,4758 0,4099 9 309 3425,60 1,0421 0,3154 10 107 3682,10 0,5484 0,2760 11 131 4100,20 0,6430 0,3161 12 94 3571,00 0,5914 0,264327
Hasil dan Pembahasan
•
Rekomendasi Jumlah
Cluster
Optimal:
•
Jumlah kelompok optimal umumnya ditunjukkan oleh indeks validitas
cluster
saat
mencapai kondisi nilai minimum pertama di lembah pertama yang didapatkan
(Pravitasari, 2008), (Munaf, 2011)
Tabel4.6 Nilai Indeks Validitas Clusterdengan metode FCM
•
Berdasarkan Tabel 4.6, terlihat bahwa
dengan
partition index
(PI), nilai minimal
pertama di lembah pertama sebesar 1,3526
berada pada jumlah
cluster
5
Jumlah Kelompok CE PI SI Indeks XB Indeks Dunn 2 0,4365 5,0294 0,0222 24,4015 0,0128 3 0,6285 2,3298 0,0123 4,3572 0,0191 4 0,7833 1,6448 0,0122 6,3373 0,0095 5 0,8783 1,3526 0,0093 3,9847 0,0129 6 0,9697 1,3565 0,0085 10,2942 0,0121 7 1,0535 1,2337 0,0084 3,6102 0,0121 8 1,1211 1,2234 0,0098 3,5482 0,0042 9 1,1933 1,1133 0,0084 3,5516 0,0171 10 1,2138 1,0167 0,0079 3,5698 0,0183 11 1,3000 1,1138 0,0084 4,0797 0,0138 12 1,2657 0,8305 0,0067 2,7943 0,0352 0 1 2 3 4 5 6 2 3 4 5 6 7 8 9 10 11 12 P a rti ti o n Inde x (P I) Jumlah Kelompok
28
Hasil dan Pembahasan
•
Interpretasi Hasil Pengelompokkan
• Kelompok atau cluster 1 ditandai dengan warna hijau muda, kelompok 2 ditandai oleh warna coklat
muda, kelompok 3 ditandai oleh warna merah, kelompok 4 ditandai oleh warna kuning, dan kelompok 5 ditandai dengan warna biru muda
• Dari peta wilayah desa tersebut terlihat, bahwa kelompok 1 terdiri dari ada 59 desa, kelompok 2 terdiri dari 61 desa, kelompok 3 terdiri dari 15 desa, kelompok 4 terdiri dari 56 desa dan kelompok 5 terdiri dari 36 buah desa
Hasil dan Pembahasan
•
Interpretasi Hasil Pengelompokkan
• Karakteristik kelompok dapat digambarkan melalui pusat kelompok dan rata-rata kelompoknya
Tabel4.8 Karakteristik Kelompok berdasarkan Pusat Kelompok
• Setelah dilakukan ranking
berdasarkan pusat cluster, maka kelompok 3 dengan karakteristik
factor score 1 dan 4 merupakan kelompok yang paling rendah
ranking-nya, sedangkan kelompok 5 adalah yang paling tinggi. Susunan
ranking kelompok berdasarkan pusat kelompok atau centroid-nya sbb:
Variabel
Pusat Kelompok
cluster1 cluster2 cluster3 cluster4 cluster5
factor score 1 0,3016 0,2070 0,2603 0,1454 0,5409 factor score 4 0,7574 0,5376 0,2421 0,7981 0,7415 0.3016 0.7574 2 0.2070 0.5376 4 ( ) 0.2603 0.2421 5 0.1454 0.7981 3 0.5409 0.7415 1 i ranking ranking centroid ranking ranking ranking v
30
Hasil dan Pembahasan
•
Interpretasi Hasil Pengelompokkan
Berdasarkan rankingkelompok tersebut, maka dapat diinterpretasikan karakteristik dari tiap-tiap kelompok-kelompok yang ada, yang diurutkan menurut ranking-nya sebagai berikut:
Kelompok 5 : Kelompok ini terdiri dari desa-desa yang paling maju ditinjau dari faktor sarana prasana desa dan faktor sosial ekonomi penduduknya termasuk akses di desa. Umumnya desa-desa yang ada dalam kelompok ini merupakan kategori daerah perkotaan. Kelompok ini memiliki nilai maksimum pada variabel
X2, X3, X7, X21, X1, X15, dan X16. Artinya, kelompok ini terdiri dari desa-desa yang paling maju dibanding 4 kelompok desa lainnya.
Kelompok 1 : Kelompok ini terdiri dari desa-desa yang cukup maju ditinjau dari faktor sarana prasana serta akses desa, termasuk faktor sosial ekonomi penduduknya. Kemajuan desa-desa yang ada dalam kelompok ini hampir menyamai kelompok 5, tetapi masih lebih rendah jika dibandingkan kelompok tersebut.
Kelompok 4 : adalah kelompok desa-desa yang sedang majunya, tetapi secara keseluruhan nilai faktornya masih di atas kelompok 2 dan 3.
Kelompok 2 : adalah kelompok desa-desa yang kurang maju, ditinjau dari aspek sarana prasana desa, serta akses di desa tersebut, termasuk keadaan sosial ekonomi penduduknya yang dicerminkan oleh rendahnya keluarga yang berlangganan listrik PLN dan tingginya persentase penduduk yang tinggal di bantaran sungai.
Kelompok 3 : Kelompok ini terdiri dari desa-desa yang yang memiliki ciri-ciri daerah yang paling tertinggal dibanding kelompok lainnya. Desa-desa dalam kelompok ini memiliki nilai minimum pada semua variabel. Artinya, kelompok ini terdiri dari desa-desa yang paling tidak maju dibanding 4 kelompok desa lainnya.
Hasil dan Pembahasan
KESIMPULAN DAN SARAN
Kesimpulan:
• Berdasarkan beberapa kriteria hasil pengelompokkan dari dua algoritma metode
clustering, yaitu FCM dan GG, merekomendasikan analisis kelompok menggunakan algoritma FCM clustering dalam penelitian ini.
• Kesimpulan ini diambil, karena FCM memiliki nilai yang lebih baik dibanding GG berdasarkan kriteria fungsi objektif, waktu komputasi dan rasio simpangan baku. Nilai fungsi objektif dari metode FCM jauh lebih kecil dibanding GG, begitu pula waktu komputasi FCM secara umum memerlukan waktu yang lebih singkat dibanding GG. Adapun berdasarkan nilai simpangan baku, walaupun secara rata-rata nilai FCM tidak terlalu jauh bedanya dibanding GG, tetapi FCM masih di bawah GG, hampir di seluruh pengamatan atau di semua jumlah kelompok.
• Untuk penentuan jumlah kelompok yang optimal, berdasarkan beberapa indeks validitas
cluster yang ada, disimpulkan jumlah kelompok atau cluster yang paling optimal adalah sebesar 5 kelompok.
• Pembuatan aplikasi program FCM dan GG berbasis GUI cukup mendukung pengolahan data clustering, karena program ini telah dilengkapi dengan tampilan yang lebih
praktis, efektif, atraktif dan user friendly, sehingga membantu penulis, dalam melakukan analisis cluster menggunakan algoritma FCM dan GG. Aplikasi GUI ini juga dapat
membantu pengguna lain dalam melakukan penelitian yang sama dengan kasus
berbeda, yang menggunakan data, jumlah kelompok, maupun parameter yang berbeda.
Hasil dan Pembahasan
KESIMPULAN DAN SARAN
Saran:
• Perbandingan metode clustering FCM dengan metode lainnya sudah banyak dilakukan oleh para peneliti, yang menunjukkan keunggulan metode ini dibandingkan dengan metode-metode clustering nonhierarki lainnya yang sudah ada yang juga mengusung penggunaan konsep fuzzy, contohnya algoritma gustafson-kessel, fuzzy c-sell, maupun
Gath-Geva clustering. Sehingga penulis menyarankan untuk membandingkan metode ini dengan metode yang lebih baru lainnya, misalnya seperti membandingkan FCM dengan
Ruspini’s Method ataupun dengan Relational Clustering (Miyamoto el al., 2008).
• Menggunakan data dengan lebih dari satu kasus, untuk membandingkan hasil
pengelompokkannya. Sehingga baik metode, output maupun indeks validitasnya, dapat dibandingkan dengan kasus lain yang berbeda, untuk menguji apakah memang kriteria-kriteria tersebut lebih baik jika ada pembanding dalam kasus lainnya.
• Penggunakan beberapa indeks validitas cluster baru lainnya seperti Kim index dan indeks yang diusulkan oleh Rezaee (Rezaee, 2010). Sehingga diharapkan akan dapat lebih
menangkap tingkat keeefektifan dan realibilitas dalam penentuan jumlah clustersecara optimal.
• Melibatkan aspek spasial dalam mengelompokkan objek wilayah, sehingga pengaruh spasial tersebut dapat diperhitungkan dalam analisis kelompok.
• Meng-compile aplikasi GUI ke dalam executable filesehingga dapat dijalankan langsung dari Windows Explorer atau common prompttanpa bantuan perangkat lunak Matlab.
DAFTAR PUSTAKA
Abonyi, J. dan Szeifert, F. (2003). ”Supervised Fuzzy Clustering for the Identification of Fuzzzy
Classifiers”,Journal Elsevier, Vol. 24, 2195-2207.
Badan Pusat Statistik Provinsi Kalimantan Timur. (2010). Kalimantan Timur Dalam Angka 2010.
Badan Pusat Statistik, Kalimantan Timur.
Bezdek, J.C. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press, New York.
Bezdek, J.C. and Dunn, J.C. (1975). Optimal fuzzy partitions: A heuristic for estimating the parameters in a mixture of normal dustrubutions. IEEE Transactions on Computers, pages 835-838.
Gath, I. and Geva, A.B. (1989). Unsupervised optimal fuzzy clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 7:773-781.
Gustafson, D. and Kessel, W. (1979). Fuzzy clustering with a fuzzy covariance matrix, in: Proceedings of the IEEE CDC, San Diego, CA, USA, pages 761-766.
Johnson, R.A. and Wichern, D.W. (2007). Applied Multivariate Statistical Analysis - Sixth Edition.
New Jersey : Prentice Hall International Inc.
Kim, D.W., Lee, K.H., Lee, D. (2003). Fuzzy cluster validation index based on inter-cluster proximity, Pattern Recognition Lett.24 2561-2574.
Kusumadewi, Sri dan Hartati, Sri. (2010). Neuro Fuzzy, Integrasi Sistem Fuzzy dan Jaringan Syaraf.
Yogyakarta : Graha Ilmu.
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. In LeCam, L. and Neyman, J., editors, Proceedings of the Fifth Berkeley Symposium on Mathematical statistics and probability, volume 1, pages 281-297, Berkeley. University of California Press.
Maxwell, B.A., Pryor F.L., dan Smith C.. (2002). Cluster Analysis In Cross-Cultural Research”, International Journal of World Cultures 13(1): 22-38.
Pedrycz, W. (2007).Advances in Fuzzy Clustering and its Applications. Edited by J. Valente de Oliveira and John Wiley & Sons, Ltd. ISBN: 978-0-470-02760-8. University of
Alberta, Canada Systems Research Institute of the Polish Academy of Sciences, Poland. Pravitasari, A. A., (2008), ANALISIS PENGELOMPOKKAN DENGAN FUZZY C-MEANS CLUSTER
(Kasus Pengelompokkan Kecamatan di Kabupaten Tuban berdasarkan Tingkat Partisipasi Pendidikan), Thesis, Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh
Nopember, Surabaya.
DAFTAR PUSTAKA
Ravi, V., Srinivas, E.R. dan Kasabov. N.K.(2007). ”On-Line Evolving Fuzzy
Clustering”, IEEE, International Conference on Computational Intelegence and Multimedia
Application.347-351.
Rezaee, B. (2010). A Cluster Validity Index for Fuzzy Clustering. Jurnal Fuzzy Sets and
Systems, Elsivier, Departement of Industrial Engineering, Bojnord University, Iran, hal. 3014-3025.
Santosa, Budi (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis.Yogyakarta : Graha Ilmu.
Santosa, Singgih (2010). Statistik Multivariat: Konsep dan Aplikasi dengan SPSS.Jakarta : PT Elex Media Komputindo.
Shihab, A. I. (2000). Fuzzy Clustering Algorithm and Their Applicaion to Medical Image Analysis, Dissertation, University of London, London.
Xie, X.L. and Beni, G. (1991). A validity measure for fuzzy clustering, IEEE Trans. Pattern Anal. Mach. Intell.
Zadeh, L. A. (1965), “Fuzzy Sets”. Information Control, vol 8, 338-353.