Jurusan Teknik Informatika, FTI UII
PENDEKATAN ANALISIS FUZZY CLUSTERING PADA
PENGELOMPOKKAN STASIUN POS HUJAN UNTUK
MEMBUAT ZONA PRAKIRAAN IKLIM (ZPI)
Surabaya, Senin 28 Juli 2010
Nama Mahasiswa : Azwar Habibi
NRP : 1308201003
Pembimbing : 1. Dr. Sutikno, S.Si, M.Si Co-Pembimbing : 2. Dr. Ir. Setiawan, M.S
Latar Belakang
Analisis Cluster (teknik analisis statistika multivariat )
mengelompokkan n objek pengamatan ke dalam k kelompok (k < n) berdasarkan p peubah
1. eksplorasi data, 2. reduksi data, dan 3 pelapisan data 3. pelapisan data
Pada proses pengelompokkan secara klasik, pembentukan partisi dilakukan sedemikian rupa sehingga setiap objek berada tepat pada satu partisi. Akan tetapi, pada suatu saat, hal itu tidak dapat dilakukan, karena sebenarnya objek tersebut terletak diantara dua atau lebih partisi yang lain. Sehingga perlu dilakukan pengelompokkan dengan menggunakan Fuzzy clustering dimana dalam melakukan pengelompokkan mempertimbangkan tingkat keanggotaan himpunan fuzzy sebagai dasar pembobotan.
What is Fuzzy Clustering ?
Fuzzy clusteringÎsalah satu metode untuk menentukan cluster optimal dalam suatu ruang vektor yang didasarkan pada bentuk normal euclidian untuk jarak antara vektor, yang bertujuan untuk mengelompokkan n objek yang disajikan dengan vektor ke dalam c suatu kelompok berdasarkan kesamaannya dengan pusat cluster yang diukur melalui fungsi jarak.
1. metode fuzzy c-means cluster, 2. metode fuzzy c-shell cluster,
3. metode fuzzy Subtractive cluster, dan lain-lain
Penelitian Terdahulu
¾Bunkers et al. (1996)Îaverage linkage mempunyai kinerja yang baik.
¾Gong dan Richman (1995)Îmetode Ward’s mempunyai kinerja yang baik diantara metode-metode hierarkhi lainnya.
¾Sutikno (2008),Îmembahas tentang evaluasi Zona Prakiraan Iklim (ZPI) BMG dengan pendekatan analisis kelompok khususnya yang berhirarki yaitu membandingkan metode complete linkage, yang berhirarki yaitu membandingkan metode complete linkage, average linkage, dan Ward’s.
¾Berbeda dengan penelitian terdahulu pada penelitian ini akan dilakukan pengelompokkan dan evaluasi zona prakiraan iklim (ZPI). Khususnya akan dibahas Metode analisis Fuzzy clustering yaitu metode fuzzy c-means cluster, fuzzy c-shell cluster.
¾Metode Fuzzy C-means cluster sering digunakan dalam melakukan pengelompokan, karena metode ini memberikan hasil yang halus dan cukup efektif untuk meningkatkan homogenitas tiap cluster yang dihasilkan (shihab, 2000).
Why using Fuzzy Clustering?...
1. Memiliki toleransi terhadap data yang tidak tepat
2. Memberikan hasil pengelompokkan bagi objek-objek yang tersebar tidak teratur
3. Memberikan hasil yang halus karena pembobotan yang digunakan berdasarkan himpunan fuzzy
4. Mampu memetakan input kedalam output tanpa mengabaikan faktor-faktor yang ada
5. Metodenya sangat fleksibel faktor yang ada
Data curah hujan yang ada tersebar tidak teratur dengan banyak pengamatan yang ekstrim didalamnya yaitu antara data curah hujan di musim kemarau dan di musim hujan sehingga analisis Fuzzy clustering sangat relevan untuk digunakan. Fuzzy clustering dianggap mampu memetakan suatu input kedalam suatu output tanpa mengabaikan faktor-faktor yang ada. Sehingga, sangat fleksibel dan memiliki toleransi terhadap data-data yang ada.
Kriteria indeks validitas
Indeks validitas nilai simpangan baku dalam kelompok (Sw)
(Within/Intra cluster) Îminimum
nilai simpangan baku antar kelompok (SB)
Perumusan Masalah & Tujuan
2. membangun pengelompokkan zona prakiraan iklim di Stasiun-stasiun Pos Hujan di Kabupaten Karawang, Subang dan Indramayu dengan metode Fuzzy c-means cluster dan Fuzzy c-shell cluster ?
3. membandingkan kinerja dari hasil pengelompokan evaluasi zona
1. Mengkaji metode fuzzy c-shell cluster;
3. membandingkan kinerja dari hasil pengelompokan evaluasi zona prakiraan iklim antara metode Fuzzy c-means cluster dan Fuzzy c-shell cluster serta zona prakiraan iklim hasil BMKG?
Menambah wawasan dan pemahaman tentang
fuzzy clustering
Fuzzy c-means cluster Fuzzy c-shell cluster
k l k l i
Manfaat Penelitian
kasus pengelompokan evaluasi zona prakiraan iklim,
metode penyelesaian dalam fuzzy clustering yang lebih efektif
Batasan Masalah
Fuzzy c-means cluster Fuzzy c-shell cluster
Stasiun Pos Hujan di Kabupaten Karawang, Subang, kasus pengelompokan evaluasi zona prakiraan iklim
Stasiun Pos Hujan di Kabupaten Karawang, Subang, dan Indramayu
TINJAUAN PUSTAKA
ANALISIS CLUSTERKONSEP HIMPUNAN FUZZY
FUZZY C-MEANS CLUSTER FUZZY C-SHELL CLUSTER
EVALUASI HASIL PENGELOMPOKKAN
ANALISIS FAKTOR TINJAUAN CURAH HUJAN
2.1 ANALISIS CLUSTER
Teknik analisis statistika multivariat yang bertujuan
untuk mengelompokan n objek pengamatan ke dalam k
kelompok (k < n) berdasarkan p peubah, sehingga
setiap pengamatan yang terletak dalam satu kelompok
mempunyai sifat yang lebih besar dibandingkan dengan
mempunyai sifat yang lebih besar dibandingkan dengan
pengamatan yang terletak dalam kelompok lain.
Proses pemetaan himpunan fuzzy didefinisikan
dalam bentuk
dengan
= fungsi keanggotaan
x
di
A
yang
( ) [0,1]
Ax
μ
∈
A
=
{ ,
x
μ
A( )
x x
∈
X
}
( )
Ax
μ
2.2
2.2 KONSEP HIMPUNAN FUZZY
memetakan
X
ke ruang keanggotaan
M
yang
terletak pada rentang [0,1].
Fungsi keanggotaan adalah suatu fungsi yang
mendefinisikan bagaimana memetakan titik-titik
dalam
ruang
masukan
ke
dalam
derajat
¾
Fuzzy c-means cluster adalah suatu teknik
pengclusteran data yang mana keberadaan
tiap-tiap
data
dalam
suatu
cluster
ditentukan oleh nilai keanggotaan;
2.3 FUZZY C-MEANS CLUSTER
2 1 1
(U,V,X)
(
) (
)
c n m W ik ik i kJ
μ
d
= ==
∑∑
Fungsi objektif FCM :
2 2(
, )
(
) (
T)
ik k i k i k i k id
x v
=
x
−
v
=
x
−
v
x
−
v
jarak observasi :
Algoritma Fuzzy c-means cluster
B a c a : X C M u l a i N o r m a l i s a s i X T e n t u k a n : m , t = 0 T e n t u k a n s e c a r a a c a k : u ( t ) d a n v ( t ) F o r i = 1 t o c ( ) 1 1 ( ) ( ) n m i k k k i n m i k k x V μ μ = = ⋅ =∑ ∑ F o r i = 1 t o c F o r i = 1 t o k 1 ( 1 ) 2 2 1 1 i k m m i k j j k d d μ − = = ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ∑ 1 m a xPt Pt− ξ Δ = − < S e l e s a i t = t + 1 Y a T i d a k
2.4
FUZZY C-SHELL CLUSTER
Fuzzy c-shell cluster menjelaskan teknik pendekatan
yang
dipakai
dalam
pengelompokan
bersifat
geometris,
khususnya
menggunakan
bentuk
lingkaran dan ellips.
2 c n
∑∑
2 1 1J ( , , )
(
) (
m)
s ik ik i kU V R
u
D
= ==
∑∑
Fungsi objektif FCS :
2 2(
D
ik)
=
( x
k−
v
i−
r
i)
jarak observasi :
Algoritma Fuzzy c-shell cluster B a c a : X C M u l a i N o r m a l i s a s i X T e n t u k a n : m , t = 0 T e n t u k a n s e c a r a a c a k : u ( t ) , r ( t ) d a n v ( t ) F o r i = 1 t o c ( ) 1 1 ( ) ( ) n m i k k k i n m i k k x V μ μ = = ⋅ =∑ ∑ j = j + 1 F o r i = 1 t o c F o r i = 1 t o c F o r i = 1 t o k 1( 1 ) 2 2 1 1 i k m m i k j j k d d μ − = = ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ∑ S e l e s a i Y a T i d a k ( 1) m a x j j U U − ε Δ = − < 1 1 ( ) x v ( ) n m i k k i k i n m i k k u r u = = − =∑ ∑
9
kriteria nilai simpangan baku, yaitu: dalam kelompok
(S
w) dan antar kelompok (S
B) (Bunkers et al. 1996).
dan
∑
= −=
K k k wK
S
S
1 1(
)
(
)
2 / 1 1 2 11
⎥
⎦
⎤
⎢
⎣
⎡
−
−
=
∑
= − K k k BK
X
X
S
2.5 EVALUASI HASIL PENGELOMPOKKAN
K = banyaknya kelompok yang terbentuk;
S
k= simpangan baku kelompok ke-k;
= rataan kelompok ke-k; = rataan keseluruhan
kelompok.
9
Semakin kecil nilai S
w(minimum) dan semakin besar
nilai S
B(maksimum), maka metode tersebut memiliki
kinerja yang baik, artinya mempunyai homogenitas
yang tinggi.
k
X
X
2.6 Analisis Faktor
Tujuan mendapatkan sejumlah kecil faktor (komponen utama)
menerangkan semaksimal mungkin keragaman data
p m pm p p p p m m m m
F
F
F
X
F
F
F
X
F
F
F
X
ε
μ
ε
μ
ε
μ
+
+
+
+
=
−
+
+
+
+
=
−
+
+
+
+
=
−
l
l
l
M
M
M
M
M
M
l
l
l
l
l
l
...
...
...
2 1 1 1 2 2 2 22 1 12 2 2 1 1 2 21 1 11 1 1mungkin keragaman data
Zona Prakiraan Iklim (ZPI)
daerah yang pola hujan rata-ratanya memiliki perbedaan yang jelas antara periode musim kemarau dan musim hujan
2.7 TINJAUAN CURAH HUJAN
Sifat hujan dibagi menjadi 3 (tiga) kategori, yaitu :
1. Sifat Hujan Atas Normal (AN) : jika nilai curah hujan lebih
dari 115% terhadap rata-ratanya.
2. Sifat Hujan Normal (N) : jika nilai curah hujan antara 85%
-115% terhadap rata-ratanya.
3. Sifat Hujan Bawah Normal (BN) : jika nilai curah hujan
kurang dari 85% terhadap rata-ratanya.
3. METODOLOGI PENELITIAN
Data Data sekunder Data curah hujan bulanan
104 Stasiun Pos Hujan diKabupaten I d S b
3.1 Ilustrasi Data
Tingkat curah hujan tiap stasiun di kabupaten Karawang, Subang dan Indramayu
Indramayu, Subang dan Karawang
3.2 Identifikasi Variabel
3.3 Metode Analisis Data
S k F i d
Analisis Fuzzy Clustering
Metode fuzzy c-shell cluster
Metode fuzzy c-means cluster
ArcView GIS 3.3.lnk
Struktur Fungsi cmeandan cshell
Pada Software R R 2.9.0.lnk
Membuat Peta Kontur untuk Mendeskripsikan Hasil Dari ZPI
Melakukan optimasi dengan
meminimumkan fungsi objektif
menggunakan pengganda lagrange.
3.3.1 Mengkaji metode fuzzy c-shell
cluster
2 1 1J ( , , )
(
) (
)
c n m s ik ik i kU V R
u
D
= ==
∑∑
( , , )
(
)
FCS s kL
U V R
=
J
+
λ
constrain
3.3.2 Tahapan Analisis Data
Mereduksi Data Curah Hujan dengan Analisis Faktor
Evaluasi Kinerja dengan nilai simpangan baku dalam kelompok (Sw) dan antar kelompok (SB) Membentuk Kelompok dengan Metode Fuzzy
c-means cluster dan Fuzzy c-shell cluster
Tahap 1 Data Curah Hujan
Mendeskripsikan Data Curah Hujan per Stasiun
Identifikasi Anggota ZPI
Metode Terbaik Peta Elevasi Kabupaten Karawang, Subang dan Indramayu
Menentukan Metode Terbaik
Identifikasi Kontur Curah Hujan
ZPI Terbaik
ZPI BMKG ZPI Baru
Membandingkan nilai hasil evaluasi simpangan baku dalam kelompok (Sw) dan antar kelompok (SB)
Tahap 2
Tahap 3
4.1 Optimasi Fungsi Objektif pada
Metode Fuzzy C-Shell Cluster
2 1 1 J ( , , ) ( ) ( ) c n m s ik ik i k U V R u D = = =
∑∑
•Fungsi objektif FCS :
1 1 c ik i u = =∑
•Fungsi pembatas :
2 2(
D
ik)
=
( x
k−
v
i−
r
i)
•Jarak observasi
:
( , , )
(
)
FCS s kL
U V R
=
J
+
λ
constrain
•Fungsi lagrange :
FCS( , , )
s k(
)
• Nilai optimum dari
u
ik(derajat keanggotaan
)
(
)
2 1 1 1 1(
)
1
0
c n n c m ik ik k ik i k k i iku
D
u
u
λ
= = = =⎛
⎞
∂
+
⎜
−
⎟
⎝
⎠ =
∂
∑∑
∑ ∑
1 ( 1) 1 ( 1) 2 2 1 1 ( 1) 2 2 11
1
1
1
m ik m c ik j jk m c ik j jku
D
D
D
D
− − = − =⎛
⎞
=
⎜
⎟
⎛
⎞
⎝
⎠
⎜
⎟
⎜
⎟
⎝
⎠
=
⎛
⎞
⎜
⎟
⎜
⎟
⎝
⎠
∑
∑
Optimasi Fungsi Objektif pada Metode Fuzzy C-Shell Cluster…1
• Nilai optimum dari
v
i(pusat cluster)
0
FCS iL
v
∂
=
∂
1 1(
)
(
)
n m ik k k i n m ik ku
x
v
u
= =⇔ =
∑
∑
Nil i
ti
d i (J i j i l
t )
0
FCS iL
r
∂
=
∂
1 1(
)
x
v
(
)
n m ik k i k i n m ik ku
r
u
= =−
=
∑
∑
• Nilai optimum dari (Jari-jari cluster)
r
i4.2 Deskripsi Umum Curah Hujan Tiap Stasiun Pos Hujan di Kabupaten Karawang, Subang dan Indramayu
Bulan Minimum Maksimum Rata-rata Simpangan
baku Januari 162,3 569,5 338,3 83,31 Februari 123,9 442,5 238,1 65,35 Maret 95,65 491,50 198,82 79,65 April 64,6 427,9 157,7 79,14 100 150 200 250 300 350 400 mm Mei 31,70 297,95 92,68 48,42 Juni 19,63 146,40 62,29 27,11 Juli 10,69 119,09 42,71 20,51 Agustus 1,53 94,29 28,44 18,18 Septembe r 9,58 124,47 37,11 21,37 Oktober 32,40 246,90 85,65 43,64 Novembe r 74,9 410,8 161,6 69,54 Desember 91,88 459,70 203,84 66,60 0 50 100 Bulan
4.3 Interpretasi
Analisis Faktor
10 8 6 n va lu e
Scree Plot of Jan, ..., Des
Variabel/ Bulan F1 F2 F3 F4 Januari 0.138 0.947 0.210 0.131 Februari 0.436 0.749 0.319 0.311 Maret 0.836 0.346 0.251 0.279 April 0.872 0.209 0.272 0.283
Multicollinearity is a natural problem in clustering
12 11 10 9 8 7 6 5 4 3 2 1 4 2 0 Jumlah Faktor Ei g en Mei 0.675 0.393 0.531 0.229 Juni 0.594 0.483 0.580 0.093 Juli 0.401 0.418 0.668 0.387 Agustus 0.455 0.543 0.593 0.308 September 0.487 0.385 0.314 0.687 Oktober 0.792 0.198 0.282 0.457 November 0.894 0.120 0.288 0.237 Desember 0.856 0.402 0.254 0.051
4.4 Analisis Fuzzy Clustering dengan Metode Fuzzy C-Means Cluster dan Metode Fuzzy C-Shell Cluster
Metode fuzzy c-shell cluster Interpretasi Analisis Fuzzy
clustering Menggunakan Bantuan Software Statistika R
Metode fuzzy c-means cluster
Struktur Fungsi cmeandan cshell > lib ( 1071)
St u tu u gsc ea da cs e
dalam pustaka e1071 Pada Paket R
Import Data From EXCEL Data Set
inputfuzzy <- sqlQuery(channel = 1, select * from[inputscorefac$])
> library(e1071)
Menentukan pengelompokkan
#optimasi pengelompokkan yaitu 2 sampai 10 kelompok untuk metode fuzzy c-means cluster
inputfuzzy for (i in 2:10){ kelompok<-cmeans(inputfuzzy,i,200,verbose=TRUE,method="cmeans",m=2) print(kelompok) }
#optimasi pengelompokkan yaitu 2 sampai 10 kelompok untuk metode fuzzy c-shell cluster
inputfuzzy for (i in 2:10){ kelompok<-cshell(inputfuzzy,i,200,verbose=TRUE,method="cshell",m=2) print(kelompok) }
Menentukan Kualitas Kelompok…1
cluster_quality<-function(x,y){
mk<-tapply(y, list(kelompok=x),mean,na.rm=TRUE) # mean sk<-tapply(y, list(kelompok=x),sd, na.rm=TRUE) # std. deviations sw<-(sum(sk))/max(x) sb<-sqrt(sum((mk-mean(y))^2)/(max(x)-1)) lambda<-(sw/sb) cat("===========================================================================\n") cat("Rataan kelompok ke k\n") print(mk) cat("===========================================================================\n") cat("Simpangan baku kelompok ke k\n")
cat( Simpangan baku kelompok ke k\n ) print(sk)
cat("===========================================================================\n") cat("Simpangan baku dalam kelompok\n")
print(sw)
cat("===========================================================================\n") cat("Simpangan baku antar kelompok\n")
print(sb) cat("===========================================================================\n") cat("Rasio Sw/Sb (lambda)\n") print(lambda) cat("===========================================================================\n") } cluster_quality(kelompok$cmeans_2,kelompok$sf1)
Menentukan Kualitas Kelompok…2
Kelompok sf1 sf2 sf3 sf4 Average 2 1,213697 11,27121 1,991437 3,970954 4,61182 3 1,032743 0,843682 1,558744 2,301805 1,43424 4 0,712229 0,797347 1,79438 1,162965 1,11673 5 0,386079 0,624076 1,578754 1,074696 0,91590 6 0,29502 0,525813 1,38641 1,00606 0,80333 7 0,608651 0,600526 1,118468 0,831346 0,78975 8 0,328027 0,565375 0,909921 0,803536 0,65171 9 0 344277 0 581724 0 799283 0 759908 0 62130Metode fuzzy c-means cluster
9 0,344277 0,581724 0,799283 0,759908 0,62130 10 0,344298 0,565003 0,516359 0,506571 0,48306 Kelompok sf1 sf2 sf3 sf4 Average 2 21,7036 2,141962 444,9992 19,47861 122,08084 3 3,223711 5,666965 2,922989 4,057012 3,96767 4 2,575579 2,399504 4,538213 7,135729 4,16226 5 4,833121 3,31824 1,993173 4,991448 3,78400 6 3,105102 2,260952 3,210055 4,674141 3,31256 7 4,907659 1,144484 1,577645 2,307168 2,48424 8 0,738159 0,967343 2,433433 1,859901 1,49971 9 2,116312 2,257872 1,900561 1,581344 1,96402 10 1,072381 0,673956 0,779972 0,666793 0,79828
Metode Fuzzy C-Shell Cluster
Menentukan luasan zona prakiraan iklim…1
Outputpengelompokkan yang optimum
Konvert ke-software ArcView GIS 3.3 (program yang dapat menjelaskan data spasial bereferensi geografis)
Menentukan luasan zona prakiraan iklim…2
Menentukan luasan zona prakiraan iklim…3
Menentukan Re-grouping…1
Zona Kode stasiun awal Kode stasiun dominan KeteranganZona 1 1 1 Tidak mengalami revisi
Zona 2 9 9 Tidak mengalami revisi
Zona 3 4, 5, 7, 8, 10 Kode 4 sebanyak 1; 5 sebanyak 5;
Menentukan Re-grouping…2
Zona 3 4, 5, 7, 8, dan 9
10 Kode 4 sebanyak 1; 5 sebanyak 5; 7 sebanyak 5; 8 sebanyak 3; 9 sebanyak 1
Zona 4 5, 7 4 Kode 5 sebanyak 2; 7 sebanyak 1
Zona 5 2, 5, 6, dan 8 7 Kode 2 sebanyak 1; 5 sebanyak 1; 6 sebanyak 1; 8 sebanyak 2
Zona 6 8 8 Tidak mengalami revisi
Zona 7 3, 8 3 Kode 8 sebanyak 1
Zona 8 2, 8 2 Kode 8 sebanyak 1
Perbandingan Hasil Pengelompokkan Metode Fuzzy C-Means Cluster dengan ZPI BMKG
Simpangan baku
SF1 SF2 SF3 SF4 SF1 SF2 SF3 SF4
--- ZPI BMKG --- --- ZPI Baru ---
Sw 0,40 0,52 0,68 0,41 0.30 0.48 0,60 0.40
SB 1,11 1,23 0,88 1,66 1.07 0,87 0,70 0,66
KESIMPULAN...1
• Nilai optimum dari
v
i(pusat cluster)
n
• Nilai optimum dari
u
ik(derajat keanggotaan
)
(
)
2 1 1 1 1(
)
1
0
c n n c m ik ik k ik i k k i iku
D
u
u
λ
= = = =⎛
⎞
∂
+
⎜
−
⎟
⎝
⎠ =
∂
∑∑
∑ ∑
1 ( 1) 1 ( 1) 2 2 1 1 ( 1)1
1
1
1
m ik m c ik j jku
D
D
− − =⎛
⎞
=
⎜
⎟
⎛
⎞
⎝
⎠
⎜
⎟
⎜
⎟
⎝
⎠
=
∑
0
FCS iL
v
∂
=
∂
1 1(
)
(
)
m ik k k i n m ik ku
x
v
u
= =⇔ =
∑
∑
0
FCS iL
r
∂
=
∂
1 1(
)
x
v
(
)
n m ik k i k i n m ik ku
r
u
= =−
=
∑
∑
• Nilai optimum dari (Jari-jari cluster)
r
i1 ( 1) 2 2 1 m c ik j jk
D
D
− =⎛
⎞
⎜
⎟
⎜
⎟
⎝
⎠
∑
KESIMPULAN...2
2. Nilai rataan rasio Sw/Sb optimal untuk kedua metode adalah sama yaitu sebanyak 10 kelompok.
Metode fuzzy c-means cluster = 0,48306; metode fuzzy c-shell cluster yaitu 0,79828; diperoleh 9 kelompok atau 9 zona (dari re-grouping);
Anggota kelompok masing-masing zona adalah sebagai berikut: Zona Wilayah
Zona 1 Karawang bagian barat laut Zona 1 Karawang bagian barat laut Zona 2 Karawang bagian barat daya
Zona 3 Karawang bagian tengah, sebagian Subang bagian utara Zona 4 Pantai utara Karawang/Subang/Indramayu
Zona 5 Sebagian Subang bagian tengah sebelah timur, sebagian Indramayu bagian tengah sebelah barat
Zona 6 Sebagian subang bagian tenggara, sebagian indramayu bagian barat daya Zona 7 Subang bagian selatan
Zona 8 sebagian Indramayu bagian selatan dan barat daya Zona 9 sebagian Indramayu bagian timut dan tenggara