1
PENDEKATAN ANALISIS FUZZY CLUSTERING PADA PENGELOMPOKKAN STASIUN POS HUJAN UNTUK MEMBUAT ZONA PRAKIRAAN IKLIM (ZPI)
Azwar Habibi1, Sutikno2, Setiawan2 1
Mahasiswa S2 Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya
2
Staf Pengajar Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya Email: [email protected], [email protected],
ABSTRAK
Analisis kelompok (cluster analysis) telah digunakan diberbagai bidang, dengan tujuan mengelompokkan objek/observasi. Hal penting dalam analisis kelompok adalah memperoleh nilai simpangan baku dalam kelompok yang minimum dan nilai simpangan baku antar kelompok yang maksimum. Pada penelitian ini dilakukan pengelompokkan stasiun pos hujan untuk membentuk zona prakiraan iklim (ZPI) di Kabupaten Karawang, Subang dan Indramayu dengan menggunakan analisis Fuzzy clustering, yaitu metode fuzzy c-means
cluster, fuzzy c-shell cluster. Hasil penelitian menunjukkan bahwa metode fuzzy c-means cluster mempunyai kinerja (performance) yang lebih baik dari
metode fuzzy c-shell cluster. Hal ini ditunjukkan dengan nilai rasio antara simpangan baku dalam dan simpangan baku antar kelompok metode fuzzy
c-means cluster lebih kecil dari metode fuzzy c-shell cluster. Di samping itu,
disimpulkan juga bahwa metode Fuzzy clustering mempunyai kinerja lebih baik daripada metode kelompok berhirarki, dan hasil pengelompokkan BMG saat ini.
Kata kunci: Analisis kelompok, Fuzzy clustering, fuzzy c-means cluster, fuzzy
c-shell cluster, Zona Prakiraan Iklim.
1. PENDAHULUAN
Analisis kelompok (analisis cluster) tergolong dalam analisis eksplorasi data variabel ganda (Exploratory Multivariat Data Analysis), merupakan analisis yang bertujuan untuk mengelompokkan objek-objek amatan menjadi beberapa kelompok berdasarkan peubah-peubah yang diamati. Pengelompokkan objek-objek berdasarkan kesamaan karakteristik dari variabel-variabel di antara objek-objek tersebut. Secara umum dalam analisis cluster ada dua metode pengelompokkan, yaitu metode berhirarki (Hierarchical Methods) dan metode tidak berhirarki (Nonhierarchical Methods). Metode berhirarki terbagi menjadi dua, yaitu metode agglomerative (penggabungan) dan metode devisive (pemecahan). Pada metode berhirarki pemisahan objek kedalam kelompok-kelompok dilakukan dengan menggunakan beberapa metode, diantaranya: metode pautan tunggal (Single Linkage
Methode), metode pautan lengkap (Complete Linkage Methode) dan metode rata-rata
Seminar Nasional Statistika IX
2
kelompok (Average Linkage Method). Sementara dalam metode tak berhirarki digunakan metode k-means dan metode nucleated agglomerative (Dillon dan Goldstein, 1984).
Pada proses pengelompokkan (clustering) secara klasik, pembentukan partisi dilakukan sedemikian rupa sehingga setiap objek berada tepat pada satu partisi. Akan tetapi, pada suatu saat, hal itu tidak dapat dilakukan untuk menempatkan suatu objek tepat pada suatu partisi, karena sebenarnya objek tersebut terletak diantara dua atau lebih partisi yang lain. Sehingga perlu dilakukan pengelompokkan dengan menggunakan Fuzzy
clustering dimana dalam melakukan pengelompokkan mempertimbangkan tingkat
keanggotaan himpunan fuzzy sebagai dasar pembobotan (Abonyi dan Szeifert, 2002). Ravi, Srinivas dan Kasabov (2007) menjelaskan, Fuzzy clustering yaitu salah satu metode untuk menentukan cluster optimal dalam suatu ruang vektor yang didasarkan pada bentuk normal euclidian untuk jarak antara vektor, yang bertujuan untuk mengelompokkan n objek yang disajikan dengan vektor ke dalam c suatu kelompok berdasarkan kesamaannya dengan pusat cluster yang diukur melalui fungsi jarak. Ada beberapa metode (algoritma) yang telah dikembangkan dalam analisis Fuzzy clustering, antara lain metode fuzzy
c-means cluster, fuzzy c-shell cluster, fuzzy Subtractive cluster dan lain sebagainya.
Sutikno (2008), menjelaskan Badan Meteorologi Klimatologi dan Geofisika telah membuat pengelompokkan iklim (pola curah hujan) dengan membuat zona prakiraan iklim (ZPI) pada tahun 2006, yang sebelumnya dinamakan daerah prakiraan iklim (DPM). Untuk Propinsi Jawa Barat, Banten, dan DKI Jakarta terbagi atas 31 zona Khusus Kabupaten Karawang, Subang, dan Indramayu terbagi atas 10 ZPI. Pembagian zona tidak dibatasi oleh wilayah administrasi kabupaten atau kota, sehingga dalam satu zona tertentu bisa mencakup beberapa kabupaten/kota. Metode penggabungan yang seringkali digunakan adalah complete linkage, average linkage, Ward’s (Bunkers et al. 1996); complete linkage (BMG 2003); Ward’s dan Centroid (Wigena 2006). Bunkers et al. (1996) menyimpul-kan bahwa average linkage mempunyai kinerja yang baik. Sementara itu Gong dan Richman (1995) menyimpulkan metode Ward’s mempunyai kinerja yang baik diantara metode-metode hierarkhi lainnya.
Penelitian terdahulu dilakukan oleh Sutikno (2008) membahas tentang evaluasi Zona Prakiraan Iklim (ZPI) BMG dengan pendekatan analisis kelompok khususnya yang berhirarki yaitu membandingkan metode complete linkage, average linkage, dan Ward’s. Berbeda dengan penelitian terdahulu pada penelitian ini akan dilakukan pengelompokkan dan evaluasi zona prakiraan iklim (ZPI) berdasarkan data curah hujan khusus Kabupaten
3
Karawang, Subang dan Indramayu. Khususnya akan dibahas Metode analisis Fuzzy
clustering yaitu metode fuzzy c-means cluster, fuzzy c-shell cluster.
2. TINJAUAN PUSTAKA Analisis Cluster
Analisis Cluster adalah teknik analisis statistika multivariat yang bertujuan untuk mengelompokan n objek pengamatan ke dalam m kelompok (m < n) berdasarkan p peubah, sehingga setiap pengamatan yang terletak dalam satu kelompok mempunyai sifat yang lebih besar dibandingkan dengan pengamatan yang terletak dalam kelompok lain (Johnson dan Wihern, 1998). Manfaat dari pengelompokan ini yaitu untuk eksplorasi data, reduksi data dan pelapisan data. Eksplorasi data dilakukan untuk memperoleh gambaran tentang informasi yang ada dalam himpunan data tersebut. Dengan reduksi data dimungkinkan untuk mewakili seluruh anggota kelompok dalam suatu informasi ringkasan kelompok tersebut. pengelompokan hasil analisis ini dapat digunakan sebagai pelapisan dalam penarikan contoh atau penggolongan tipe objek. Hasil akhir dari analisis cluster adalah terbentuknya kelompok yang diharapkan mempunyai kesamaan karakteristik.
Konsep Himpunan Fuzzy
Tirta (2003), menjelaskan sejauh ini telah dipelajari logika dengan nilai kebenaran yang mutlak, 0 atau 1. Logika ini selanjutnya disebut logika biner (bernilai 2). Padahal di masyarakat dikenal banyak hal yang sulit ditentukan secara mutlak apakah suatu itu benar atau salah. Masyarakat biasa menyebut sebagai wilayah abu-abu (grey area). Demikian juga dalam hal himpunan, kita belum bisa membicarakan himpunan dengan kriteria bersifat kualitatif. Sifat-sifat atau keadaan seperti:” cantik, manis, muda, tinggi” adalah merupakan kondisi yang tidak bisa dinilai secara mutlak setiap orang mungkin saja mempunyai penilaian yang berbeda terhadap objek yang sama.
Proses pemetaan himpunan fuzzy didefinisakan dalam bentuk
( ) [0,1]
A
x
(1)dengan
A
{ ,
x
A( )
x x X
}
(2) dengan
A( )
x
adalah fungsi keanggotaan x di A yang memetakan X ke ruang keanggotaanM yang terletak pada rentang [0,1].
Fungsi keanggotaan adalah suatu fungsi yang mendefinisikan bagaimana memetakan titik-titik dalam ruang masukan ke dalam derajar keanggotaannya yaitu antara 0 dan 1.
4
Ruang masukan biasanya disebut juga sebagai semesta pembicaraan. Fungsi keanggotaan (membership function) difisualisaikan berbentuk suatu kurva yang menunjukkan pemetaan titik-titik input data kedalam nilai keanggotaanya yang memiliki interval antara 0 sampai 1. Salah satu cara yang dapat digunakan untuk mendapatkan nilai keanggotaan adalah dengan melalui pendekatan fungsi. Beberapa fungsi keanggotaan yang sering digunakan misalnya, segitiga, trapesium, gaussian, generalized bells, fuzzy singleton dan lain-lain (Klir dan Yuan, 1995).
Fuzzy c-means cluster
Fuzzy c-means cluster adalah suatu teknik pengclusteran data yang mana keberadaan
tiap-tiap data dalam suatu cluster ditentukan oleh nilai keanggotaan. Teknik ini pertama kali diperkenalkan oleh Jim Bezdek pada tahun 1981. konsep dasar FCM, pertama kali adalah menentukan pusat cluster yang akan menandai rata-rata untuk tiap-tiap cluster. Pada kondisi awal, pusat cluster ini masih belum akurat. Tiap-tiap data memiliki derajat keanggotaan untuk tiap-tiap cluster. Dengan cara memperbaiki pusat cluster dan nilai keanggotaan tiap-tiap data secara berulang, maka akan dapat dilihat bahwa pusat cluster akan bergerak menuju lokasi yang tepat. Perulangan ini didasarkan pada minimalisasi fungsi objektif (Pi, Qin dan Wang, 2006).
Fungsi objektif yang digunakan pada FCM adalah sebagai berikut (Hasanzadeh, Moradi dan Sadeghi, 2005):
2 1 1
(U,V,X)
n C(
) ( )
W W ik ik k iJ
d
(3) Denganw
[1, ),
1 2(
)
m(
)
ik k i kj ij j id
d x
v
x
v
(4)X adalah data yang akan dicluster yaitu:
11 1 1 m n nm
x
x
X
x
x
(5)Dan V adalah matriks pusat cluster :
11 1 1 m c cm
v
v
V
v
v
(6)5 Nilai Jw terkecil adalah yang terbaik, sehingga:
J (U ,V ,X) minJ(U,V,X)
wk M
(7)Algoritma fuzzy c-means (FCM) adalah sebagai berikut :
a. Input data yang akan dicluster X, berupa matriks berukuran n x m (n = jumlah sampel data, m = atribut setiap data). Xij = data sampel ke-i (i = 1,2,…,n), atribut ke-j (j = 1,2,…,m).
b. Menentukan :
Jumlah cluster yang akan dibentuk = c (
c
2
); Pangkat (pembobot) = w (
w
1
); Maximum Iterasi;
Error terkecil yang diharapkan (nilai positif yang sangat kecil) sebagai kriteria penghentian =
; Fungsi objektif awal = P0 = 0;
Iterasi awal, t = 1, dan
= 1;c. Bentuk matriks partisi awal, U0, adalah sebagai berikut :
11 1 21 2 1n 21 1 22 2 2n 1 1 c2 1 cn
( )
( )
( )
( )
( )
( )
U=
( )
( )
( )
n n c nx
x
x
x
x
x
x
x
x
(8)Matriks partisi awal biasanya dipilih secara acak;
d. menghitung pusat cluster ke-k : Vkj, dengan k = 1,2,…,c; dan j = 1,2,…,m.
1 1(
)
(
)
n W ik ij i kj n W ik iX
V
(9)e. menghitung fungsi objektif pada iterasi ke-t, Pt :
2
1 1 1 n c m w t ij kj ik i k jP
X
V
(10) f. menghitung perubahan patriks partisi :6
1 1 2 1 1 1 2 1 1 m w ij kj j ik c m w ij kj k jX
V
X
V
(11) dengan : i = 1,2,…,n; dan k = 1,2,…,c.g. menentukan kriteria berhenti, yaitu perubahan matriks partisi pada iterasi sekarang dengan iterasi sebelumnya, sebagai berikut :
P P
t t1
(12) Apabila
, maka iterasi dihentikan, namun apabila
, maka naikkan iterasi (t = t + 1) dan kembali ke langkah d.Fuzzy c-shell cluster
Dalam algoritma fuzzy c-shell cluster, bentuk dasar dari cluster adalah p-dimensi
hyper-spherical shell yang dapat dikarakteristikan oleh pusat dan jari-jari. Algoritma
pengelompokan Fuzzy c-shell cluster diberikan sebagai berikut:
a. Menentukan c banyak cluster yang ingin dibuat,
2 c n
, dengan n adalah jumlah dari data. Menentukan eksponen m, antara1 m
.b. Menentukan counter iterasi j = 0. inisialisasi fuzzy c-partisi U0 menggunakan metode konvenien.
c. Menghitung cluster center vi, dan jari-jari cluster ri dengan menggunakan sistem
persamaan non-linier pada persamaan
1
( )
(x
v ) 0
n m ik ik k i k ikD
u
d
dan persamaan (13).menggunakan metode Newton’s dengan perkiraan inisial untuk iterasi pertama dari persamaan 19 dibawah ini:
1 1
( ) x
v
( )
n m ik i k i n m ik ku
u
(13) 1 1( ) x
v
( )
n m ik k i k i n m ik ku
r
u
(14)7
e. Update anggota iterasi ke-j, Uj dengan persamaan 1
( 1) 2 2 1
1
I
k ik m n ik i jku
D
D
.f. Periksa nilai kekonvergenan dengan membandingkan Uj dan Uj-1 dalam nilai norm yang sesuai. Jika
U
j
U
j1
, maka berhenti. Yang lain menetapkan j = j + 1 dan kembali kelangkah c (Dave, 1992).3. METODOLOGI
Data yang digunakan dalam penelitian ini merupakan data sekunder yaitu data curah hujan bulanan yang diperoleh dari stasiun-stasiun di wilayah Kabupaten Karawang, Subang dan Indramayu dengan 104 stasiun. Metode analisis data yang digunakan dalam penelitian ini meliputi program analisis data yang digunakan dalam menganalisis data yakni paket R dan struktur fungsi fuzzy c-mean cluster (cmean) dan fuzzy c-shell cluster (cshell) yang menjelaskan tentang simbol-simbol formula yang dipakai, hingga identifikasi dan analisis data yang digunakan pada data riil. Untuk melihat kinerja kedua metode tersebut digunakan kriteria nilai simpangan baku, yaitu: dalam kelompok (Sw) dan antar
kelompok (SB) (Bunkers et al. 1996).
K k k wK
S
S
1 1Dimana, K adalah banyaknya kelompok yang terbentuk dan Sk merupakan simpangan baku
kelompok ke-k.
1/2 1 2 11
K k k BK
X
X
S
Dengan,
X
k adalah rataan kelompok ke-k danX
rataan keseluruhan kelompok.Semakin kecil nilai Sw dan semakin besar nilai SB, maka metode tersebut memiliki kinerja
yang baik, artinya mempunyai homogenitas yang tinggi. Dengan kata lain metode yang dipilih adalah metode yang mempunyai nilai Sw yang minimum dan nilai SB yang
maksimum.
Berikut ini struktur fungsi fuzzy c-mean cluster (cmean) dan fuzzy c-shell cluster (cshell) yang terdapat dalam pustaka e1071 pada paket R dan dapat digunakan dalam analisis fuzzy clustering, adalah sebagai berikut :
a. struktur fungsi fuzzy c-mean cluster (cmean)
8
dist = "euclidean", method = "cmeans", m = 2, rate.par = NULL, weights = 1, control = list())
b. struktur fungsi fuzzy c-shell cluster (cshell)
cshell(x, centers, iter.max=100, verbose=FALSE, dist="euclidean", method="cshell", m=2, radius = NULL)
4. HASIL DAN PEMBAHASAN
Langkah awal untuk menguji kedua metode fuzzy clustering, dilakukan simulasi penentuan jumlah kelompok yaitu mulai 2 sampai 10 kelompok. Identifikasi penentuan jumlah kelompok yang digunakan dalam menghitung simpangan baku dalam dan antar kelompok adalah nilai rasio Sw dan SB. Semakin kecil nilai rasio tersebut berarti semakin
besar perbedaan rataan antar kelompok. Berdasarkan nilai rasio Sw dan SB yang terendah,
metode Fuzzy c-means cluster menghasilkan 7 kelompok, metode Fuzzy c-shell cluster 2 kelompok. 0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 janu ari febru ari ma ret april me i juni juli agust us sept emb er oktob er nope mber dese mb er 2 3 4 5 6 7 8 9 10
Gambar 1. Nilai rasio simpangan baku dalam kelompok (Sw) dan antar kelompok (SB)
9 0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 janu ari febru ari ma ret april me i juni juli agust us sept emb er okt ober nope mb er dese mb er 2 3 4 5 6 7 8 9 10
Gambar 2. Nilai rasio simpangan baku dalam kelompok (Sw) dan antar kelompok (SB)
metode fuzzy c-shell cluster.
Berdasarkan besaran simpangan baku dalam kelompok (Sw) menunjukkan metode
fuzzy c-means cluster lebih baik dibandingkan fuzzy c-shell cluster terlihat bahwa nilai dari
rataan dari simpangan bakunya lebih kecil.
Rataan rasio Sw / SB: 0,29
Fuzzy c-shell cluster
Jan Feb Mar Apr Mei Jun Jul Agt Sep Okt Nop Des
Sw: 77,35 48,22 58,67 45,06 36,18 20,07 16,74 15,15 19,19 27,79 42,6 57,49
SB: 114,88 133,65 201,41 212,97 123,79 60,03 42,8 38,83 46,46 106,83 172,87 155,84
Rasio Sw / SB:
0,67 0,36 0,29 0,21 0,29 0,33 0,39 0,39 0,41 0,26 0,25 0,37
Tabel 1. nilai simpangan baku dalam kelompok ( Sw ) dan antar kelompok ( SB)
Fuzzy c-means cluster
Jan Feb Mar Apr Mei Jun Jul Agt Sep Okt Nop Des
Sw : 38,62 26,23 27,001 21,13 20,95 11,01 13,26 8,28 12,82 15,53 25,22 27,79
SB : 102,03 93,14 129,41 132,15 78,09 39,58 27,74 26,11 30,11 67,58 109,37 103,72
Rasio Sw / SB
10
Rataan Rasio Sw / SB: 0,35
Berdasarkan nilai rasio Sw / SB diperoleh bahwa hasil dari fuzzy clutering lebih baik
jika dibandingkan dengan ZPI BMG dan ZPI hasil berhirarki. Hal ini ditunjukkan oleh nilai rasio Sw / SB metode fuzzy clutering terkecil dari kedua metode yang lain. (Tabel 2).
Tabel 2. Hasil dari rataan simpangan baku Metode Rataan simpangan baku
Fuzzy c-means cluster 0,29373
Fuzzy c-shell cluster 0,35276
ZPI BMG 0,45071
Hierarchical Methods 0,42378
5. KESIMPULAN
Metode fuzzy c-means cluster mempunyai hasil yang lebih baik dari pada metode
fuzzy c-shell cluster. Di samping itu hasil pengelompokkan dengan metode Fuzzy clustering lebih baik dari pada hasil pengelompokkan yang diperoleh dari metode
berhirarki dan hasil ZPI BMG.
6. DAFTAR PUSTAKA
Abonyi, J. dan Szeifert, F., (2003). Supervised Fuzzy Clustering for the Identification of Fuzzzy Classifiers. Journal Elsevier. 24: 2195-2207.
Bunkers, M.J. dan Miller, J. R., (1996). Definition of Climate Regions in the Northern Plains Using an Objective Cluster Modification Technique. Journal of Climate. 9: 130-146.
Dave, R.N.,(1992). Generalized Fuzzy C-Shell Clustering and Detection of Circular And Elliptical Boundaries. Journal Pergamon Pattern Regognition. 25(7): 713-721. Dillon, W.R dan Goldstein, M. (1984). Multivariate Analysis Methods and Application.
John Wiley & Sons, New York.
Johnson, R.A dan Wichern, D.W. (1998). Applied Multivariate Statistical Analysis. Prentice Hall, Upper Sandle River, New Jerse.
Klir, G.J., dan Yuan, B., (1995). Fuzzy Sets and Fuzzy Logic Theori and Applications, Prentice Hall, Upper Sandle River, New Jerse.
Pi, D., Qin, X., Wang, Q., (2006). Fuzzy Clustering Algoritma Based on Tree For Association Rules. International Journal of Information Tecnology. 12(3): 43-52.
11
Ravi, V., Srinivas, E.R. dan Kasabov. N.K.(2207). On-Line Evolving Fuzzy Clustering.
IEEE, International Conference on Computational Intelegence and Multimedia Application. 347-351.
Sutikno, Boer R, Bey A, Notodiputro KA, dan Las I. (2008). Evaluasi Zona Prakiraan Iklim (ZPI) untuk Kabupaten Karawang, Subang, dan Indramayu dengan Pendekatan Analisis Kelompok. Buletin Meteorologi dan Geofisika. 3(4): 365-379.
Tirta, I. M. (2003). Pengantar Dasar Matematika. Jember: Jurusan Matematika, FMIPA, Universitas Jember.
Wang, X.Y., Garibaldi, J.M., Bird, B. dan George, M.W. (2005). Fuzzy Clustering in Biochemical Analysis of Cancer Cells. EUSFLAT-LFA. 1118-1123.