(M.4)
KLUSTERING DATA SPASIAL MULTIVARIAT
DENGAN MODEL BASED CLUSTERING
I GedeNyomanMindra Jaya1)
Bertho Tantular1)
SiskaAriani Efendi2)
1)Dosen Program Studi StatistikaFMIPA UNPAD 2)Alumnus Program Studi Statistika FMIPA UNPAD
Email: [email protected]
Abstrak
Analisis data spasial berkaitan erat dengan autokorelasi spasial. Pengklusteran data spasial tanpa memperhatikan autokorelasi spasial besar kemungkinan memberikan hasil pengelompokkan yang tidak tepat. Melalui standarisasi Getis Ord Statistics dapat dilakukan standarisasi data spatial multivariat, yang memungkinkan dilakukan pengelompokkan data spatial dengan hasil yang lebih akurat. Model based clustering adalah teknik analisis kluster yang berbasiskan distribusi peluang campuran yang melakukan pengelompokkan objek berdasarkan fungsi kemungkinan campuran. Melalui penggabungan Getis-Ord Statistics dengan model based clustering diperoleh pengelompokkan kelurahan/desa di kabupaten Bogor yang lebih akurat.
Kata kunci : Spatial Klustering, Model Based Clustering, Getis –Ord Statistics
1. PENDAHULUAN
Analisis kluster memiliki peran penting dalam analisis data spatial. Pengelompokkan data spatial atau lebih dikenal dengan spatial clustering adalah suatu proses mengelompokkan set area (spatial) kedalam kelompok sehingga area di dalam kelompok memiliki tingkat kesamaan karakteristik yang tinggi, dan memiliki perbedaan yang tinggi dengan kelompok lain. Salah satu efek dari data spasial adalah autokorelasi. Autokorelasi terjadi karena adanya dependensi dalam data cross-section, yaitu munculnya hubungan fungsional antara peristiwa yang terjadi dalam suatu area dengan peristiwa yang terjadi di wilayah lainnya. Pengukuran autokorelasi spasial dapat membantu dalam mengidentifikasi pola dari dependensi spasial pada daerah penelitian. Umumnya pengukuran autokorelasi ini masih bersifat univariat, pada kenyataannya sering ditemukan data dalam struktur multidimensi. Penelitian ini mengkaji tentang bagaimana cara mengidentifikasi kelompok-kelompok pada data spasial multivariat, dengan menerapkan metode model based clusering. Model based clustering adalah suatu teknik pengklusteran dengan memandang setiap unit observasi berasal dari populasi dengan
beberapa sub populasi. Terdapat dua metode pengklusteran dalam model based clustering pengklasifikasian dengan metode kemungkinan maksimum (classification likelihood) dan pendekatan fungsi likelihood campuran (mixture likelihood approach) (Giojun W.et all, 2007). Data awal proses pengklasteran diperoleh dari pengukuran autokorelasi spasial dengan menggunakan statistic lokal Getis-Ord untuk tiap variabel. Metode ini diaplikasikan pada kasus demam berdarah di Kota Bogor padaTahun 2009.
2. AUTOKORELASI SPASIAL LOKAL GETIS-ORD
Dalam penelitian ini, statistik autokorelasi spasial lokal Getis-Ord digunakan sebagai alat untuk standarisasi data spasial yang akan diklasterkan. Persamaannya dirumuskan sebagai berikut:
( ) = ∑ ̅
( (∑ ) )
(1)
(Getis-Ord dalam Scrucca, 1992&1995) Nilai ( ) yang positif dan signifikan menunjukkan kelompok nilai tinggi di sekitar lokasi ke-i, sedangkan nilai negatif yang signifikan menunjukkan kelompok nilai rendah di sekitar lokasi ke-i.
3. MODEL BASED CLUSTERING
Algoritma clustering dapat dikembangkan melalui model probabilitik seperti algoritma model based clustering. Dalam algoritma model based clustering, data dipandang berasal dari distribusi peluang campuran. Setiap distribusi dinyatakan sebagai kluster. Algoritma model based clustering mencoba mengoptimalkan kecocokan data dengan model.
Biasanya terdapat dua pendekatan yang seringdigunakan untuk memformulasikan model dalam algoritma model based clustering yaitu kemungkinan klasifikasi dan kemungkinan campuran(Fraley and Raftery, 1998). MisalkanD = {x1, x2, . . . ,xn}adalah setiap observasi dan
fj(xi|j )adalah fungsi densitas untuk observasi xi dari j komponen dengan j menyatakan
matrik parameter dari distribusi xi serta k menyatakan banyak komponen dalam distribusi peluang campuran. Sebagai contoh, misalkan diasumsikan data berasal dari distirbusi Gaussian campuran, dan matrik parameter j terdiri dari vector j dan matrix kovarians j,
dengan fungsi densitas sebagai berikut :
1 2 2 1 1 2 exp{ ( ) ( )} ( | , ) (2 ) |d | T i j j i j j i j j j f
x μ Σ x μ x μ Σ Σ Dengan d adalah dimensi dari data.Pendekatan fungsi kemungkinan klasifikasi (classification likelihood) bertujuan untuk
memaksimumkan fungsi berikut :
1 2 1 2 1
(
,
,...,
; ,
,...,
|
)
(
|
)
i i n C k n i iD
f
x
(2)Pendekatan fungsi kemungkinan campuran (mixture likelihood). Pendekatan ini
mengasumsikan bahwa fungsi peluang merupakan penjumlahan dari komponen densitas terbobot. Jika menggunakan kemungkinan campuran dalam clustering, permasalahannya terletak pada penaksiran parameter model yang diasumsikan campuran. Fungsi matematis yang akan dimaksimumkan adalah :
1 2 1 2 1 1
(
,
,...,
; ,
,...,
|
)
(
|
)
n k M k k j j i j j iD
f
x
(3)Dengan ≥ 0 adalah peluang dari setiap observasi akan menjadi anggota komponen ke j, dengan ketentuan 1
1
k j j
(BianS et all, 2011) 4. HASIL ANALISISUntuk contoh kasus dalam penelitian ini digunakan data skunder dari Dinas Kesehatan Kota Bogor (Fatmawati, 2011). Data yang digunakan adalah data penderita DBD di kelurahan-kelurahan kota Bogor. Unit analisis penelitian ini adalah seluruh kelurahan di wilayah kota Bogor sebayak 68 desa/kelurasahan dengan variabel penelitian yaitu X1 : Angka bebas jentik (%), X2: Kepadatan penduduk ( jiwa/km2), X3: Persentase penderita demam berdarah (%).
Tabel 1. Deskriptif Data
Variabel Mean St.
Deviasi
Minimum Maksimum
Angka Bebas Jentik (X1) 92,24632 2,2776 86 97,5
Kepadatan Penduduk (X2) 110,25 67,9012 15 277
(a) AngkaBebasJentik (b) KepadanPenduduk (c) Pesentase DBD Gambar 1.Peta nilai standarisasi autokorelasi spasial lokal Getis-Ord Gi
Angka bebas jentik dengan nilai rendah terkonsentrasi pada bagian tengah dari wilayah kota Bogor. Kepadatan penduduk dengan nilai rendah menyebar terpisah dari wilayah kota Bogor. Sedangkan, nilai persentase penderita DBD yang tinggi terlihat menyebar memusat dari wilayah kota Bogor
Pengelompokkan objek dalam metode Model Based Clustering diawali dengan menentukan banyak komponen yang paling tepat yaitu menggunakan pendekatan BIC (Bayesian Information Criterion) (Chris., et all. 2006)
.
Tanpa Memperhatikan Efek Spasial
Menggunakan package Mclust dalam R dibawah ini disajikan beberapa plot untuk identifikasi model kluster yang terbaik.
(a). Plot BIC (b). Plot Multivariat
2 4 6 8 -2 0 0 0 -1 5 0 0 -1 0 0 0 -5 0 0 number of components B IC EII VII EEI VEI EVI VVI EEE EEV VEV VVV X1 50 150 250 8 6 9 0 9 4 5 0 1 5 0 2 5 0 X2 86 90 94 0.000 0.003 0.006 0 .0 0 0 0 .0 0 3 0 .0 0 6 X3
(c)Plot Klasifikasi (d) Plot Error Klasifikasi
Gambar 2.Identifikasi Model Kluster Tanpa Memperhatikan Efek Spasial
Tanpa memperhatikan efek spasial maka dengan menggunakan Package Mclust pada R diperoleh model terbaik adalah model dengan empat komponen, dengan bentuk dan volume bervariasi.
Memperhatikan Efek Spasial
Berdasarkan nilai BIC terbesar diperoleh model terbaik adalalah menggunakan 4 komponen. Model yang terbaik yaitu model: spherical dan equal.
(a). Plot BIC (b). Plot Multivariat
2 4 6 8 -7 8 0 -7 4 0 -7 0 0 -6 6 0 number of components B IC EII VII EEI VEI EVI VVI EEE EEV VEV VVV ABJ -2 -1 0 1 2 3 -4 -2 0 2 -2 0 1 2 3 KP -4 -2 0 1 2 -2 -1 0 1 2 -2 0 1 2 PDBD 86 88 90 92 94 96 5 0 1 0 0 1 5 0 2 0 0 2 5 0 X1 X 2
1,2 Coordinate Projection showing Uncertainty
86 88 90 92 94 96 5 0 1 0 0 1 5 0 2 0 0 2 5 0 X1 X 2
(c) Plot Klasifikasi (d) Plot Error Klasifikasi
Gambar3.Identifikasi Model Kluster Memperhatikan Efek Spasial
Berdasarkan visualisasi di atas maka model terbaik adalah model dengan memperhatikan efek spasial yaitu model terdiri dari empat komponen dan berbentuk elips dengan ukuran yang sama.
Tabel.2 KarakteristikKlusterdengan Error Based ClusteringMemperhatikanAutokorelasiSpasial Kelom pok Angka Bebas Jentik (%) Kepadan Penduduk (Jiwa/km2) Persentase Penderita DBD (%) 1 91.86 111.77 0.0021 2 93.56 65.42 0.0007 3 92.31 174.89 0.0020 4 90.84 132.70 0.0024 -4 -3 -2 -1 0 1 2 -2 -1 0 1 2 3 ABJ K P
1,2 Coordinate Projection showing Uncertainty
-4 -3 -2 -1 0 1 2 -2 -1 0 1 2 3 ABJ K P
(a) Model Based Clustering (b) Model Based Clustering (TanpaMemperhatikanEfekSpasial) (MemperhatikanEfekSpasial)
Gambar 4.Peta Klustering
Kelompok
Kelompok 1 (14) Kelompok 2 (13) Kelompok 3 (32) Kelompok 4 (9)
Tabel 3.Kelurahan/DesaDengan Model Based Clustering MemperhatikanEfekSpasial
5. KESIMPULAN
Terdapat perbedaan yang nyata antara pengklusteran data spatial multivariate
dengan menggunakan metode Model Based Clustering dengan mempehatikan efek
spasial melalui standarisasi Lokal Getis-Ord dibandingkan tanpa memperhatikan efek
spasial. Menggunakan contoh kasus data DBD Kota Bogor tahun 2009 menunjukkan
melalui transformasi Lokal Getis-Ord diperoleh hasil pengelompokkan yang lebih
akurat.
Kelompok 1 Kelompok 2 Kelompok 3 Kelompok 4
No. Kelurahan/Desa No. Kelurahan/Desa No. Kelurahan/Desa No. Kelurahan/Desa
10 Pakuan 1 Mulyaharja 12 Lawang Gintung 23 Bantarjati
13 Batu Tulis 2 Pamoyanan 14 Bondongan 24 Tegal Gundil
15 Empang 3 Ranggamekar 20 Katulampa 28 Cibuluh
16 Cikaret 4 Genteng 22 Sukasari 34 Tegal Lega
19 Tajur 5 Kertamaya 31 Paledang 35 Babakan
21 Baranangsiang 6 Rancamaya 32 Gudang 36 Sempur
25 Tanah Baru 7 Bojongkerta 33 Babakan Pasar 40 Kebon Kalapa
26 Cimahpar 8 Harjasari 39 Panaragan 46 Loji
27 Ciluar 9 Muarasari 61 Tanah Sareal 59 Kedung Jaya
29 Kedunghalang 11 Cipaku 68 Kencana
30 Ciparigi 17 Sindang Sari
37 Pabaton 18 Sindang Rasa
38 Cibogor 51 Margajaya
41 Ciwaringin 52 Balungbang Jaya
42 Pasir Mulya 53 Situ Gede
43 Pasir Kuda 54 Bubulak
44 Pasir Jaya 55 Semplak
45 Gunung Batu 66 Kayu Manis
47 Menteng 67 Mekarwangi 48 Cilendek Timur 49 Cilendek Barat 50 Sindang Barang 56 Curug Mekar 57 Curug 58 Kedungwaringin 60 Kebon Pedes 62 Kedung Badak 63 Sukaresmi 64 Sukadamai 65 Cibadak Jumlah : 30 19 9 10
6. DAFTAR PUSTAKA
Brian S. E. and Torsten H. .(201 0).A Handbook of Statistical Analysis Using R Second Editon. CRC Press
_______ Sabine L. Morven L. and Daniel S.(2011). Cluster Analysis, 5th Edition. John Wiley and Sons.
Chris F and Adrian E. Raftery, (2006). MCLUST Version 3 for R: Normal Mixture Modeling and Model-Based Clustering. Technical Report No. 504. Department of Statistics University of Washington
Fatmawati, Nurul. (2011). “Aplikasi Model Autoregresif Spatial-Regresif Campuran dalam
Menaksir Kontribusi Angka Bebas Jenis (ABJ) dan Kepadatan Penduduk dengan Kasus DBD di Kota”.Skripsi. Universitas Padjadjaran, Bandung.
Guojun G, Chaoqun M, and Jianghong W. (2007).Data Clustering Siam.
Hair, J. F, Anderson R. E, Tantham, R. L, and Black, W. C. 1998. Multivariate Data Analysis. Fifth Edition. Prentice Hall International, Inc. Upper Saddle River, New Jersey.
R Development Core Team (2005) R: A language and environment for statisticalcomputing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org.
Scrucca, Luca. 2005. “Clustering Multivariate Spatial Data Based on Local Measure of Spatial