• Tidak ada hasil yang ditemukan

(M.4) KLUSTERING DATA SPASIAL MULTIVARIAT DENGAN MODEL BASED CLUSTERING

N/A
N/A
Protected

Academic year: 2021

Membagikan "(M.4) KLUSTERING DATA SPASIAL MULTIVARIAT DENGAN MODEL BASED CLUSTERING"

Copied!
9
0
0

Teks penuh

(1)

(M.4)

KLUSTERING DATA SPASIAL MULTIVARIAT

DENGAN MODEL BASED CLUSTERING

I GedeNyomanMindra Jaya1)

Bertho Tantular1)

SiskaAriani Efendi2)

1)Dosen Program Studi StatistikaFMIPA UNPAD 2)Alumnus Program Studi Statistika FMIPA UNPAD

Email: [email protected]

Abstrak

Analisis data spasial berkaitan erat dengan autokorelasi spasial. Pengklusteran data spasial tanpa memperhatikan autokorelasi spasial besar kemungkinan memberikan hasil pengelompokkan yang tidak tepat. Melalui standarisasi Getis Ord Statistics dapat dilakukan standarisasi data spatial multivariat, yang memungkinkan dilakukan pengelompokkan data spatial dengan hasil yang lebih akurat. Model based clustering adalah teknik analisis kluster yang berbasiskan distribusi peluang campuran yang melakukan pengelompokkan objek berdasarkan fungsi kemungkinan campuran. Melalui penggabungan Getis-Ord Statistics dengan model based clustering diperoleh pengelompokkan kelurahan/desa di kabupaten Bogor yang lebih akurat.

Kata kunci : Spatial Klustering, Model Based Clustering, Getis –Ord Statistics

1. PENDAHULUAN

Analisis kluster memiliki peran penting dalam analisis data spatial. Pengelompokkan data spatial atau lebih dikenal dengan spatial clustering adalah suatu proses mengelompokkan set area (spatial) kedalam kelompok sehingga area di dalam kelompok memiliki tingkat kesamaan karakteristik yang tinggi, dan memiliki perbedaan yang tinggi dengan kelompok lain. Salah satu efek dari data spasial adalah autokorelasi. Autokorelasi terjadi karena adanya dependensi dalam data cross-section, yaitu munculnya hubungan fungsional antara peristiwa yang terjadi dalam suatu area dengan peristiwa yang terjadi di wilayah lainnya. Pengukuran autokorelasi spasial dapat membantu dalam mengidentifikasi pola dari dependensi spasial pada daerah penelitian. Umumnya pengukuran autokorelasi ini masih bersifat univariat, pada kenyataannya sering ditemukan data dalam struktur multidimensi. Penelitian ini mengkaji tentang bagaimana cara mengidentifikasi kelompok-kelompok pada data spasial multivariat, dengan menerapkan metode model based clusering. Model based clustering adalah suatu teknik pengklusteran dengan memandang setiap unit observasi berasal dari populasi dengan

(2)

beberapa sub populasi. Terdapat dua metode pengklusteran dalam model based clustering pengklasifikasian dengan metode kemungkinan maksimum (classification likelihood) dan pendekatan fungsi likelihood campuran (mixture likelihood approach) (Giojun W.et all, 2007). Data awal proses pengklasteran diperoleh dari pengukuran autokorelasi spasial dengan menggunakan statistic lokal Getis-Ord untuk tiap variabel. Metode ini diaplikasikan pada kasus demam berdarah di Kota Bogor padaTahun 2009.

2. AUTOKORELASI SPASIAL LOKAL GETIS-ORD

Dalam penelitian ini, statistik autokorelasi spasial lokal Getis-Ord digunakan sebagai alat untuk standarisasi data spasial yang akan diklasterkan. Persamaannya dirumuskan sebagai berikut:

( ) = ∑ ̅

( (∑ ) )

(1)

(Getis-Ord dalam Scrucca, 1992&1995) Nilai ( ) yang positif dan signifikan menunjukkan kelompok nilai tinggi di sekitar lokasi ke-i, sedangkan nilai negatif yang signifikan menunjukkan kelompok nilai rendah di sekitar lokasi ke-i.

3. MODEL BASED CLUSTERING

Algoritma clustering dapat dikembangkan melalui model probabilitik seperti algoritma model based clustering. Dalam algoritma model based clustering, data dipandang berasal dari distribusi peluang campuran. Setiap distribusi dinyatakan sebagai kluster. Algoritma model based clustering mencoba mengoptimalkan kecocokan data dengan model.

Biasanya terdapat dua pendekatan yang seringdigunakan untuk memformulasikan model dalam algoritma model based clustering yaitu kemungkinan klasifikasi dan kemungkinan campuran(Fraley and Raftery, 1998). MisalkanD = {x1, x2, . . . ,xn}adalah setiap observasi dan

fj(xi|j )adalah fungsi densitas untuk observasi xi dari j komponen dengan j menyatakan

matrik parameter dari distribusi xi serta k menyatakan banyak komponen dalam distribusi peluang campuran. Sebagai contoh, misalkan diasumsikan data berasal dari distirbusi Gaussian campuran, dan matrik parameter j terdiri dari vector j dan matrix kovarians j,

dengan fungsi densitas sebagai berikut :

1 2 2 1 1 2 exp{ ( ) ( )} ( | , ) (2 ) |d | T i j j i j j i j j j f

     x μ Σ x μ x μ Σ Σ Dengan d adalah dimensi dari data.

(3)

Pendekatan fungsi kemungkinan klasifikasi (classification likelihood) bertujuan untuk

memaksimumkan fungsi berikut :

1 2 1 2 1

(

,

,...,

; ,

,...,

|

)

(

|

)

i i n C k n i i

D

f

 

 

x

 (2)

Pendekatan fungsi kemungkinan campuran (mixture likelihood). Pendekatan ini

mengasumsikan bahwa fungsi peluang merupakan penjumlahan dari komponen densitas terbobot. Jika menggunakan kemungkinan campuran dalam clustering, permasalahannya terletak pada penaksiran parameter model yang diasumsikan campuran. Fungsi matematis yang akan dimaksimumkan adalah :

1 2 1 2 1 1

(

,

,...,

; ,

,...,

|

)

(

|

)

n k M k k j j i j j i

D

f

 

 

 

x

(3)

Dengan ≥ 0 adalah peluang dari setiap observasi akan menjadi anggota komponen ke j, dengan ketentuan 1

1

k j j

(BianS et all, 2011) 4. HASIL ANALISIS

Untuk contoh kasus dalam penelitian ini digunakan data skunder dari Dinas Kesehatan Kota Bogor (Fatmawati, 2011). Data yang digunakan adalah data penderita DBD di kelurahan-kelurahan kota Bogor. Unit analisis penelitian ini adalah seluruh kelurahan di wilayah kota Bogor sebayak 68 desa/kelurasahan dengan variabel penelitian yaitu X1 : Angka bebas jentik (%), X2: Kepadatan penduduk ( jiwa/km2), X3: Persentase penderita demam berdarah (%).

Tabel 1. Deskriptif Data

Variabel Mean St.

Deviasi

Minimum Maksimum

Angka Bebas Jentik (X1) 92,24632 2,2776 86 97,5

Kepadatan Penduduk (X2) 110,25 67,9012 15 277

(4)

(a) AngkaBebasJentik (b) KepadanPenduduk (c) Pesentase DBD Gambar 1.Peta nilai standarisasi autokorelasi spasial lokal Getis-Ord Gi

Angka bebas jentik dengan nilai rendah terkonsentrasi pada bagian tengah dari wilayah kota Bogor. Kepadatan penduduk dengan nilai rendah menyebar terpisah dari wilayah kota Bogor. Sedangkan, nilai persentase penderita DBD yang tinggi terlihat menyebar memusat dari wilayah kota Bogor

Pengelompokkan objek dalam metode Model Based Clustering diawali dengan menentukan banyak komponen yang paling tepat yaitu menggunakan pendekatan BIC (Bayesian Information Criterion) (Chris., et all. 2006)

.

Tanpa Memperhatikan Efek Spasial

Menggunakan package Mclust dalam R dibawah ini disajikan beberapa plot untuk identifikasi model kluster yang terbaik.

(a). Plot BIC (b). Plot Multivariat

2 4 6 8 -2 0 0 0 -1 5 0 0 -1 0 0 0 -5 0 0 number of components B IC EII VII EEI VEI EVI VVI EEE EEV VEV VVV X1 50 150 250 8 6 9 0 9 4 5 0 1 5 0 2 5 0 X2 86 90 94 0.000 0.003 0.006 0 .0 0 0 0 .0 0 3 0 .0 0 6 X3

(5)

(c)Plot Klasifikasi (d) Plot Error Klasifikasi

Gambar 2.Identifikasi Model Kluster Tanpa Memperhatikan Efek Spasial

Tanpa memperhatikan efek spasial maka dengan menggunakan Package Mclust pada R diperoleh model terbaik adalah model dengan empat komponen, dengan bentuk dan volume bervariasi.

Memperhatikan Efek Spasial

Berdasarkan nilai BIC terbesar diperoleh model terbaik adalalah menggunakan 4 komponen. Model yang terbaik yaitu model: spherical dan equal.

(a). Plot BIC (b). Plot Multivariat

2 4 6 8 -7 8 0 -7 4 0 -7 0 0 -6 6 0 number of components B IC EII VII EEI VEI EVI VVI EEE EEV VEV VVV ABJ -2 -1 0 1 2 3 -4 -2 0 2 -2 0 1 2 3 KP -4 -2 0 1 2 -2 -1 0 1 2 -2 0 1 2 PDBD 86 88 90 92 94 96 5 0 1 0 0 1 5 0 2 0 0 2 5 0 X1 X 2

1,2 Coordinate Projection showing Uncertainty

86 88 90 92 94 96 5 0 1 0 0 1 5 0 2 0 0 2 5 0 X1 X 2

(6)

(c) Plot Klasifikasi (d) Plot Error Klasifikasi

Gambar3.Identifikasi Model Kluster Memperhatikan Efek Spasial

Berdasarkan visualisasi di atas maka model terbaik adalah model dengan memperhatikan efek spasial yaitu model terdiri dari empat komponen dan berbentuk elips dengan ukuran yang sama.

Tabel.2 KarakteristikKlusterdengan Error Based ClusteringMemperhatikanAutokorelasiSpasial Kelom pok Angka Bebas Jentik (%) Kepadan Penduduk (Jiwa/km2) Persentase Penderita DBD (%) 1 91.86 111.77 0.0021 2 93.56 65.42 0.0007 3 92.31 174.89 0.0020 4 90.84 132.70 0.0024 -4 -3 -2 -1 0 1 2 -2 -1 0 1 2 3 ABJ K P

1,2 Coordinate Projection showing Uncertainty

-4 -3 -2 -1 0 1 2 -2 -1 0 1 2 3 ABJ K P

(7)

(a) Model Based Clustering (b) Model Based Clustering (TanpaMemperhatikanEfekSpasial) (MemperhatikanEfekSpasial)

Gambar 4.Peta Klustering

Kelompok

Kelompok 1 (14) Kelompok 2 (13) Kelompok 3 (32) Kelompok 4 (9)

(8)

Tabel 3.Kelurahan/DesaDengan Model Based Clustering MemperhatikanEfekSpasial

5. KESIMPULAN

Terdapat perbedaan yang nyata antara pengklusteran data spatial multivariate

dengan menggunakan metode Model Based Clustering dengan mempehatikan efek

spasial melalui standarisasi Lokal Getis-Ord dibandingkan tanpa memperhatikan efek

spasial. Menggunakan contoh kasus data DBD Kota Bogor tahun 2009 menunjukkan

melalui transformasi Lokal Getis-Ord diperoleh hasil pengelompokkan yang lebih

akurat.

Kelompok 1 Kelompok 2 Kelompok 3 Kelompok 4

No. Kelurahan/Desa No. Kelurahan/Desa No. Kelurahan/Desa No. Kelurahan/Desa

10 Pakuan 1 Mulyaharja 12 Lawang Gintung 23 Bantarjati

13 Batu Tulis 2 Pamoyanan 14 Bondongan 24 Tegal Gundil

15 Empang 3 Ranggamekar 20 Katulampa 28 Cibuluh

16 Cikaret 4 Genteng 22 Sukasari 34 Tegal Lega

19 Tajur 5 Kertamaya 31 Paledang 35 Babakan

21 Baranangsiang 6 Rancamaya 32 Gudang 36 Sempur

25 Tanah Baru 7 Bojongkerta 33 Babakan Pasar 40 Kebon Kalapa

26 Cimahpar 8 Harjasari 39 Panaragan 46 Loji

27 Ciluar 9 Muarasari 61 Tanah Sareal 59 Kedung Jaya

29 Kedunghalang 11 Cipaku 68 Kencana

30 Ciparigi 17 Sindang Sari

37 Pabaton 18 Sindang Rasa

38 Cibogor 51 Margajaya

41 Ciwaringin 52 Balungbang Jaya

42 Pasir Mulya 53 Situ Gede

43 Pasir Kuda 54 Bubulak

44 Pasir Jaya 55 Semplak

45 Gunung Batu 66 Kayu Manis

47 Menteng 67 Mekarwangi 48 Cilendek Timur 49 Cilendek Barat 50 Sindang Barang 56 Curug Mekar 57 Curug 58 Kedungwaringin 60 Kebon Pedes 62 Kedung Badak 63 Sukaresmi 64 Sukadamai 65 Cibadak Jumlah : 30 19 9 10

(9)

6. DAFTAR PUSTAKA

Brian S. E. and Torsten H. .(201 0).A Handbook of Statistical Analysis Using R Second Editon. CRC Press

_______ Sabine L. Morven L. and Daniel S.(2011). Cluster Analysis, 5th Edition. John Wiley and Sons.

Chris F and Adrian E. Raftery, (2006). MCLUST Version 3 for R: Normal Mixture Modeling and Model-Based Clustering. Technical Report No. 504. Department of Statistics University of Washington

Fatmawati, Nurul. (2011). “Aplikasi Model Autoregresif Spatial-Regresif Campuran dalam

Menaksir Kontribusi Angka Bebas Jenis (ABJ) dan Kepadatan Penduduk dengan Kasus DBD di Kota”.Skripsi. Universitas Padjadjaran, Bandung.

Guojun G, Chaoqun M, and Jianghong W. (2007).Data Clustering Siam.

Hair, J. F, Anderson R. E, Tantham, R. L, and Black, W. C. 1998. Multivariate Data Analysis. Fifth Edition. Prentice Hall International, Inc. Upper Saddle River, New Jersey.

R Development Core Team (2005) R: A language and environment for statisticalcomputing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL

http://www.R-project.org.

Scrucca, Luca. 2005. “Clustering Multivariate Spatial Data Based on Local Measure of Spatial

Gambar

Tabel 1. Deskriptif Data
Gambar 2.Identifikasi Model Kluster Tanpa Memperhatikan Efek Spasial
Gambar 4.Peta Klustering Kelompok
Tabel 3.Kelurahan/DesaDengan Model Based Clustering MemperhatikanEfekSpasial

Referensi

Dokumen terkait

Hasil penelitian menunjukkan bahwa terdapat perbedaan pengaruh model pembelajaran problem based learning berbasis penilaian portofolio, model pembelajaran problem based

Pada Non-Autocorrelation based Regioclassification (Non-ACRC) menggunakan lima metode yang terdapat pada ArcGIS yaitu natural breaks, quantile, equal

Hal ini menunjukkan bahwa ada perbedaan hasil belajar yang signifikan antara penerapan model pembelajaran Problem Based Learning dengan Project Based Learning terhadap

Tujuan penelitian ini adalah untuk mengetahui apakah terdapat perbedaan antara model pembelajaran discovery learning dan model pembelajaran problem based learning

(2) Terdapat perbedaan kemampuan pemecahan masalah antara kelompok siswa yang belajar melalui model problem based learning dengan siswa yang belajar melalui model

terdapat perbedaan antara hasil belajar siswa yang dibelajarkan yang menggunakan model pembelajaran problem based learning dengan metode eksperimen terhadap hasil belajar

Hipotesis dalam penelitian ini adalah terdapat perbedaan signifikan kemampuan pemahaman konsep siswa yang diajar menggunakan model Inquiry Based Learning pada kelas

Problem based learning PBLmerupakan model pembelajaran yang melibatkan siswa dalam memecahkan masalah dalam dunia nyata, melalui tahap- tahap metode ilmiah sehingga siswa dapat berpikir